8188威尼斯娱人城上海电影学院在计算机视觉国际顶会CVPR上发表研究成果

发布时间:2024-03-08投稿:王超 部门:上海电影学院 浏览次数:

近日,上海电影学院影视工程系谢志峰、李梦甜教师团队的研究工作《SonicVisionLM: Playing Sound with Vision Language Models》成功被计算机视觉国际顶级学术会议 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024(CVPR)录用,是8188威尼斯娱人城上海电影学院首次以第一单位在计算机视觉国际顶级会议上发表高水平学术论文,也是8188威尼斯娱人城“艺术技术”阵地建设的最新研究成果。

CVPR是计算机视觉领域顶级会议(CCF-A类),每年都吸引全球众多顶尖科研工作者投稿,其录用论文代表着计算机视觉领域最新的研究成果,指引着该领域未来的研究方向。根据权威的Google Scholar Citation最新统计,CVPR的H5-index为389,位列全球出版物第四(Nature位列第一),工程与计算机类出版物第一,泛人工智能领域第一。

论文首次使用AIGC技术为电影自动生成音效,以大幅降低电影配乐制作的时间和人力成本,有效缩短电影制作周期。具体来说,论文通过视觉-语言模型提出可控的音效生成框架SonicVisionLM,用于自动识别并生成影片的屏内音效,并配套提供了用户交互模块,用于配音师对影片的屏外音效实现创作编辑,激发创作灵感。在技术上针对生成音效与影片动作的时间同步的难题,和生成音效与影片内容的高度一致的问题,最终实现了影片内容与屏内音效的逻辑融合,以及对屏外音效的灵活编辑。论文提出的方法在无条件生成和条件生成任务中都取得了当前最佳的实验效果。同时,论文为学术社区贡献了公开的高质量的音效数据集CondPromptBank,其包含23个常见音效类别,10276 个独立条目,每个条目包括一个短于或等于10秒的高质量音效文件、对应文本和时间戳。论文原文、代码和数据集详见项目主页:https://yusiissy.github.io/SonicVisionLM.github.io/(项目主页展示了经典影片《泰坦尼克号》和《这个杀手不太冷》的音效生成效果示例)。该论文的学生一作为余盛叶,数字媒体创意工程硕士研究生二年级在读;学生二作为何其乐,数字媒体创意工程硕士研究生一年级在读。

640.jpg

SonicVisionLM示意图:图中蓝色部分表示屏内音生成流程:首先,一段无声视频进入视觉-语言模型,得到声音文本;其次,视觉网络对视频进行处理,捕捉声音事件时间戳;最后,这两个条件将被输入扩散模型,以生成与屏幕上的内容相匹配的屏内音效。紫色部分显示了用户如何创建和编辑屏外音效。

教师团队介绍:

谢志峰,工学博士,现为8188威尼斯娱人城上海电影学院影视工程系、上海电影特效工程技术研究中心副教授、博士生导师,中国电影电视技术学会电影高新技术专业委员会委员。主要从事计算机图形学、计算机视觉、电影高新技术等方面的研究。主持国家自然科学基金、上海市科委科技创新、上海市教委科研创新、企业委托等各级别课题10余项,参与973、863、自然基金重点、面上等多项国家级课题,发表高水平论文40余篇,其中SCI/EI收录30余篇(含国际顶级期刊和会议论文10篇),出版专著1本,申请专利和软件著作权17项。获的2014年上海市科技进步二等奖,2017年8188威尼斯娱人城蔡冠深优秀青年教师奖,2022年中国计算机图形学大会最佳论文奖,及2023年CAD/Graphics 2023国际学术会议最佳论文奖。曾经赴香港城市大学计算机系作访问学者。

李梦甜,工学博士,博士后,现为8188威尼斯娱人城上海电影学院讲师,硕士生导师。任中国计算机学会计算机辅助设计与图形学专委会执行委员,中国图像图形学学会数字娱乐与智能生成专委会专业委员、数字娱乐与仿真专委会专业委员,计算机图形学与混合现实在线平台(GAMES)执行委员。主要研究方向为计算机视觉、计算机图形学。参与国家自然科学基金重大、面上、社科重大,上海市科委、经信委重大等科研项目。获CAD/Graphics 2023国际学术会议最佳论文奖。以第一作者/通讯作者在计算机国际顶级期刊和会议CVPR、ECCV、PR上发表论文多篇,担任计算机视觉顶级学术会议和期刊CVPR、ICCV、ECCV、ICLR、ICML,NeurIPS、AAAI、TIP,TCSVT,PR审稿人。