459期行健讲坛:视频语言理解与生成研究进展

2023.05.29

投稿:彭蕾部门:浏览次数:

活动信息

时间: 2023年5月26日(周五)上午10:45-11:45

地点: 校本部东区翔英楼T516

讲座: 视频语言理解与生成研究进展

演讲者: 罗杰波 罗切斯特大学教授

演讲者简介:

罗杰波,ACM、AAAI、IEEE、SPIE和IAPR学会Fellow,欧洲科学院和美国国家发明家科学院院士,罗切斯特大学Albert Arendt Hopeman教授、计算机科学教授,他曾于柯达实验室从事研究长达十五年,后于2011年加入罗切斯特大学。他发表有近600篇高水平学术论文,拥有超过90项美国专利,研究兴趣涵盖了计算机视觉、自然语言处理、机器学习、数据挖掘、计算社会科学和数字健康等领域。曾担任ACM Multimedia 2010、IEEE CVPR 2012、ACM ICMR 2016和IEEE ICIP 2017的程序主席,以及ACM Multimedia 2018和IEEE ICME 2024的大会主席,并曾任IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)、IEEE Transactions on Multimedia (TMM)、IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)、IEEE Transactions on Big Data (TBD)、ACM Transactions on Intelligent Systems and Technology (TIST)、Pattern Recognition、Knowledge and Information Systems (KAIS)、Machine Vision and Applications (MVA)和Intelligent Medicine等国际顶尖学术期刊编委会成员。2020年至2022年期间,他曾担任IEEE TMM的主编。

讲座摘要:

视频-语言理解和生成的研究将计算机视觉(CV)和自然语言处理(NLP)这两个人工智能领域的子领域有机地结合在一起。在图像-语言理解和生成研究方面,取得了显著的进展。然而,在视频-文本领域的研究进展相对滞后。视频领域的主要挑战在于如何有效地建模时间动态。为了应对这一挑战,从三个方向展开研究:(1)学习视频-语言对齐,探索视频和语言之间的关联;(2)利用视频进行语法归纳,通过利用视频来辅助语言习得的过程;以及(3)利用文本学习视频生成,以高效地产生高质量的结果。


邀请人:通信与信息工程学院 曾丹教授

欢迎广大教师和学生参加!