近日,人工智能/自然语言处理领域的顶级国际学术会议EMNLP 2023论文接收结果公布。来自8188威尼斯娱人城计算机学院自然语言处理与多模态人机交互实验室的2篇论文被接收录用。EMNLP全称自然语言处理经验方法会议(Conference on Empirical Methods in Natural Language Processing),作为国际语言学会(ACL)下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议,是人工智能/自然语言处理领域重要国际学术盛会(CCF-B类),以上两篇工作为威尼斯官网首次在该会议接收的论文,展现了近年来计算机学院学科建设、研究生人才培养工作不断取得新的突破。
被录用论文的简要介绍如下:
1. Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning
类型:Main-conferenc
作者:王昊(讲师)、陈夏华(2021级硕士研究生)等
简介:从视觉丰富的类表单文档 (VFD) 中提取属于预定义类别的实体是一项具有挑战性的任务。考虑到相同类型的语义实体通常具有相似的视觉和布局属性,如相同或相似的字体、背景、颜色以及边界框的位置和大小,这为识别实体及其类型提供了重要的指示。然而,现有模型仅在预训练阶段加入粗粒度的跨模态约束(例如文本图像、字补丁和布局文本对齐)来增强视觉通道的特征提取,但这并不能捕获足够的细粒度视觉特征并且视觉先验知识的利用不足。其次,之前的方法视觉编码器的表示能力比最新的光学字符识别(OCR)引擎中的视觉编码器弱,因为它们没有考虑文本段检测和边界框回归等中间任务,而这些任务对于准确定位和提取细粒度视觉特征非常重要。因此,团队提出了一种新颖的视觉不对称一致性学习(VANCL),通过结合颜色先验来增强模型捕获细粒度视觉和布局特征的能力。
图1 VANCL双流一致性学习框架
VANCL采用一种双流一致性学习的框架将增强的视觉信息迁移至原始模型,具有无参数引入、可拔插式的优势,后续实验证明了不同颜色模式与人类行为具有一定相关性,颜色搭配模式对结果的影响是符合认知心理学的。
图2 不同数据集、不同骨干模型的性能比较
2. DocTrack: A Visually-Rich Document Dataset Really Aligned with Human Eye Movement for Machine Reading
类型:Findings
作者:王昊(讲师)、王庆旋(2022级硕士研究生)、李越(2019级本科生)等
简介: 各领域对视觉富文档的使用,催生了对能够像人类一样阅读和理解文档的文档人工智能模型的需求,这需要克服技术、语言和认知障碍。遗憾的是,缺乏合适的数据集严重阻碍了这一领域的发展。为了解决这个问题,该团队构建了一个全新的数据集 DocTrack,这是一个包含了多种类型视觉富文档的多模态数据集,并利用眼动跟踪技术捕捉人类眼动信息,帮助研究者更好的理解人类阅读认知过程。
此外,团队还探讨了不同阅读顺序对文档理解任务的影响,由于默认的OCR引擎解析后的文档内容顺序往往是无规律的,不利于机器理解视觉富文档;现有的模型缺乏从给定文档中产生适合Transformer架构序列化输入的能力。因此,该研究探索如果机器按照与人类相同的顺序阅读会发生什么,在 OCR原始顺序、Z-Order和人类阅读顺序三类不同的顺序的基础上,探究了阅读顺序对机器视觉富文档理解的影响。同时,提出了基于多模态特征融合的排序模型来模仿人类的阅读顺序,每个模型都考虑到了影响人类如何选择优先阅读对象元素的不同因素,包括元素的位置、元素中的文本以及与之相关的视觉区域。利用这些模型,我们可以更准确地评估阅读顺序对人类理解此类文档的影响。
图3 模仿人类阅读顺序的排序模型
该研究进一步基于四种不同的模态组合去模仿人类阅读顺序,并基于所预测出的顺序,构建了相应的机器文档理解模型。实验结果表明,所提出的模型可以模仿的人类阅读顺序,且与真实人类阅读的顺序具有很高的相关性。
图4 DocTrack数据集上人类的阅读顺序对机器理解视觉富文档的影响
当然,虽然文档人工智能模型已经取得了重大进展,但要像人类一样准确、连续、灵活地阅读视觉内容更丰富的文档,还有很长的路要走。
近年来,计算机学院学科建设、人才培养、科学研究等工作不断深化推进,逐渐深入专业领域前沿,产出更多高质量科研成果,为学院培养高质量创新人才起到重要支撑作用。