中国团队在视觉常识推理领域获新突破

2020-12-02 11:05:47 中国网

视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题，从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”被认为是五大智能方向。

近日，腾讯微视视频理解团队在多模态理解领域最权威排行榜之一VCR任务中荣登榜首。该团队提出的BLENDer(BimodaL ENcoDer)模型超越多家研究机构的模型效果，一举成为单、多模型的三项指标第一，值得注意的是，BLENDer仅凭单模型效果便超越了此前榜单上的多模型最好效果，赋予了机器更强大的理解和认知能力，并深度应用到短视频领域。

VisualCommonsense Reasoning (VCR)任务于2018年由华盛顿大学的研究人员首次提出，任务旨在将图像和自然语言理解二者结合，验证多模态模型高阶认知和常识推理的能力，让机器拥有“看图说话”的能力,例如VCR能够通过图片中人物的行为，进一步推理出其动机、情绪等信息。VCR榜单是多模态理解领域最权威的排行榜之一，也是当前图像理解和多模态领域层次最深、门槛最高的任务之一，吸引了微软、谷歌、Facebook、百度、UCLA等国内外公司和研究机构纷纷参与。

据相关负责人介绍，BLENDer模型赋予了平台更强大的认知能力，使得包含文本、音频、视频等多种媒体信息在内的短视频内容，能够更好的做到分类和识别，更加精准理解和挖掘这些海量的跨媒体信息。

在BLENDer模型中，第一阶段以NLP中的Bert模型为起点，结合海量数据中抽取得到的数百万张图片和对应描述文本作为BLENDer的输入进行多模态训练；第二阶段，在视觉常识推理数据集上学习电影中的场景和情节，使模型在新数据上获得更好的迁移能力；第三阶段，引入最终问答任务，让BLENDer利用已有的知识和常识对现有问题进行人物-人物、人物-场景之间关系的挖掘和关联进行推理，得到最终的答案。

未来，人工智能将具备更加多元、深度的交流学习能力，而技术的创新和精进将进一步推动AI技术在短视频业务中智能交互场景的落地。（张铭阳）

（责编：赵珊）

人民周刊网版权及免责声明：

1.凡本网注明“来源：人民周刊网”或“来源：人民周刊”的所有作品，版权均属于人民周刊网（本网另有声明的除外）；未经本网授权，任何单位及个人不得转载、摘编或以其它方式使用上述作品；已经与本网签署相关授权使用协议的单位及个人，应注意作品中是否有相应的授权使用限制声明，不得违反限制声明，且在授权范围内使用时应注明“来源：人民周刊网”或“来源：人民周刊”。违反前述声明者，本网将追究其相关法律责任。

2.本网所有的图片作品中，即使注明“来源：人民周刊网”及/或标有“人民周刊网(www.peopleweekly.cn)”“人民周刊”水印，但并不代表本网对该等图片作品享有许可他人使用的权利；已经与本网签署相关授权使用协议的单位及个人，仅有权在授权范围内使用图片中明确注明“人民周刊网记者XXX摄”或“人民周刊记者XXX摄”的图片作品，否则，一切不利后果自行承担。

3.凡本网注明“来源：XXX（非人民周刊网或人民周刊）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

4.如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。

※ 联系电话：010-65363526 邮箱：rmzk001@163.com

中国团队在视觉常识推理领域获新突破

人民周刊微信公众号

人民周刊微博

热点话题

热门视频