小说《三体》中,“三体人”不会撒谎、彼此思维和情绪完全透明,这样的情节正逐渐变为现实。随着人工智能(AI)情绪识别技术的发展,机器已经能识别人类情绪的变化。情绪识别正被越来越广泛地应用于机器智能中,也许有一天,人类会被AI彻底看穿。
近日,台湾联合大学研究人员在IEEE ACCESS上发表论文,提出用特定连续动作间骨骼点速度的变化程度,来区分人类微妙情绪变化的新方法。该方法与时空图卷积网络(ST-GCN)相比,“可有效地将识别精度提高50%以上”。
别动,动就被看穿
“通过面部特征、语义与脑波分析来识别人类情绪的研究已经比较多了,AI也能有效地识别出人类的情绪。我们试图提出一种新的情绪识别方式,可以让人们在不同场景下有更多选择,未来也可以通过多手段融合,更准确地进行情绪识别。”论文第一作者、台湾联合大学助理教授蔡明峰在接受《中国科学报》采访时表示,“基于Pose Net深度学习神经网络,我们提出时空变化图卷积网络技术,在进行情绪识别时,获得人体骨架关键点信息不受衣物、皮肤或肌肉等因素的影响。”
在人工智能情绪识别领域,基于面部、语义或脑电波识别技术需要大量的训练样本,通过时空变化图卷积网络(STV-GCN)的连续运动来训练和识别人类行为模式。其识别训练方法采用骨骼检测技术,计算连续动作之间的骨骼点变化程度,并使用特定算法对速度水平进行分类,以区分快速和细微的动作。
目前,该系统对相同动作不同速度的识别精度达到88.89%,情绪状态的识别精度达到83.34%。在速度分类阶段和情绪状态分类阶段,STV-GCN的准确率比ST-GCN提高50%以上。但是,STV-GCN尚难以区分微妙的情绪变化。
蔡明峰认为,在类似城市广场的开放区域中,通过骨骼点变化进行情感识别,可以避免潜在的危险发生。系统可以主动识别愤怒或者悲伤等特殊情绪状况的人,并主动通知该区域的安全管理人员进行处理,可以在一定程度上规避暴力冲突或恶性伤害事件发生。
AI“懂你”九分
“并非只有面部才有微表情,身体姿态也有。”中国科学院自动化研究所研究员、模式识别国家重点实验室副主任陶建华告诉《中国科学报》,“通过面部区域或身体姿态来识别情绪其实各有优缺点,各有不同的适应场景,很难说谁比谁强。”
在AI情绪识别领域,多数识别方法在分析面部表情的背景下进行。而在现实生活中,人们有时会通过语言和表情来掩饰自己的情绪,相比之下,肢体语言却很难操纵,微表情很难被掩饰,往往能传达出更细致、真实的情感状态。
陶建华介绍说,目前主要有两种AI情感识别方式。一种是接触式,即利用脑电、皮肤电、心率心跳等生理特征的信号变化,通过生理参数分析人的情绪变化。另一种是非接触式,可以基于音频或视频,利用声音的特点或者依靠视频信息中表情、头部、身体姿态变化进行识别。“无论是传统的统计模型,还是现在基于神经网络、深度神经网络的一些方法,都能取得比较好的结果”。
“机器不但能识别出人的情绪,还相当准确。总体来说,现在的准确率超过80%,在一些特定的场景中,甚至能达到90%以上。”陶建华说,“情感识别是一种信息通道,准确的识别能增强机器对人的理解能力,如果结合语义、周围环境等信息,机器可以综合判断人的心理状况和真实的意图,从而改善人机交互能力,增强人机交互的友好性。”
更多的应用场景
“能够识别出人类的情感和机器自己具备情感是两个概念。”陶建华说,“情感的产生涉及一系列复杂的心理过程,是包括社会文化、周围环境情况、心理状态等多因素综合作用的结果。尽管人们对AI情感表现方面有些研究,但目前从全球范围内来说,机器产生的情感都是比较初级,与人类还有不小的距离。”
陶建华介绍说,机器与人、机器与机器之间的交流和人们的理想尚有距离。在情感识别过程中,如何在一个数据集中做好一个模型、在更大范围内使用是一个问题。“为此,有些方面需要进一步提高,但这些都不是难以克服的问题。”
如果AI能够更“善解人意”,就可以应用到更多的场景。比如,在全球疫情常态化的背景下,线上学习逐渐成为一种重要的学习方式。但是,屏幕前的学生是否在认真听讲、是否听懂了?他在困惑、紧张或者觉得乏味时,都会有相应的情绪和表现。如果通过AI技术,识别出屏幕前学生的情绪并判断出学习状态,就可以更好地控制难度和进度。
截至目前,已经有不少AI情绪识别研究机构在远程医疗、远程教育、养老看护、打击犯罪、营销、游戏,以及定向广告投放等领域进行探索。据一家市场研究公司预测,2021年全球情感计算市场将达到540亿美元。
(记者 张双虎)