随着机器翻译系统的广泛应用,其中的公平性问题日益突显,也就是说,系统在处理不同语言、性别、种族、文化等受保护属性时,可能表现出偏见或不公正。中国科学院软件研究所天基综合信息系统全国重点实验室特别研究助理孙泽宇聚焦可信人工智能的公平性问题,提出了首个旨在检测机器翻译系统公平性的框架FairMT,近日相关论文被软件工程顶级期刊ACM Transactions on Software Engineering and Methodology (TOSEM)接收。
研究人员介绍,现有的几种关于自然语言处理公平性的测试方法主要是利用任务分类,通过输入中变更与公平相关的词汇来检测输出类别的差异。但当前并没有专门为机器翻译任务设计的公平性测试方法,主要挑战在于机器翻译输出的句子是序列而非单一类别,自动检测两个序列之间的公平性问题,目前仍是个难题。
为应对这一挑战,研究团队提出的FairMT框架首先遵循蜕变关系,通过模板化方法变更涉及公平性的相关词汇,将源内容和更改内容作为一组输入。随即使用基于神经网络的语义相似性度量来评估输入所对应的翻译结果,将得分低于预定义阈值的测试案例报告为具有潜在公平性问题的内容。最后,FairMT用额外的蜕变关系判断输入中与公平性无关的内容,通过变异这些内容再度生成测试输入进行语义相似性度量,最终确认是否存在公平性问题。
研究团队已在谷歌翻译、T5和Transformer上使用FairMT方法进行测试,分别检测到最多832、1984和2627个公平性问题。进一步的人工评估也证实了检测结果的有效性。研究团队还发现,常用自动化翻译质量衡量指标BLEU分数与公平性的相似性度量存在正相关关系,可以证明公平性问题的解决有助于提升翻译质量。
(责编:赵珊)