人民日报出版社主管 人民周刊杂志社主办

010-65363526rmzk001@163.com
首页 > 栏目 > 评论 > 正文

大模型答数学题“翻车”是种警示

2024-07-19 11:03:49    广州日报

近日,一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大?就此问题,第一财经记者测试了12个大模型。其中,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误,且错法各有不同。

一道小学数学题难倒了一众海内外AI大模型,这在舆论场激起了不小涟漪。有人“惊掉下巴”,调侃“大模型集体翻车”;也有人质疑AI的能力边界,甚至上手测试了一番,结果发现答案对错都有,有些大模型能迅速“承认错误”,而有的则“一错到底”。

针对这一事件,业界给出了分析,总结起来有二。一是技术。大模型在分析文本时,通常会使用特定机制将文本拆分成更小的单元,然后再进行处理。打个比方,这就类似于将一句话拆成一个个词汇去理解。我们都知道,很多词语脱离特定语境,意思可能就变了,所以会有“断章取义”的误解。同理,大模型的这种拆分处理,显然不够严谨。

二是训练数据。现如今,大模型更多是以文本模型进行训练分析,在数理分析、逻辑推理上还有待优化,很多用户也感觉大模型“文科强理科弱”。对此,有媒体以今年高考数学题做测验,结果显示,参与测试的7个大模型全部“不及格”,最高分只有75分。由此看来,所谓大模型是“文科生”的说法,未必没有道理。

有道是“福祸相依”,此次事件不见得完全是坏事,至少提醒了我们两件事。头一件,大模型的短板要补上来。大模型回答数学问题“吃瘪”,暴露了其基础不够扎实。目前,依托庞大参数规模、强大算力资源等“外挂”,大模型作为人工智能领域最热门的技术分支,已在多个领域表现出“超高”水准。因而,业界也早早“走在前面”,锚定工业生产制造、金融计算等重要领域,布局新场景,落地新应用。基础不牢,地动山摇。如果连最基础的数学都搞不定,又如何去解决更复杂的现实问题?如何实现技术范式的颠覆性创新?显然,基础性研究和基本能力建设,已成为必须翻越的两座大山。

第二件,我们要学会对技术产物“祛魅”。AI大模型出道至今,一直顶着“能力担当”的头衔。帮学生写作业、为“打工人”敲总结……如此“博学多才”,以至于我们期待甚高、依赖过多,总觉得它“无所不能”。可事实上,不论是大模型,还是其他人工智能技术,虽然概念持续火热、产品琳琅满目,但大部分尚处在测试探索期,距离真正成熟、好用还有一定距离。所谓“祛魅”,就是保持“人间清醒”。既不过分迷信技术特质,也不盲目夸大技术功用,而是在客观判断和合理运用中,让技术应用成为我们的最佳“搭档”。(庹亚男)

(责编:赵珊)

相关热词搜索:

上一篇:全过程人民民主促进国家治理效能提升
下一篇:坚持人民至上谋划和推进改革

人民周刊网版权及免责声明:

1.凡本网注明“来源:人民周刊网”或“来源:人民周刊”的所有作品,版权均属于人民周刊网(本网另有声明的除外);未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品;已经与本网签署相关授权使用协议的单位及个人,应注意作品中是否有相应的授权使用限制声明,不得违反限制声明,且在授权范围内使用时应注明“来源:人民周刊网”或“来源:人民周刊”。违反前述声明者,本网将追究其相关法律责任。

2.本网所有的图片作品中,即使注明“来源:人民周刊网”及/或标有“人民周刊网(www.peopleweekly.cn)”“人民周刊”水印,但并不代表本网对该等图片作品享有许可他人使用的权利;已经与本网签署相关授权使用协议的单位及个人,仅有权在授权范围内使用图片中明确注明“人民周刊网记者XXX摄”或“人民周刊记者XXX摄”的图片作品,否则,一切不利后果自行承担。

3.凡本网注明“来源:XXX(非人民周刊网或人民周刊)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

4.如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

※ 联系电话:010-65363526 邮箱:rmzk001@163.com