大模型答数学题“翻车”是种警示

2024-07-19 11:03:49 广州日报

近日，一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大？就此问题，第一财经记者测试了12个大模型。其中，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误，且错法各有不同。

一道小学数学题难倒了一众海内外AI大模型，这在舆论场激起了不小涟漪。有人“惊掉下巴”，调侃“大模型集体翻车”；也有人质疑AI的能力边界，甚至上手测试了一番，结果发现答案对错都有，有些大模型能迅速“承认错误”，而有的则“一错到底”。

针对这一事件，业界给出了分析，总结起来有二。一是技术。大模型在分析文本时，通常会使用特定机制将文本拆分成更小的单元，然后再进行处理。打个比方，这就类似于将一句话拆成一个个词汇去理解。我们都知道，很多词语脱离特定语境，意思可能就变了，所以会有“断章取义”的误解。同理，大模型的这种拆分处理，显然不够严谨。

二是训练数据。现如今，大模型更多是以文本模型进行训练分析，在数理分析、逻辑推理上还有待优化，很多用户也感觉大模型“文科强理科弱”。对此，有媒体以今年高考数学题做测验，结果显示，参与测试的7个大模型全部“不及格”，最高分只有75分。由此看来，所谓大模型是“文科生”的说法，未必没有道理。

有道是“福祸相依”，此次事件不见得完全是坏事，至少提醒了我们两件事。头一件，大模型的短板要补上来。大模型回答数学问题“吃瘪”，暴露了其基础不够扎实。目前，依托庞大参数规模、强大算力资源等“外挂”，大模型作为人工智能领域最热门的技术分支，已在多个领域表现出“超高”水准。因而，业界也早早“走在前面”，锚定工业生产制造、金融计算等重要领域，布局新场景，落地新应用。基础不牢，地动山摇。如果连最基础的数学都搞不定，又如何去解决更复杂的现实问题？如何实现技术范式的颠覆性创新？显然，基础性研究和基本能力建设，已成为必须翻越的两座大山。

第二件，我们要学会对技术产物“祛魅”。AI大模型出道至今，一直顶着“能力担当”的头衔。帮学生写作业、为“打工人”敲总结……如此“博学多才”，以至于我们期待甚高、依赖过多，总觉得它“无所不能”。可事实上，不论是大模型，还是其他人工智能技术，虽然概念持续火热、产品琳琅满目，但大部分尚处在测试探索期，距离真正成熟、好用还有一定距离。所谓“祛魅”，就是保持“人间清醒”。既不过分迷信技术特质，也不盲目夸大技术功用，而是在客观判断和合理运用中，让技术应用成为我们的最佳“搭档”。（庹亚男）

（责编：赵珊）

人民周刊网版权及免责声明：

1.凡本网注明“来源：人民周刊网”或“来源：人民周刊”的所有作品，版权均属于人民周刊网（本网另有声明的除外）；未经本网授权，任何单位及个人不得转载、摘编或以其它方式使用上述作品；已经与本网签署相关授权使用协议的单位及个人，应注意作品中是否有相应的授权使用限制声明，不得违反限制声明，且在授权范围内使用时应注明“来源：人民周刊网”或“来源：人民周刊”。违反前述声明者，本网将追究其相关法律责任。

2.本网所有的图片作品中，即使注明“来源：人民周刊网”及/或标有“人民周刊网(www.peopleweekly.cn)”“人民周刊”水印，但并不代表本网对该等图片作品享有许可他人使用的权利；已经与本网签署相关授权使用协议的单位及个人，仅有权在授权范围内使用图片中明确注明“人民周刊网记者XXX摄”或“人民周刊记者XXX摄”的图片作品，否则，一切不利后果自行承担。

3.凡本网注明“来源：XXX（非人民周刊网或人民周刊）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

4.如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。

※ 联系电话：010-65363526 邮箱：rmzk001@163.com

大模型答数学题“翻车”是种警示

人民周刊微信公众号

人民周刊微博

热点话题

热门视频