大模型答数学题“翻车”是种警示

近日，一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大？就此问题，第一财经记者测试了12个大模型。其中，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误，且错法各有不同。

　　一道小学数学题难倒了一众海内外AI大模型，这在舆论场激起了不小涟漪。有人“惊掉下巴”，调侃“大模型集体翻车”；也有人质疑AI的能力边界，甚至上手测试了一番，结果发现答案对错都有，有些大模型能迅速“承认错误”，而有的则“一错到底”。

　　针对这一事件，业界给出了分析，总结起来有二。一是技术。大模型在分析文本时，通常会使用特定机制将文本拆分成更小的单元，然后再进行处理。打个比方，这就类似于将一句话拆成一个个词汇去理解。我们都知道，很多词语脱离特定语境，意思可能就变了，所以会有“断章取义”的误解。同理，大模型的这种拆分处理，显然不够严谨。

　　二是训练数据。现如今，大模型更多是以文本模型进行训练分析，在数理分析、逻辑推理上还有待优化，很多用户也感觉大模型“文科强理科弱”。对此，有媒体以今年高考数学题做测验，结果显示，参与测试的7个大模型全部“不及格”，最高分只有75分。由此看来，所谓大模型是“文科生”的说法，未必没有道理。

　　有道是“福祸相依”，此次事件不见得完全是坏事，至少提醒了我们两件事。头一件，大模型的短板要补上来。大模型回答数学问题“吃瘪”，暴露了其基础不够扎实。目前，依托庞大参数规模、强大算力资源等“外挂”，大模型作为人工智能领域最热门的技术分支，已在多个领域表现出“超高”水准。因而，业界也早早“走在前面”，锚定工业生产制造、金融计算等重要领域，布局新场景，落地新应用。基础不牢，地动山摇。如果连最基础的数学都搞不定，又如何去解决更复杂的现实问题？如何实现技术范式的颠覆性创新？显然，基础性研究和基本能力建设，已成为必须翻越的两座大山。

　　第二件，我们要学会对技术产物“祛魅”。AI大模型出道至今，一直顶着“能力担当”的头衔。帮学生写作业、为“打工人”敲总结……如此“博学多才”，以至于我们期待甚高、依赖过多，总觉得它“无所不能”。可事实上，不论是大模型，还是其他人工智能技术，虽然概念持续火热、产品琳琅满目，但大部分尚处在测试探索期，距离真正成熟、好用还有一定距离。所谓“祛魅”，就是保持“人间清醒”。既不过分迷信技术特质，也不盲目夸大技术功用，而是在客观判断和合理运用中，让技术应用成为我们的最佳“搭档”。

生活质网

心灵鸡汤

今日导读

热门点击