实测strawberry中有2个字母“r”?不会频年夜小的大模型也险些数不对数,数理能力差到惊人!
@科技新知 原创
作者丨王思原 编辑丨赛柯

谁能想到,号称“超级大脑”的大模型,竟然在几道大略的数学题上败给了小学生。
近日,海内火热的音乐节目《歌手》中,孙楠与外国歌手的眇小分数差异,引发了网友关于13.8%和13.11%谁大谁小的辩论。
艾伦研究机构成员林禹臣将此问题抛给了ChatGPT-4o,但结果令人吃惊,最强大模型竟然在回答中给到了13.11比13.8更大的缺点答案。
随后Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?然而几家头部大模型的缺点回答,也让该话题传播开来。
而面对如此大略的问题,国产大模型表现如何呢?为此,我们也对海内7款主流AIGC产品文心一言、通义千问、腾讯元宝、字节豆包、讯飞星火、智谱、Kimi进行了比小学数学更大略的“单词字母数识别”测试,结果令我们大吃一惊。
Part.1
7家大模型,险些全翻车
首先我们向7款大模型产品讯问同一个问题,“strawberry中有几个字母r”?
大模型新星Kimi,斩钉截铁且不加阐明的表示有1个字母r,不过当我们再次讯问时,Kimi竟打翻了自己第一次的缺点答案,给到了第二个缺点答案。再三追问后仍是没能给到精确答案。
来源:科技新知(Kimi)
智谱AI旗下的智谱清言ChatCLM给到的也是缺点答案。
来源:科技新知(智谱清言)
不过也有表现不错的,科大讯飞大略粗暴的给到了精确答案,并且准确的给出了字母的详细位置。
来源:科技新知(讯飞星火)
百度的文心大模型将strawberry每个字母都进行了拆分,然后进行统计,给到了精确结果。
来源:科技新知(文心大模型)
阿里旗下的通义千问在第一次回答中给到了一个缺点答案,并且阐述的位置也是缺点的,第二次虽然再次给出了缺点答案,但其回答中识别到了3个字母r,只是一句“把稳虽然 "rr" 是连续的,但它们仍旧被打算为两个单独的字母。”让人摸不到头脑。
来源:科技新知(通义千问)
于是我们追问了“为什么rr被打算为两个单独的字母”,通义千问竟然又否认了刚才的回答,称“在 "strawberry" 中,两个 "r" 字母可以影响周围音节的发音,但它们仍旧是两个独立的字母。”
来源:科技新知(通义千问)
腾讯元宝在回答这个问题时采取的是假设法,假设了字母“r”的数量为未知数x,然后通过查看单词“strawberry”并计数字母“r”得到x的值,末了给到的答案是精确的。
来源:科技新知(腾讯元宝)
表现良好的还有字节豆包,刀切斧砍的给出了精确答案,并且还举了两个例子来证明这个大略的问题难不倒它。但是,也是豆包的这两个例子出卖了它在识数能力上的问题。豆包称“car”这个单词只有1个“r”,“mirror”则有2个“r”,而“strawberry”比它们都多,有3个。
问题显而易见,“mirror”中有实在是有3个“r”,并非2个。于是我们又追问了一下“mirror中有几个字母r”,豆包给到的答案仍旧是2个,并且又举了两个缺点的例子,称“father”这个单词有2个“r”,而“orange”里面则一个“r”都没有。这多少让人认为豆包的精确回答有“蒙”的嫌疑。
来源:科技新知(豆包)
通过这个大略的测试我们可以看到,7家大模型中有5家都有“不识数”的嫌疑,于是我们又将这个单词进行拆分成2个更大略的字母,测试这些大模型能否给到精确答案。
Part.2
拆分测试,戳穿大模型逻辑短板
为了勾引大模型,只管即便使大模型给到精确答案,我们这部分将分为两个问题,一个是“str中含有几个字母r,berry中含有几个字母r,他们一共含有几个r?”,另一个是“那str和berry合在一起是strawberry,以是strawberry中含有几个字母r?”
不过,被寄予厚望的Kimi还是让我们失落望了。将strawberry拆分成两个大略的单词后,Kimi仍没给到精确答案。
来源:科技新知(Kimi)
同样,智谱清言在这一轮也没能给到精确答案。并且其给出的阐明也与Kimi同等,都认为berry中有1个字母r,以是才导致strawberry中少了1个r。
来源:科技新知(智谱清言)
当我们分开提问时,讯飞星火仍旧给到了精确答案。
来源:科技新知(讯飞星火)
上一轮表现出色的文心大模型这次并没有给到精确答案,它与Kimi和智谱清言都认为“berry” 中有1个“r”,而追问两个单词合在一起有几个r后,文心也是给出了2个的缺点答案。
来源:科技新知(文心大模型)
通义千问这次的表现让人吃惊,不但准确的给出了答案,而且还给了代码级别的打算过程。
来源:科技新知(通义千问)
当我们再次问strawberry中含有几个字母r时,通义千问也非常有逻辑的地见告我们可以直接在 "strawberry" 中查找 "r" 的涌现次数,而不必依赖于之前的组合。
来源:科技新知(通义千问)
腾讯元宝的表现也足够稳定,大略迅速的给到了精确答案。
来源:科技新知(腾讯元宝)
豆包在这一轮也给到的精确答案,但喜好举例的豆包,再次举了一个缺点案例。以是其数数字的水平和逻辑到底若何,仍是未知。
来源:科技新知(豆包)
两轮大略的小测试下来,7家国产大模型只有1家表现稳定,其他6家均涌现了不同程度的缺点,这到底是怎么回事呢?
Part.3
数学不好,实质是能力问题
这类大模型说胡话的征象,在业界被称为大模型涌现幻觉。
此前,哈尔滨工业大学和华为的研究团队揭橥的综述论文认为,模型产生幻觉的三大来源:数据源、演习过程和推理。大模型可能会过度依赖演习数据中的一些模式,如位置靠近性、共现统计数据和干系文档计数,从而导致幻觉。此外,大模型还可能会涌现长尾知识回顾不敷、难以应对繁芜推理的情形。
一位算法工程师认为,天生式的措辞模型更像文科生而不是理科生。实际上措辞模型在这样的数据演习过程中学到的是干系性,使得AI在笔墨创作上达到人类均匀水平,而数学推理更须要的是因果性,数学是高度抽象和逻辑驱动的,与措辞模型处理的措辞数据在实质上有所不同。这意味着大模型要学好数学,除了学习天下知识外,还该当有思维的演习,从而具备推理演绎能力。
不过中国社科院***与传播研究所所长胡正荣也指出,大模型虽然是措辞模型,但这个措辞不是人们常日理解的字面意思,音频、解题等都是大模型可以做的。从理论上看,数学大模型这个技能方向是可行的,但终极结果如何,取决于两个成分,一是算法是不是足够好,二是是否有足够量的数据做支撑。“如果大模型的算法不足聪明,不是真正的数学思维,也会影响到答题的精确率。”
实在对付大模型来说,对自然措辞的理解是根本。很多数理化的专业知识并不是大模型的强项,并且很多大模型是利用搜索把之前已有的解题的履历和知识的推理相结合,可以理解为在搜索内容上进行理解,如果搜索内容本便是缺点的,那么大模型给到的结果一定缺点。
值得一提的是,大模型的繁芜推理能力尤为主要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地须要的关键能力。现在很多大模型的运用处景是客服、谈天等等,在谈天场景不苟言笑胡说八道影响不太大,但它很难在非常严明的商业场合去落地。
随着技能的进步和算法的优化,我们期待大模型能够在更多领域发挥其潜力,为人类社会带来更多实际代价。但通过这次对海内主流大模型的大略测试,也警示我们,在依赖大模型进行决策时,必须保持谨慎,充分认识到其局限性,并在关键领域加强人工审核和干预,确保结果的准确性和可靠性。毕竟,技能的终极目的是做事于人,而不是取代人的思考和判断。