苹果再度提升AI推理能力引发争议,GitHub大咖强烈反驳:这远非推理能力的真实体现!

最近,苹果公司发布了一篇引发热议的论文,指出当前的大语言模型(LLM)在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议,尤其是 GitHub 的高级软件工程师 Sean Goedecke 对此提出了强烈反对。他认为,苹果的结论过于片面,并不能全面反映推理模型的能力。

苹果的论文指出,在解决数学和编程等基准测试时,LLM 的表现并不可靠。苹果研究团队采用了汉诺塔这一经典的人工谜题,分析了推理模型在不同复杂度下的表现。研究发现,模型在面对简单谜题时表现较好,而在复杂度较高的任务中,推理模型往往选择放弃,不再继续推理。

image.png

例如,在处理十盘汉诺塔问题时,模型会觉得手动列出每一步几乎不可能,因此选择寻找 “捷径”,但最终却未能得出正确答案。这一发现表明,推理模型在某些情况下并非没有能力,而是意识到问题过于复杂而选择放弃。

不过,Sean Goedecke 对此表示质疑,他认为汉诺塔并不是测试推理能力的最佳例子,模型的复杂性阈值也可能并非固定。此外,他还提到,推理模型的设计初衷是为了处理推理任务,而不是执行数千次重复性步骤。用汉诺塔测试推理能力,就像在说:“如果某个模型不能写出复杂的诗歌,那它就不具备语言能力”,这并不公平。

虽然苹果的研究揭示了 LLM 在推理方面的一些局限,但这并不意味着这些模型完全没有推理能力。真正的挑战在于如何更好地设计和评估这些模型,以发掘它们的潜力。

猜你喜欢

火影忍者:终极风暴羁绊的快速解锁方法与自定义胜利策略技巧分享
火影忍者:终极风暴羁绊的快速解锁方法与自定义胜利策略技巧分享

火影忍者:终极风暴羁绊快速解锁以自订胜利技巧

哈利波特魔法觉醒无名之书魔法石下的通关攻略与喝酒顺序的详细解析
哈利波特魔法觉醒无名之书魔法石下的通关攻略与喝酒顺序的详细解析

在哈利波特魔法觉醒中有很多的关卡,这些关卡都有不同的通关方法,无名之书魔法石下就是其中之一,那么无名之书魔法石下怎么过

《刀塔传奇》英雄大百科:探索山丘之王——矮人王奥丁之子的独特技能与战斗策略
《刀塔传奇》英雄大百科:探索山丘之王——矮人王奥丁之子的独特技能与战斗策略

前言:楼主写这个英雄大百科的目的并不是为了说明这个英雄有多么的强势。也不是为了和大家分享竞技场心得和搭配。楼主的目的只是

杀戮尖塔未来科技流卡牌组合最佳搭配策略详解与终极指南
杀戮尖塔未来科技流卡牌组合最佳搭配策略详解与终极指南

杀戮尖塔未来科技流卡牌搭配终极指南

无尽之战中的妖怪合成玩法,随意组合才是王道!
无尽之战中的妖怪合成玩法,随意组合才是王道!

无尽之战是一款单机塔防游戏,游戏分本地和竞技场。竞技场就是玩家携带的三张卡牌与随机出现的卡牌比生命值,这里就不作赘述。下

影子诡局:破解被诅咒海盗的各幕过关条件与剧情发展技巧攻略
影子诡局:破解被诅咒海盗的各幕过关条件与剧情发展技巧攻略

影子诡局被诅咒的海盗各幕通关条件与剧情推进攻略

问道手游平民玩家选择哪些宠物比较合适?平民玩家宠物选购攻略推荐
问道手游平民玩家选择哪些宠物比较合适?平民玩家宠物选购攻略推荐

问道手游平民带什么宠物?在问道手游的日常活动和PK中,宠物是一个十分重要的角色。而对于平民玩家来说,应该怎么选择宠物才最

阴阳师山兔如何快速提升速度值 详解山兔御魂搭配与攻略
阴阳师山兔如何快速提升速度值 详解山兔御魂搭配与攻略

阴阳师手游山兔作为一只r级式神,下面带来全面分析,看看阴阳师手游山兔的技能效果、御魂搭配推荐、相互克制的式神都有哪些吧。

博德之门3中吟游诗人专长选择的技巧与误区分析
博德之门3中吟游诗人专长选择的技巧与误区分析

博德之门3吟游诗人专长选择避坑指南

不思议迷宫蒸汽之都无尽模式攻略分享,轻松通关100层的技巧与策略解析
不思议迷宫蒸汽之都无尽模式攻略分享,轻松通关100层的技巧与策略解析

不思议迷宫蒸汽之都无尽模式怎么打,蒸汽之都冈布奥 称号怎么搭配,不思议迷宫蒸汽之都无尽模式需要合理的冈布奥和称号搭配,同