苹果研究揭示人工智能“虚假思维”现象: 推理模型在面对复杂任务时竟然失效

一项由苹果研究人员主导的新研究,对当前被寄予厚望的大型推理模型(LRM)泼了一盆冷水。

研究发现,在解决复杂任务时,像 Claude3.7Thinking 和 Deepseek-R1等专为“模拟思维过程”设计的推理模型,不仅未能展现出优势,反而出现“思考不足”、性能崩溃等严重问题。

QQ20250609-091807.png

这项研究测试了四种经典逻辑谜题:汉诺塔、跳棋、渡河与积木世界。这些谜题允许精确控制任务复杂度,是衡量语言模型推理能力的理想场景。结果显示,标准 LLM 在简单任务中准确率更高且效率更高,而当复杂度升高,推理模型虽表现稍有提升,但最终同样在高复杂度下全面崩溃。

更令人意外的是,这些模型在面对最复杂任务时,不仅准确率下降为零,反而使用了更少的推理标记(tokens)。换句话说,它们“思考”的意愿和能力反而降低了。

QQ20250609-091816.png

研究团队绘制了模型在不同复杂度下的推理轨迹,揭示了两种典型失败模式:过度思考:在简单问题中,模型找到答案后仍持续生成错误备选方案;思考崩溃:在高复杂度问题中,推理过程戛然而止,连尝试路径都无法生成。

虽然推理模型借助“思路链”“自我反思”等机制被认为是通往通用人工智能(AGI)的一步,但苹果的研究指出:这些机制在扩展性上存在根本缺陷,目前的推理模型无法制定出具备通用性的策略,其“思考”更多是统计上的生成,而非真正的逻辑演绎。

QQ20250609-091824.png

研究还发现,不同谜题的表现也与训练数据相关。例如,出现在训练数据中较多的“汉诺塔”任务,其准确率普遍高于复杂度相似但数据稀少的“渡河”任务。这凸显了当前模型对训练分布的高度依赖性。

苹果研究人员最终指出:“当前推理模型的‘思维能力’存在与问题复杂度相对的不对称扩展性,在结构上无法支撑高阶任务的解决。”他们建议,对推理模型的核心设计原则应进行重新思考。

这一发现对行业影响深远。随着 AI 模型规模扩展收益趋于饱和,推理能力被视为通向下一阶段 AI 革命的关键,包括 OpenAI 在内的多家头部企业均在此方向押下重注。如今,这项研究提醒人们:在走向真正“理解”和“推理”的路上,AI 仍面临根本性的技术挑战。

猜你喜欢

探索圣兽之王斯姆图卡镇隐藏物品的获取方法与技巧分享
探索圣兽之王斯姆图卡镇隐藏物品的获取方法与技巧分享

圣兽之王斯姆图卡镇隐藏物品获取攻略

一念逍遥游戏中九色鹿的兑换方式与所需道具详解
一念逍遥游戏中九色鹿的兑换方式与所需道具详解

在一念逍遥中有不少的灵兽,九色鹿就是其中之一,这是一种非常好用的灵兽,那么九色鹿怎么获得?下面就来看看吧!一念逍遥九色

光遇星星收集者兑换商品一览及最佳兑换选择推荐
光遇星星收集者兑换商品一览及最佳兑换选择推荐

在光遇小王子季中有各种各样的先祖,每个先祖都有不同的特色物品,星星收集者就是其中一位先祖,玩家找到他后可以兑换限定物品

原神绯樱绣球的刷新时间和频率汇总,为你解密绯樱绣球多久能再现于原神世界
原神绯樱绣球的刷新时间和频率汇总,为你解密绯樱绣球多久能再现于原神世界

原神2 0版本已经正式更新了,在新的版本中更新了不少的材料,绯樱绣球就是其中一种材料,那么绯樱绣球在哪采集?下面就来看看

古龙风云录中易筋经的获取与全方位攻略指南
古龙风云录中易筋经的获取与全方位攻略指南

古龙风云录易筋经获取全攻略

原神异国的披萨任务接取位置及详细完成攻略解析
原神异国的披萨任务接取位置及详细完成攻略解析

原神2 0版本已经正式开放了,在这个版本中更新了很多的任务,异国的披萨任务就是其中一个任务,那么异国的披萨任务该怎么做?

《正常的大冒险》全关卡攻略详解 6-2关卡通关技巧与方法分享
《正常的大冒险》全关卡攻略详解 6-2关卡通关技巧与方法分享

【导读】《正常的大冒险》攻略大全神器之三攻略分享。今天小编为大家带来的是正常的大冒险攻略分享,是不是还有小伙伴还不知道怎

暗黑破坏神4PVP技巧分享:掌握恶意技能反制与连招策略的关键
暗黑破坏神4PVP技巧分享:掌握恶意技能反制与连招策略的关键

暗黑破坏神4PVP必学:恶意技能反制与连招套路

战之海贼核心角色深度解读——杰拉德的背景与魅力分析
战之海贼核心角色深度解读——杰拉德的背景与魅力分析

杰拉德配音: 藤原 启治有【白骑士】之称的海贼。在冥龙团还没有像现在这么跋扈嚣张的时候,被世人称颂为【传说中的海贼再世】