高考数学挑战赛:六大人工智能模型激烈角逐,豆包与元宝荣获双冠拍案而起

随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。

image.png

为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以68分的成绩并列第一,展现了出色的推理能力。相对而言,DeepSeek 和通义则稍显逊色,分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望,尤其是 o3,仅获得34分,显现出对国内高考题目的适应性不足。

image.png

在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分35分。DeepSeek 因两道题失误拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对,展现出强大的稳定性。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。

此次测试不仅显示出各大 AI 模型在高考数学上的潜力和不足,也反映了它们在推理能力和反思能力上的进步。相较于去年,这些模型在细节处理、公式应用和逻辑推理上都有显著的提升。尽管仍然存在一些错误和不足,但这次比赛无疑为未来的 AI 数学能力打下了基础。

猜你喜欢

王者荣耀老夫子上单对线技巧分享 以及大招的最佳使用时机解析
王者荣耀老夫子上单对线技巧分享 以及大招的最佳使用时机解析

老夫子由于缺少位移技能,非常适合上单的位置,在对线期间是无敌的存在,线上打爆对方后再支援其他路可以很快形成优势并继续滚雪

真女神转生5中祸时幸运技能的触发条件详解及应用技巧分析
真女神转生5中祸时幸运技能的触发条件详解及应用技巧分析

真女神转生5祸時幸运技能触发条件解析

【作者:蔚我曙光】勇气大陆中,每晚12点勇气值会提高到多少点?(答题小窍门:点击下方菜单栏中的)
【作者:蔚我曙光】勇气大陆中,每晚12点勇气值会提高到多少点?(答题小窍门:点击下方菜单栏中的)

【作者:蔚我曙光】勇气大陆中,每天0点勇气值会补充至几个 ? (答题小秘诀:点击下方菜单栏中的 ,以上就是今天的每日一题

迷失之岛隐藏道具位置解析与彩蛋触发机制详尽攻略
迷失之岛隐藏道具位置解析与彩蛋触发机制详尽攻略

迷失之岛隐藏道具位置与彩蛋触发方法详解

牧羊人之心4-b6关卡如何通关 详尽攻略流程解析与技巧分享
牧羊人之心4-b6关卡如何通关 详尽攻略流程解析与技巧分享

牧羊人之心4-b6是手游牧羊人之心中及其困难的关卡之一,很多小伙伴都想知道牧羊人之心4-b6怎么通过?今天小编带来了牧羊

《王者荣耀》花木兰个性动作获取攻略 花木兰个性动作的快速获取渠道及技巧
《王者荣耀》花木兰个性动作获取攻略 花木兰个性动作的快速获取渠道及技巧

王者荣耀花木兰也有个性动作了,那么有哪些渠道能够获取呢?为了大家能够更好的体验游戏,今天91小编给大家带来了花木兰个性动

潜行者2:揭开切尔诺贝利心灵灵魂关联剧情解锁秘籍的神秘面纱
潜行者2:揭开切尔诺贝利心灵灵魂关联剧情解锁秘籍的神秘面纱

潜行者2:切尔诺贝利之心灵魂关联剧情解锁秘籍

如何触发第二人生中的克苏鲁事件?克苏鲁事件会带来怎样的效果?
如何触发第二人生中的克苏鲁事件?克苏鲁事件会带来怎样的效果?

第二人生克苏鲁是游戏中的隐藏彩蛋事件,触发后有什么影响呢,91单机小编给大家带来第二人生克苏鲁事件。第二人生克苏鲁触发方

艾尔登法环魔力油脂调配方法与高级使用技巧全面解析
艾尔登法环魔力油脂调配方法与高级使用技巧全面解析

艾尔登法环魔力油脂制作技巧与进阶策略

温泉物语如何优化布局?全面掌握属性配置的最佳方案推荐
温泉物语如何优化布局?全面掌握属性配置的最佳方案推荐

温泉物语中空间有限,玩家想要获取全部属性特效要怎么布局呢,91单机小编给大家带来温泉物语全制霸属性布局温泉全制霸布局说明