长文本理解的新时代?Gemini2.5Pro 超越 o3 在 Fiction.Live 基准测试中夺魁

在最近的 Fiction.Live 基准测试中,Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色,领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务,专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。

谷歌大模型Gemini


据测试数据显示,在上下文窗口长度达到192,000个词条(约14.4万个单词)时,o3模型性能急剧下滑,而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

值得注意的是,OpenAI 的 o3模型在8K 代币以下保持完美准确率,但当上下文扩展至16K~60K 后出现波动,最终在192K时“崩溃”;相比之下,Gemini2.5Pro 尽管在8K时略有下滑,却能稳住表现直至192K。

QQ20250609-085845.png

尽管 Gemini2.5Pro 宣称可支持高达100万个标记的上下文窗口,目前的测试仍远未触及其理论极限。与此同时,o3的最大窗口为200K,而 Meta 推出的 Llama4Maverick 则宣称能处理 多达一千万个词条,但在实际任务中被指出忽略了大量重要信息,表现未达预期。

深度理解能力不能靠“堆参数”堆出来。

来自 DeepMind 的研究人员 Nikolay Savinov 指出,“信息越多并不等于更好”。他解释,大上下文带来的挑战在于注意力机制的分配:关注某些信息时,势必会忽略其他部分,反而降低整体表现。他建议用户在使用模型处理大型文档时,优先删除无关页面、缩减冗余内容,以提升模型处理质量。

整体来看,Fiction.Live 基准测试为语言模型能力评估提供了更真实、更贴近应用场景的测试方式。Gemini2.5Pro 在此次测试中展现了其在长文本理解上的强劲实力,也提示行业:未来的大模型竞争,不再仅是“谁的窗口大”,而是“谁用得更聪明”。

猜你喜欢

宝可梦大探险中如何正确放生你的宝可梦,步骤与注意事项解析
宝可梦大探险中如何正确放生你的宝可梦,步骤与注意事项解析

在宝可梦大探险中我们可以收集的宝可梦是有数量的,超过了一定的数量就没办法收集新的宝可梦了,这个时候我们可以选择放生一些

在圣斗士星矢正义传说中如何获得和开启圣衣,圣衣的作用和重要性具体是什么
在圣斗士星矢正义传说中如何获得和开启圣衣,圣衣的作用和重要性具体是什么

圣斗士星矢正义传说是根据圣斗士星矢动漫改编的,游戏基本还原了动画的剧情和角色。在游戏中有不少的玩法,其中一个就是开圣衣,

七龙珠 电光炸裂ZERO萝吉专属装备最佳搭配策略解析
七龙珠 电光炸裂ZERO萝吉专属装备最佳搭配策略解析

七龙珠 电光炸裂ZERO萝吉专属装备搭配指南

江南百景图中的金箔有什么特别的意义和用途呢?
江南百景图中的金箔有什么特别的意义和用途呢?

在江南百景图中将会开启一个新的城市徽州府,这个城市上线后将会上线不少的道具和玩法,金箔就是其中一个材料,那么金箔的作用

探索圣兽之王斯姆图卡镇隐藏物品的获取方法与技巧分享
探索圣兽之王斯姆图卡镇隐藏物品的获取方法与技巧分享

圣兽之王斯姆图卡镇隐藏物品获取攻略

一念逍遥游戏中九色鹿的兑换方式与所需道具详解
一念逍遥游戏中九色鹿的兑换方式与所需道具详解

在一念逍遥中有不少的灵兽,九色鹿就是其中之一,这是一种非常好用的灵兽,那么九色鹿怎么获得?下面就来看看吧!一念逍遥九色

光遇星星收集者兑换商品一览及最佳兑换选择推荐
光遇星星收集者兑换商品一览及最佳兑换选择推荐

在光遇小王子季中有各种各样的先祖,每个先祖都有不同的特色物品,星星收集者就是其中一位先祖,玩家找到他后可以兑换限定物品

原神绯樱绣球的刷新时间和频率汇总,为你解密绯樱绣球多久能再现于原神世界
原神绯樱绣球的刷新时间和频率汇总,为你解密绯樱绣球多久能再现于原神世界

原神2 0版本已经正式更新了,在新的版本中更新了不少的材料,绯樱绣球就是其中一种材料,那么绯樱绣球在哪采集?下面就来看看

古龙风云录中易筋经的获取与全方位攻略指南
古龙风云录中易筋经的获取与全方位攻略指南

古龙风云录易筋经获取全攻略