AI搜索工具准确性仅有六成,虽然信心十足却依然频繁出现错误?

近期,哥伦比亚大学数字新闻研究中心公布了一项针对AI搜索引擎的深度研究报告,该报告聚焦于ChatGPT Search、Perplexity、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search、Copilot以及Perplexity Pro等八款AI搜索工具。

研究人员精心挑选了20家新闻机构的200篇报道作为测试样本,确保这些报道在谷歌搜索中排名靠前。他们利用相同的查询条件测试了这些AI搜索工具,重点评估它们能否准确引用文章内容、新闻机构名称及原始链接。

研究结果显示,除Perplexity及其付费版本外,其余AI搜索引擎的表现普遍令人失望。整体来看,这些AI工具提供的答案中,有高达60%是不准确的。更令人担忧的是,AI对于错误答案的自信态度,使得问题更加严重。

这一发现进一步证实了外界长期以来的担忧:大语言模型不仅容易出错,而且擅长以一本正经的态度传播错误信息。它们常常以绝对肯定的语气陈述错误信息,甚至在受到质疑时,仍试图为自己的说法辩护。

在测试中,ChatGPT Search虽然回答了所有200个新闻查询,但其准确率仅为28%,而错误率高达57%。尽管表现不佳,但ChatGPT Search并非垫底。X公司旗下的Grok AI表现尤为糟糕,其中Grok-3 Search的错误率更是高达94%。

微软Copilot同样问题频出。在200次查询中,Copilot有104次拒绝回答,而在剩余的96次回答中,仅16次完全正确,14次部分正确,66次完全错误,总体错误率接近70%。

值得注意的是,尽管这些AI工具存在诸多问题,但它们的开发公司仍在向用户收取高额的订阅费用,每月费用在20至200美元之间(约145至1449元人民币)。付费版的Perplexity Pro(20美元/月)和Grok-3 Search(40美元/月)虽然回答次数更多,但错误率也相应提高。

猜你喜欢

cf新英雄空角色解析及属性详解指南,全面剖析新角色空的技能与特点
cf新英雄空角色解析及属性详解指南,全面剖析新角色空的技能与特点

CF即将上线的一款新角色空,相信大家一定都非常好奇吧,那么空的属性到底怎么样呢?小编今天就给大家带来了关于这个新角色空的

王者荣耀棋盘秘宝抽奖方法解析 棋盘秘宝永久棋盘的抽取费用详细介绍
王者荣耀棋盘秘宝抽奖方法解析 棋盘秘宝永久棋盘的抽取费用详细介绍

王者荣耀中的棋盘秘宝是在今天更新之后刚上线的,那么棋盘秘宝要怎么抽呢?概率怎么样呢?需要多少钱呢?想必这些都是很多小伙伴

猎人手游职业选择指南:哪个职业在游戏中最具实力和竞争力?
猎人手游职业选择指南:哪个职业在游戏中最具实力和竞争力?

猎人手游现在受到了很多小伙伴们的喜欢,每一个游戏中都有几种职业,每一个职业都有自己不一样的地方,现在还有很多的新手玩家不

镇魂街武神躯主线剧情详细解析与攻略指南,带你全面了解游戏关键情节与玩法
镇魂街武神躯主线剧情详细解析与攻略指南,带你全面了解游戏关键情节与玩法

镇魂街武神躯手游中许多玩家不知道主线剧情及PVP、挑战,也不清楚武神躯的玩法是什么,今天小编就带着大家了解一下镇魂街武神

最强蜗牛米国版本最新情报与角色加点策略指南
最强蜗牛米国版本最新情报与角色加点策略指南

最强蜗牛米国最新情报加点已经公布了,那么到底要怎么加点效果最好呢?希望下面这篇最强蜗牛米国最新情报加点顺序大全能帮到大家

元气骑士中的赏金猎人技能解析及使用技巧探讨
元气骑士中的赏金猎人技能解析及使用技巧探讨

元气骑士游戏中在新版本中新出了许多技能,所以下面小编就和大家介绍一下赏金猎人一技能和二技能的介绍吧,一起来看下具体攻略。

明日方舟新英雄孑的故事背景和设定解析
明日方舟新英雄孑的故事背景和设定解析

明日方舟新英雄孑背景是什么?明日方舟手游中许多玩家不知道孑立绘及背景,也不清楚新英雄孑强不强,今天小编就带着大家了解一下

剑与远征中,休闲与荣誉活动报名选择的最佳策略与建议
剑与远征中,休闲与荣誉活动报名选择的最佳策略与建议

剑与远征休闲和荣誉报名怎么选?剑与远征游戏中新团本就要来了,上一次团本中报名分为休闲和荣誉报名两种,那么这次大家要怎么选

无极仙途中的诛仙阵迷宫探索路线详细解析及通关攻略
无极仙途中的诛仙阵迷宫探索路线详细解析及通关攻略

无极仙途手游中许多玩家不知道诛仙阵通关路线,也不清楚诛仙阵迷宫地图是什么,今天小编就带着大家了解一下无极仙途诛仙阵迷宫地

元气骑士中的暗黑低语匕首使用策略和技巧详解
元气骑士中的暗黑低语匕首使用策略和技巧详解

元气骑士中玩家们可以在地牢中得到很多有意思的武器,并且不一样的武器通过玩家不一样的职业与天赋都有不一样的用法,今天要给玩