AI语言模型在应对复杂历史问题时的短板:历史知识成为其主要弱点

最新研究显示,尽管人工智能在编程和内容创作等领域表现出色,但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明,即使是最先进的大型语言模型(LLM)在历史知识测试中也难以取得令人满意的成绩。

研究团队开发了名为Hist-LLM的测试基准,对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行,结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。

AI机器人写论文

图源备注:图片由AI生成,图片授权服务商Midjourney

伦敦大学学院副教授玛丽亚·德尔里奥-查诺纳解释说:"这些模型在基本史实方面表现不错,但在涉及博士级别的深入历史研究时却力不从心。"研究发现AI经常在细节上出错,比如错误判断古埃及某些时期是否拥有特定军事技术或常备军。

研究人员认为,这种表现欠佳源于AI模型倾向于从主流历史叙事中进行推断,难以准确把握更为细微的历史细节。此外,研究还发现这些模型在处理撒哈拉以南非洲等地区的历史问题时表现更差,暴露出训练数据可能存在的偏差问题。

复杂性科学中心(CSH)的研究负责人Peter Turchin表示,这一发现说明在某些专业领域,AI尚无法取代人类专家。不过研究团队仍对AI在历史研究中的应用前景保持乐观,他们正在改进测试基准,以期帮助开发出更优秀的模型。

猜你喜欢

重庆棋手全力备战亚运会 李轩豪顺利晋升围棋职业九段,展现出色棋艺与实力
重庆棋手全力备战亚运会 李轩豪顺利晋升围棋职业九段,展现出色棋艺与实力

中新网重庆4月15日电(肖江川)记者15日从重庆市棋牌运动管理中心获悉,在2022年亚运会中国国家围棋队集训选拔赛预赛男

从“动手翻阅”到“指尖滑动”,线上阅读逐渐演变为当代人们不可或缺的生活方式
从“动手翻阅”到“指尖滑动”,线上阅读逐渐演变为当代人们不可或缺的生活方式

从“一卷在手”到“一屏万卷”线上读书已成为一种生活方式(网上中国)海外网 李雪钦 《 人民日报海外版 》( 2022年0

高嫁柳嫁家1-4集:在游戏中探索家族传承与爱情的旅程
高嫁柳嫁家1-4集:在游戏中探索家族传承与爱情的旅程

在现代社会,视频游戏不仅仅是休闲娱乐的工具,它们更成为了一种新型的文化交流载体。在游戏《高嫁柳嫁家》中,玩家被引入了一个充满传统文

“唯唯诺诺”的历史渊源及其在古代交流中的重要性
“唯唯诺诺”的历史渊源及其在古代交流中的重要性

许晖“唯唯诺诺”这个成语的意思,各种成语辞典的解释都是:顺从而无所违逆。与“俯首帖耳”“唯命是从”“唯命是听”等成语词义

徐帆再度回归人艺舞台,倾情诠释经典角色蔡文姬的动人故事
徐帆再度回归人艺舞台,倾情诠释经典角色蔡文姬的动人故事

专访“作为一个演员,能够遇上蔡文姬这样的角色,是我一辈子的福分。如果没有遇上,徐帆就会缺少一份气质。”昨天,重返人艺舞台

推动文化互动 重庆展出40幅巴拿马民族刺绣杰作助力文化交流
推动文化互动 重庆展出40幅巴拿马民族刺绣杰作助力文化交流

图为“拼缝故事——巴拿马莫拉艺术重庆展”现场。钟旖摄重庆4月18日电 (记者 钟旖)“拼缝故事——巴拿马莫拉艺术重庆展”

第五届中国戏剧朗读演出在韩国圆满结束,受到观众热烈欢迎与好评
第五届中国戏剧朗读演出在韩国圆满结束,受到观众热烈欢迎与好评

首尔4月19日电 (记者 刘旭)为进一步展现中国优秀戏剧文学作品,促进中韩文化产业深入发展与创新,打造活跃的中韩人文交流

千年文化遗址化身艺术空间 观众和演员共赴精彩北京曲剧《茶馆》的戏剧情境
千年文化遗址化身艺术空间 观众和演员共赴精彩北京曲剧《茶馆》的戏剧情境

2022年“会馆有戏”京彩西城春季演出季活动之沉浸式北京曲剧《茶馆》在千年古刹报国寺上演。杜燕摄北京4月19日电 (杜燕

第19届亚洲运动会金银纪念币正式发布,发售时间定于4月28日,速来收藏!
第19届亚洲运动会金银纪念币正式发布,发售时间定于4月28日,速来收藏!

北京4月19日电 (记者罗知之)据人民银行官网消息,人民银行将于4月28日发行第19届亚洲运动会金银纪念币一套。该套金银

天津优秀画家申世辉在中国美术馆举办盛大展览 展出百幅作品彰显山水画的全新面貌与艺术风格
天津优秀画家申世辉在中国美术馆举办盛大展览 展出百幅作品彰显山水画的全新面貌与艺术风格

申世辉在画展现场向来宾介绍画作。主办方供图天津4月19日电 (刘俊苍)由天津市美术家协会、天津美术学院联合主办的“辉映云