OpenAI 推出 HealthBench:为评估大型语言模型在医疗行业表现设立的新标杆

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。

QQ_1747118377933.png

现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。虽然这些形式在初步评估中有所帮助,但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式,包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束,模型的回答则依据医生编写的特定评估标准进行评分。

QQ_1747118245591.png

HealthBench 的评估框架分为七个关键主题,包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外,OpenAI 还推出了两个变体:

1. HealthBench Consensus:强调34个经过医生验证的标准,旨在反映模型行为的关键方面,如建议紧急护理或寻求更多背景信息。

2. HealthBench Hard:一个更具挑战性的子集,包含1000个经过挑选的对话,旨在考验当前前沿模型的能力。

OpenAI 对多种模型进行了评估,包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%,GPT-4o 为32%,而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型,其表现超越了 GPT-4o,同时将推理成本降低了25倍。

评估结果还显示,模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强,而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较,发现未辅助的医生通常生成的回应得分较低,但能够在处理模型生成草稿时取得进展,特别是早期版本的模型。

HealthBench 还包括评估模型一致性的机制,以确保结果的可靠性。OpenAI 通过超过60,000个注释示例进行的元评估表明,作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生,显示其作为一致评估者的潜力。

项目:https://github.com/openai/simple-evals

划重点:

- 🩺 OpenAI 推出 HealthBench,专注于大型语言模型在医疗领域的评估,得到了262名医生的参与和验证。

- 🔍 HealthBench 的评估涵盖七个关键主题,采用5000个真实对话,提供更细致的模型行为分析。

- 📊 评估结果显示模型间表现差异明显,GPT-4.1nano 以较低成本表现出色,展现了模型作为临床工具的潜力。

猜你喜欢

降龙群侠传怪物刷新规律详解以及怪物掉落时间和物品介绍
降龙群侠传怪物刷新规律详解以及怪物掉落时间和物品介绍

降龙群侠传怪物什么时候刷新?降龙群侠传怪物的等级和什么有关?降龙群侠传怪物掉落范围是多少?接下来就给大家带来的是怪物刷新

王者荣耀圣诞节特供头像框评测及图片展示,了解这些独特头像框的特点和风格
王者荣耀圣诞节特供头像框评测及图片展示,了解这些独特头像框的特点和风格

王者荣耀圣诞节头像框图片好看吗?王者荣耀圣诞节头像框图片一览整体来说还是非常喜庆的,各种圣诞元素都在这款头像框中体现了出

荒野行动中如何隐藏头盔展示,同时无缝穿搭时装以达到最佳效果
荒野行动中如何隐藏头盔展示,同时无缝穿搭时装以达到最佳效果

荒野行动中有许多时装都是带有帽子的,可是在游戏中我们发现拾取了头盔后,原来的时装帽子也就没有了,那么荒野行动游戏中可以不

炉石传说任务贼的超强上传说卡组推荐与构建策略分享
炉石传说任务贼的超强上传说卡组推荐与构建策略分享

炉石传说任务贼上传说最强卡组推荐,今天小编就详细的介绍下炉石传说任务贼上传说最强卡组推荐,希望你们能够喜欢,也希望能够帮

炉石传说蛇发女妖任务骑士最优卡组策略与玩法推荐
炉石传说蛇发女妖任务骑士最优卡组策略与玩法推荐

炉石传说蛇发女妖任务骑最强卡组攻略推荐,今天小编就详细的介绍下炉石传说蛇发女妖任务骑最强卡组攻略推荐,希望你们能够喜欢,

奇迹MU觉醒苹果与安卓平台互通性分析及详细玩法介绍
奇迹MU觉醒苹果与安卓平台互通性分析及详细玩法介绍

在奇迹MU觉醒手游中,苹果区可以和安卓区一起玩吗?游戏数据可以互通吗?很多伙伴都在问小编,下面我们一起看看 奇迹MU觉醒

猎魂觉醒重剑符文技能选择详解与攻略分享 如何为重剑角色选择合适的符文技能
猎魂觉醒重剑符文技能选择详解与攻略分享 如何为重剑角色选择合适的符文技能

重剑是猎魂觉醒中单次攻击力最高的武器,重剑这个武器,在技能符文的搭配上,每个技能有四个技能符文选择的,下面小编就给大家带

刀剑神域虚空断章隐藏区域入口攻略与地图详解,教你如何顺利进入神秘隐藏区域
刀剑神域虚空断章隐藏区域入口攻略与地图详解,教你如何顺利进入神秘隐藏区域

《刀剑神域虚空断章》中有一些隐藏区域地图是随机但有规律的,而许多刚刚接触这些区域的玩家可能还不太熟悉这些地图。今天小编就

幸存者危城咖啡的制作流程详解及详尽咖啡制作方法解析
幸存者危城咖啡的制作流程详解及详尽咖啡制作方法解析

幸存者危城玩家不仅要面临重重危及,还要顾及自身的体力供养,所以在游戏中玩家喝上一杯咖啡,补充自身能力尤为重要,所以下面由

焚天决墨灵探宝玩法详解 与副本挑战策略全解析
焚天决墨灵探宝玩法详解 与副本挑战策略全解析

焚天决墨灵探宝是游戏中的一个副本玩法,很多人对这个副本还不是很清楚,现在小编为大家带来了墨灵探宝的玩法攻略,一起来看看吧