谷歌发布 LMEval: 全新工具助力统一评估大型语言和多模态模型的性能

近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。

image.png

以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。因此,LMEval 应运而生,它通过标准化评估流程,使得一旦设置好基准,就能轻松地将其应用于任何支持的模型,几乎无需额外工作。

LMEval 不仅支持文本评估,还扩展到了图像和代码的评估。谷歌表示,用户可以轻松添加新的输入格式。系统能够处理多种评估类型,包括是非题、多选题和自由文本生成。同时,LMEval 能够识别 “推脱策略”,即模型故意给出模棱两可的答案以避免生成有问题或风险的内容。

该系统在 LiteLLM 框架上运行,能够平滑处理谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 等不同提供商的 API 差异。这意味着相同的测试可以在多个平台上运行,而无需重新编写代码。一个突出的特点是增量评估,用户无需每次都重新运行整个测试套件,而只需执行新增的测试,这不仅节省了时间,也降低了计算成本。此外,LMEval 还使用多线程引擎加快计算速度,能够并行运行多个计算。

谷歌还提供了一个名为 LMEvalboard 的可视化工具,用户可以利用该仪表板分析测试结果。通过生成雷达图,用户可以查看模型在不同类别上的表现,并深入探讨个别模型的表现。该工具支持用户进行模型间的比较,包括在特定问题上的并排图形显示,方便用户了解不同模型的差异。

LMEval 的源代码和示例笔记本已经在 GitHub 上公开,供广大开发者使用和研究。

项目:https://github.com/google/lmeval

划重点:

🌟 LMEval 是谷歌推出的开源框架,旨在统一评估不同公司的大型 AI 模型。  

🖼️ 支持文本、图像和代码的多模态评估,且可轻松添加新的输入格式。  

📊 提供 LMEvalboard 可视化工具,帮助用户深入分析和比较模型表现。

猜你喜欢

艾尔登法环DLC野猪骑士详细属性分析与弱点全面解析
艾尔登法环DLC野猪骑士详细属性分析与弱点全面解析

艾尔登法环DLC野猪骑士属性弱点全解析

光遇祖先获取价格指南与任务完成攻略全面解析
光遇祖先获取价格指南与任务完成攻略全面解析

光遇手游中许多玩家不知道祖先价格表及任务,也不清楚圣岛季的玩法是什么,今天小编就带着大家了解一下光遇圣岛季毕业指南;光遇

天地劫手游中如何快速获得七色璎珞的详细攻略与技巧分享
天地劫手游中如何快速获得七色璎珞的详细攻略与技巧分享

天地劫手游七色璎珞怎么获取?合成材料在哪?来看看91小编带来的天地劫手游七色璎珞获取攻略。七色璎珞合成路线:流光镜玉和赤

火影忍者:终极风暴羁绊忍术白激之术的战斗策略与实战演示解析
火影忍者:终极风暴羁绊忍术白激之术的战斗策略与实战演示解析

火影忍者:终极风暴羁绊仙法白激之术对战思路与实战演示

妄想山海中如何快速解锁灶台功能的方法与技巧介绍
妄想山海中如何快速解锁灶台功能的方法与技巧介绍

妄想山海灶台解锁方法是什么?妄想山海灶台怎么解锁?接下来和91小编一起来看看妄想山海灶台解锁攻略吧!灶台解锁方法:灶台在

风帆纪元古登堡印刷技术详解与事件全攻略
风帆纪元古登堡印刷技术详解与事件全攻略

风帆纪元古登堡印刷术事件完整攻略

阴阳师手游2021海坊主御魂选择攻略与搭配推荐分析
阴阳师手游2021海坊主御魂选择攻略与搭配推荐分析

阴阳师是一款冒险,战斗,回合,动作,角色扮演类手机游戏,在阴阳师游戏中有很多的式神,不同等级的式神战力也不同,那么202

详尽解析泰拉瑞亚水陆两用靴的合成流程与步骤
详尽解析泰拉瑞亚水陆两用靴的合成流程与步骤

泰拉瑞亚水陆两用靴合成步骤详解

妄想山海中捕捉鱼类的技巧与挑战为什么如此复杂,捕捉难度为何让人头疼
妄想山海中捕捉鱼类的技巧与挑战为什么如此复杂,捕捉难度为何让人头疼

赢鱼作为水陆两栖的异兽,是一个不错的坐骑,近期玩家都想捉一个玩玩,我的乖乖,这里巨兽伤害忒高了吧,赢鱼如何无伤捕捉,多少

妄想山海中如何获取虹剑的详细方法与技巧解析
妄想山海中如何获取虹剑的详细方法与技巧解析

妄想山海游戏中有很多装备和道具,这些装备都有它独特的使用方法和能力效果,其中比较受玩家热衷的是穿虹剑,但是有很多玩家还没