昆仑万维正式发布并开源 Skywork-SWE-32B:引领开源软件工程智能体模型的新趋势与潮流

在软件工程领域,昆仑万维于6月20日正式发布了其自主研发的代码智能体基座模型 Skywork-SWE-32B,并将其开源。该模型在软件工程任务中表现卓越,成为业界在32B 参数规模下最强的代码修复能力模型。昆仑万维团队通过构建超过1万个可验证的 GitHub 仓库任务实例,创造了目前规模最大的可验证数据集,系统地验证了大模型在软件工程任务上的数据缩放定律。

image.png

Skywork-SWE-32B 在 SWE-bench Verified 基准上取得了38.0% 的 pass@1准确率,这一成绩刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳记录。通过引入测试时扩展技术,该模型的表现进一步提升至47.0% 的准确率,不仅超过了目前在32B 参数规模以下的开源模型,也缩小了与一些闭源模型之间的性能差距。

昆仑万维团队针对当前市场上 SWE 任务的主流数据集存在的问题,建立了一套三阶段的自动化流程来收集和验证训练数据。在数据采集阶段,他们通过 GitHub API 抓取了超过15万个开源仓库的信息,并通过一系列严格的筛选步骤,最终保留了23,389个任务样本。在验证阶段,团队使用统一命令生成和 Docker 环境构建技术,确保每个任务样本的有效性,最终生成了10,169条高质量样本。

image.png

在智能体轨迹生成阶段,团队使用开源的 OpenHands 框架,结合商用大模型作为基座,对每个任务执行了多轮交互,全面记录智能体的解决过程。最终,他们构建出8,209条高质量的验证通过轨迹,为 Skywork-SWE-32B 的训练提供了坚实基础。

Skywork-SWE-32B 的成功发布,为软件工程智能体的发展注入了新的活力,展现了其在处理复杂开发场景下的能力与潜力。

博客地址🔗 

https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

HuggingFace地址🔗 

https://huggingface.co/Skywork/Skywork-SWE-32B

划重点:  

🌟 Skywork-SWE-32B 模型在 SWE-bench Verified 基准上取得38.0% 的 pass@1准确率,刷新了现有32B 开源模型的最佳成绩。  

📈 引入测试时扩展技术后,模型的准确率提升至47.0%,显著缩小了与闭源模型的性能差距。  

🔍 昆仑万维建立了自动化流程,构建出超1万条高质量、可验证的 SWE 任务数据集,为模型的训练奠定了基础。

猜你喜欢

祇:女神之道怒喜魔像速通策略与解锁条件详解
祇:女神之道怒喜魔像速通策略与解锁条件详解

祇:女神之道喜怒魔像速通路线及解锁条件

梦幻西游手游科举考试所有题目及完整答案集合
梦幻西游手游科举考试所有题目及完整答案集合

科举考试源于隋朝,到了唐朝更是达到一个鼎盛的阶段,同端游一样,梦幻西游手游里玩家同样可以参加科举考试获得相应奖励。从乡试

地下城堡如何利用渥金神像获取更高阶资源的全面攻略与技巧分析
地下城堡如何利用渥金神像获取更高阶资源的全面攻略与技巧分析

为了让玩家在游戏中的体验度更好,地下城堡安卓版更新新玩法!地下城堡安卓版为大家带来了渥金神像玩法,如何使用渥金神像?怎样

梦幻西游手游装备栏空位的多重功能解析和利用策略
梦幻西游手游装备栏空位的多重功能解析和利用策略

梦幻西游手游中大家熟知的装备一共是六件,那么细心的玩家就会发现,在装备的下方多出来两个空格,很多玩家都会问是干什么的呢?

乱斗西游2亢金龙角色解析 亢金龙最佳阵容搭配和玩法攻略详解
乱斗西游2亢金龙角色解析 亢金龙最佳阵容搭配和玩法攻略详解

乱斗西游2手游中亢金龙是二十八星宿中最低调的一位,但修为却不容小觑。那么亢金龙是不是值得培养,技能属性怎么样?乱斗西游2

艾尔登法环中流派长袍的隐藏位置全面解析及获取指南
艾尔登法环中流派长袍的隐藏位置全面解析及获取指南

艾尔登法环上流阶级长袍隐藏位置全解析

天龙八部駮马宝宝的性能分析及详细属性图鉴评测,帮助你更好地了解駮马宝宝的特点
天龙八部駮马宝宝的性能分析及详细属性图鉴评测,帮助你更好地了解駮马宝宝的特点

天龙八部駮马宝宝怎么样?駮马宝宝属性图鉴。玩天龙八部手游的伙伴,知道天龙八部駮马宝宝怎么样?不知道的伙伴跟着小编一起来看

界外狂潮通行证等级提升最佳路线策略规划
界外狂潮通行证等级提升最佳路线策略规划

界外狂潮通行证档位升级路线最优规划