DeepSeek-V3:全新开源人工智能模型发布,其性能显著超越Llama和Qwen模型,推动AI技术进步

2024年12月26日,中国人工智能初创公司DeepSeek发布了其最新的超大模型DeepSeek-V3,这一模型以其开放源代码技术和创新挑战领先AI供应商而闻名。

DeepSeek-V3拥有671B个参数,并采用专家混合架构(mixture-of-experts architecture)来激活特定参数,以准确高效地处理给定任务。根据DeepSeek提供的基准测试,这一新模型已经超越了包括Meta的Llama3.1-405B在内的领先开源模型,并且与Anthropic和OpenAI的封闭模型性能相近。

image.png

DeepSeek-V3的发布标志着开源AI与封闭源AI之间的差距进一步缩小。DeepSeek,最初是中国量化对冲基金High-Flyer Capital Management的一个分支,希望这些发展能为人工通用智能(AGI)铺平道路,届时模型将能够理解或学习任何人类能够执行的智力任务。

DeepSeek-V3的主要特点包括:

与前身DeepSeek-V2一样,新模型基于多头潜在注意力(MLA)和DeepSeekMoE的基本架构,确保了高效的训练和推理。

公司还推出了两项创新:辅助无损失负载平衡策略和多令牌预测(MTP),后者允许模型同时预测多个未来令牌,提高了训练效率,并使模型运行速度提高三倍,每秒生成60个令牌。

在预训练阶段,DeepSeek-V3训练了14.8T高质量和多样化的令牌,并进行了两阶段的上下文长度扩展,最终进行了监督式微调(SFT)和强化学习(RL)的后训练,以使模型与人类偏好对齐并进一步释放其潜力。

在训练阶段,DeepSeek采用了多种硬件和算法优化,包括FP8混合精度训练框架和DualPipe算法进行流水线并行,降低了训练成本。DeepSeek-V3的整个训练过程声称在2788K H800GPU小时或大约557万美元内完成,远低于通常用于预训练大型语言模型的数亿美元。

DeepSeek-V3已成为市场上最强的开源模型。公司进行的多项基准测试显示,它在大多数基准测试中超越了封闭源GPT-4o,除了以英语为焦点的SimpleQA和FRAMES,在这两个测试中OpenAI模型分别以38.2和80.5的得分领先(DeepSeek-V3得分分别为24.9和73.3)。DeepSeek-V3在中文和数学基准测试中的表现尤为突出,在Math-500测试中得分为90.2,其次是Qwen的80分。

目前,DeepSeek-V3的代码可在GitHub上以MIT许可证获得,模型根据公司的模型许可证提供。企业还可以通过DeepSeek Chat(类似ChatGPT的平台)测试新模型,并访问API进行商业使用。DeepSeek将提供与DeepSeek-V2相同价格的API,直至2月8日。之后,将收取每百万输入令牌0.27美元(缓存命中每百万令牌0.07美元)和每百万输出令牌1.10美元的费用。

划重点:

🌟 DeepSeek-V3发布,性能超越Llama和Qwen。

🔧 采用671B参数和专家混合架构,提高效率。

🚀 创新包括无损失负载平衡策略和多令牌预测,提升速度。

💼 训练成本大幅降低,推动开源AI发展。

猜你喜欢

花鸟画家王从玉:用艺术描绘生命的魅力,迎接璀璨的新春光彩!
花鸟画家王从玉:用艺术描绘生命的魅力,迎接璀璨的新春光彩!

在山东的艺术界,王从玉以其独树一帜的花鸟画作品,成为了备受赞誉的艺术家。他的画作不仅展现了花鸟世界的细腻与生动,更传递了

江南百景图篱笆门修复详细步骤与技巧分享,助你轻松完善家园美景
江南百景图篱笆门修复详细步骤与技巧分享,助你轻松完善家园美景

江南百景图修复篱笆门是游戏中新上线的一个任务,玩家想要修复篱笆门是需要大量的竹子,所以建议玩家先去搞竹子再来修篱笆门,下

85岁书画艺术家范曾再度步入婚姻殿堂,新晋娇妻徐萌小他50岁成为其第四任人妻子引发广泛讨论
85岁书画艺术家范曾再度步入婚姻殿堂,新晋娇妻徐萌小他50岁成为其第四任人妻子引发广泛讨论

知名书画大师范曾近日宣布了一项令人瞩目的个人喜讯:他与35岁的徐萌结为连理,正式步入婚姻的殿堂。尽管范曾已85岁高龄,与

美秀直播受欢迎的秘密-深入剖析经典角色的新剧情与独特画风
美秀直播受欢迎的秘密-深入剖析经典角色的新剧情与独特画风

  在当今数字时代,直播已成为许多人日常生活的一部分。尤其是美秀直播,因其独特的内容和互动形式,迅速吸引了大量观众。*美

玛娜希斯回响的毕业阵容都是哪些角色和他们的技能组合呢
玛娜希斯回响的毕业阵容都是哪些角色和他们的技能组合呢

玛娜希斯回响日服已经有2年了,作为国服最大的好处就在于可以提前获知哪些是人权角色。那么目前的毕业阵容是什么呢?这是目前玛

首个“非遗版”春节盛典盛况空前,全球共庆最美的中国农历新年欢乐时刻
首个“非遗版”春节盛典盛况空前,全球共庆最美的中国农历新年欢乐时刻

随着2025年的钟声即将敲响,全球迎来了一场别开生面的文化盛宴——“世界非遗版”春节。这一盛况标志着春节成功列入世界非物

辰东群侠传中帝星阵容的玩法和技巧详解,让你轻松掌握配队策略
辰东群侠传中帝星阵容的玩法和技巧详解,让你轻松掌握配队策略

辰东群侠传帝星阵容是游戏中非常好用的一个阵容,对于这个阵容柳神和段德的选择玩家们都是非常纠结的,下面91小编带来辰东群侠

天美麻花星空高清音乐视频播放:视觉与音频的极致结合,带你体验前所未有的震撼享受!
天美麻花星空高清音乐视频播放:视觉与音频的极致结合,带你体验前所未有的震撼享受!

天美麻花星空高清mv播放音乐的精彩之处在于,它将视觉与音乐完美融合,让每一个音符都如流星划过夜空。每次点击播放,仿佛进入

袁腾:笔触描绘山水间,新年的展望与祝福——2025中国书画大师贺岁系列
袁腾:笔触描绘山水间,新年的展望与祝福——2025中国书画大师贺岁系列

在当代中国画坛,一位名叫袁腾的青年艺术家正以他卓越的山水画技艺逐渐崭露头角。袁腾毕业于中国美术学院书法与绘画专业(山水方

明日方舟格雷依悖论模拟战斗技巧与策略详解,如何顺利通关获取高分
明日方舟格雷依悖论模拟战斗技巧与策略详解,如何顺利通关获取高分

明日方舟格雷依悖论模拟是很多玩家都过不去的一个游戏关卡,这个关卡先是要解决大锤哥,整体的难度并不是很高,下面91小编带来