新版DeepSeek-V3登顶非推理模型榜单!每经记者实测编程能力,R2模型也要来了? ...

2025-3-25 22:10| 发布者: 仟茂传媒| 查看: 856| 评论: 0|来自: 每日经济新闻

摘要: 每经记者 岳楚鹏每经编辑 兰素英 北京时间3月24日晚间,DeepSeek悄然将DeepSeek-V3模型的最新版本上传到了开源平台HuggingFace。 新模型的版本号为DeepSeek-V3-0324,参数为6850亿,较初代V3版本的6710亿有小幅增 ...

每经记者 岳楚鹏    每经编辑 兰素英    

北京时间3月24日晚间,DeepSeek悄然将DeepSeek-V3模型的最新版本上传到了开源平台HuggingFace。

新模型的版本号为DeepSeek-V3-0324,参数为6850亿,较初代V3版本的6710亿有小幅增长。

尽管DeepSeek十分低调,但还是有不少人在第一时间就注意到了这一更新,并对其进行了测试。

根据社区测试反馈,DeepSeek-V3-0324最明显的变化是编程能力得到了极大的提升。众多开发者基于对新模型的综合体验判断,新模型的编程能力已经接近目前最强编程模型Claude 3.7 Sonnet

3月25日,专业AI模型评测机构Artificial Analysis发布的最新排名显示,新版V3在基准测试中较老版V3跃升了7位,排名所有非推理模型中的第一名。

《每日经济新闻》记者实测后发现,DeepSeek-V3-0324的编程能力确实强大,但仍会出现幻觉问题。

有外媒推测:“V3新版本的推出时机和特点强烈表明,它将成为DeepSeek-R2的基础,后者是一款新的推理模型,预计在未来两个月内推出。这遵循了DeepSeek的既定模式,即基础模型比专门的推理模型早几周推出。”

机构:新版V3排名非推理模型第一

当地时间3月25日,专业AI模型评测机构Artificial Analysis在评测完新版V3后发推表示,这对开源来说是一个里程碑,因为这是开放权重模型首次成为领先的非推理模型。新版V3在他们的基准测试中跃升了7位,为所有非推理模型中的第一名。



图片来源:Artifical Analysis

虽然它在能力上仍落后于众多推理模型,但这并不能影响这一成就的重要性。因为非推理模型相较于推理模型在速度上具有优势,它可以立即回答,而无需花时间“思考”。

AI编码工具aider开发者保罗·高蒂尔对其进行了多语言基准测试,得分为55%,较上一个版本有显著提升。他认为,新版V3是仅次于Claude 3.7 Sonnet的非推理模型了,并且它比R1和o3-mini这样的推理模型更具竞争力,因为它的费用更便宜。

图片来源:X

开源大模型评测项目Kcores大模型竞技场的最新测试数据显示,新版V3的代码能力达到了328.3分,仅次于Claude 3.7 Sonnet(思考模型)和Claude 3.5(因不同测试之间题目不同,所以测试结果会有偏差)。

图片来源:Kcores大模型竞技场


鲜花

握手

雷人

路过

鸡蛋