C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  上校

注册:2015-11-1412
发表于 2025-6-17 19:24:33 |显示全部楼层


亚星游戏官网-yaxin222


智东西(公众号:zhidxcom)

编译 | 程茜

编辑 | 心缘

智东西6月17日消息,今日,AI基准测试平台LMArena公布最新WebDevArena排行榜,新版DeepSeek-R1编程能力冲上第一。

从榜单可以看出,新版DeepSeek-R1与Claude Opus 4、Gemini 2.5 Pro并列第一。

亚星游戏官网-yaxin222

自今年2月底,Anthropic发布首款混合推理模型与最佳编码模型Claude 3.7 Sonnet,到5月发布Claude 4,此前,WebDevArena榜单第一几乎被Anthropic家的Claude系列模型垄断。

此次,新版DeepSeek-R1冲上榜一与Claude Opus 4并列,佐证了其在编程方面的能力提升。

此外,文本领域,新版DeepSeek-R1在开源模型中排名第一,整体排名第6,与Claude Opus 4、GPT-4.1、Gemini-2.5-flash并列。

亚星游戏官网-yaxin222

按类别划分,新版DeepSeek-R1在编程方面排名第2,在困难提示方面排名第4,在数学方面排名第5。

亚星游戏官网-yaxin222

新DeepSeek-R1于5月28日开源,从DeepSeek当时发布的基准测试结果来看,其整体表现已接近OpenAI-o3与GOOGLEGemini-2.5-Pro等模型。

亚星游戏官网-yaxin222

完整榜单:https://lmarena.ai/leaderboard

LMArena评论区对新版DeepSeek-R1冲上榜一给予了很高的评价:

DeepSeek-R1在WebDev Arena上的性能现已追平Claude Opus 4,鉴于Claude长期以来作为编程导向型AI的标杆地位,这是一个值得关注的里程碑,这标志着开源AI迎来了关键时刻。

亚星游戏官网-yaxin222

亚星游戏官网-yaxin222

结语:AI编程模型、产品加速迭代,开启群雄混战

当下,全球AI编程的热度空前高涨,AI加速渗透到AI编程环节中,为开发者带来空前的生产力提升。这一背景下,各路AI编程模型、产品快速迭代。

今日凌晨,月之暗面推出针对App工程任务的全新开源代码大模型Kimi-Dev-72B,还有此前OpenAI、GOOGLE、MicroSoft、Anthropic、阿里等企业纷纷亮出相应模型、产品。与此同时,新版DeepSeek-R1登顶编程能力榜单,意味着国内外AI编程竞争态势愈发火热。

来源:智东西

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-6-19 15:52 , Processed in 0.154100 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图