• 12月06日 星期六

DeepSeek-V3更新:编程能力提升有何影响?

中国初创企业深度求索(DeepSeek)近日悄然推出了AI开源模型DeepSeek-V3的最新版本V3-0324。这一更新于3月24日深夜在HuggingFace平台上线,尽管公司未发布正式公告,依然延续了其一贯的低调作风。此次更新将编程能力作为重点突破方向,展现出DeepSeek在人工智能领域激烈竞争中保持优势的决心。

DeepSeek-V3最初于2024年12月26日面世,凭借高性价比迅速受到关注。根据官方技术论文,DeepSeek-V3的训练成本为557.6万美元(约合746万新元),远低于GPT-4o等模型约1亿美元的训练费用。最新版本V3-0324沿袭了V3的专家混合(MoE)架构,模型规模达641GB,拥有6850亿参数,并且继续开源,支持自由商用。

编程能力的显著提升成为V3-0324版本的核心亮点。网友测试显示,该模型能顺利编写超过800行代码,且全程未出现任何错误。此外,有AI研究人员在社交平台X上表示,V3-0324在多项基准测试中表现出色,进步显著,甚至可能超越了Anthropic的Claude Sonnet 3.5,成为当前最强大的非推理模型之一,而Sonnet 3.5是业内公认的顶级商业AI模型。

值得注意的是,V3-0324模型能够在消费级硬件上运行,例如搭载苹果M3 Ultra芯片的Mac Studio,其推理功耗仅不到200瓦。这一特性大幅降低了模型的部署和运营门槛,无需依赖功耗极高的大型数据中心,引发了科技博主的广泛讨论。

据VentureBeat分析,DeepSeek-V3-0324的上线或为后续DeepSeek-R2的推出铺路。DeepSeek以往的策略是先发布基础模型,随后推出优化推理能力的版本,例如V3发布后不久便推出了R1。路透社今年2月曾报道,DeepSeek正加速研发R1的后续版本R2,原定5月初发布,但公司有意提前面世。业内观点认为,若R2问世,或将直接对标OpenAI的GPT-5,成为强劲的竞争对手。

上一篇新闻

韩国政府派代表团赴华纪念安重根殉国115周年

下一篇新闻

金秀贤与金赛纶风波:真相为何引发争议?

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。