X

阿里云通义千问Qwen2.5-Max发布:性能超越DeepSeek-V3?

在农历新年的第一天,阿里云通过其官方微信公众号宣布推出通义千问的最新旗舰版模型Qwen2.5-Max。据悉,这款新模型在多项权威评测中表现出色,综合实力显著优于当前全球顶尖的开源混合专家(MoE)模型以及最大的开源稠密模型。

阿里云表示,通义团队对Qwen2.5-Max的指令(Instruct)版本和基座(base)版本分别进行了详细的性能测试。测试结果显示,在指令版本的多个基准测试中,Qwen2.5-Max的性能可媲美美国的Claude-3.5-Sonnet模型,同时在几乎所有指标上都超过了包括GPT-4o、DeepSeek-V3以及Llama-3.1-405B在内的其他美国主流模型。

而在基座版本的评测中,Qwen2.5-Max的表现同样令人瞩目。阿里云团队将其与当前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B以及排名前列的开源稠密模型Qwen2.5-72B进行了对比。结果显示,Qwen2.5-Max在全部11项基准测试中均取得领先,展现出强大的技术优势。

值得注意的是,选择在大年初一这一特殊时间点发布Qwen2.5-Max,显示出阿里云对市场竞争的重视。路透社分析指出,近期深度求索(DeepSeek)在短短三周内快速崛起,对国内外竞争对手形成了不小压力。例如,深度求索于1月20日推出了推理模型DeepSeek-R1,而字节跳动旗下的豆包也在1月22日发布了更新版大模型1.5-pro。据IT之家报道,豆包1.5-pro在知识、代码、推理及中文能力等多项测评中表现优异,综合得分甚至超过了GPT-4o和Claude 3.5 Sonnet等国际知名模型。

在AI技术迅猛发展的背景下,阿里云此次推出的Qwen2.5-Max无疑为中国AI领域再添一枚重磅砝码,也进一步凸显了国内企业在全球AI竞争中的强劲势头。