中国AI新锐企业深度求索(DeepSeek)近日强势进入公众视野,凭借其低成本训练却能与现有顶尖大语言模型抗衡的技术实力,迅速成为焦点。该公司在乙巳大年前夕推出新模型,时机选择颇具深意。春节假期期间,许多中文用户在闲暇之余纷纷下载体验,并通过社交媒体分享使用感受,掀起了一波话题热潮。
为了充分利用这一时间窗口,深度求索在小年夜再推新品——文生图模型Janus-Pro 7B,展现出精准的市场策略,进一步巩固关注度。全球范围内,许多习惯使用其他主流大模型的用户也对此充满好奇,迫不及待想要验证中国舆论中关于“DeepSeek V3和R1模型(简称DS-V3、DS-R1)可媲美ChatGPT 4o和o1模型(简称CG-4o、CG-o1)”的说法是否属实。
社交平台上,关于深度求索新模型的测试内容层出不穷,但用户的反馈却呈现出多样化和混乱的一面。不少人甚至无法区分DS-V3与DS-R1的功能差别,更不用说掌握模型切换的方法。跨平台对比测试也五花八门,大多基于随机提问得出主观结论,缺乏统一标准,导致评价结果差异巨大。
根据深度求索官网发布的数据,DS-V3在与CG-4o及其他主流模型的推理效率基准测试中表现稳定,某些指标甚至略占上风。然而,这些测试成绩主要反映了模型在选择题或特定问答任务中的平均水平,类似于“应试能力”,可能经过针对性优化。而现实中AI的应用场景远不止于此,真正的挑战在于知识覆盖面、灵活的信息检索以及深度分析能力。就像考试高分并不意味着实战无敌,AI模型的真实实力还需要在复杂多变的实际任务中接受检验。