中国人工智能初创企业深度求索(DeepSeek)与清华大学的研究团队携手,近期研发出一项创新技术,旨在增强大语言模型的推理能力,同时降低训练成本。这一技术有望被应用于即将面世的新一代大模型R2。
据彭博社和《南华早报》等媒体报道,双方研究人员于4月4日发布了一篇学术论文,阐述了一种全新的强化学习方法。这一方法通过整合‘通用奖励模型’(GRM)和‘自我原则化批判调优’技术,使AI模型能够更高效地处理普通查询问题,展现出更优的表现。
研究团队在论文中指出,该方法通过奖励更加精准和易于理解的回答,让AI模型更贴近人类的使用偏好。测试结果表明,这一技术在多项基准评估中超越了现有方法,显著减少了对计算资源的需求,从而提升了整体性能。
这一新模型被命名为‘DeepSeek-GRM’,并计划以开源形式对外发布,尽管具体时间尚未确定。根据《麻省理工科技评论》的报道,这一创新训练方法可能会融入DeepSeek即将推出的下一代大模型R2中。
值得一提的是,DeepSeek今年1月推出的低成本大模型R1已在全球范围内引起广泛关注。据路透社2月报道,有消息人士透露,该公司希望借势快速提升知名度,或将提前发布原定于5月推出的R2模型。