X

DeepSeek绕过CUDA框架,为何效率高出10倍?

中国初创公司深度求索(DeepSeek)在开发大语言模型时,采取了一种独特的技术路线。据报道,该公司并未依赖美国人工智能巨头英伟达的通用编程框架CUDA(统一计算架构),而是选择了更底层的硬件指令语言PTX(Parallel Thread Execution),从而实现了显著的效率提升。

CUDA由英伟达开发,是一种软硬件结合的编程技术,允许开发者充分利用英伟达的图形处理器(GPU)进行高效计算。由于其降低了开发大语言模型的复杂性,全球范围内的大模型开发者多倾向于採用CUDA框架,这也使得英伟达在人工智能领域占据了主导地位。

根据美国科技网站Tom’s Hardware的报道,韩国未来资产证券在研究DeepSeek的技术论文后发现,该公司之所以能在硬件效率上超越Meta等竞争对手10倍,关键在于他们“从零开始重新构建了技术体系”。具体而言,DeepSeek在使用英伟达H800芯片进行模型训练时,直接采用了底层的PTX语言,而非通用的高级编程框架CUDA。

中国科技媒体“快科技”对此分析称,CUDA作为通用框架,虽然使用便捷,但在训练模型时会牺牲一定的灵活性。而DeepSeek通过绕过这一限制,极大提升了训练速度。举例来说,其他模型可能需要10天完成训练,而DeepSeek仅需5天即可达成同样的效果。

尽管如此,使用PTX语言进行编程难度极高,且后期维护成本也不低。业内普遍认为,採用CUDA等高级编程语言是更为主流的选择。不过,据“快科技”和腾讯网援引的消息人士透露,DeepSeek内部拥有一批精通PTX语言的开发者,这为其技术创新提供了支持。更重要的是,这种技术路线为DeepSeek未来适配中国国产GPU奠定了基础,使得其在硬件兼容性方面具备更大的灵活性。