DeepSeek何以创造行业奇迹 底层创新引领突破

百家号 2025-01-29 13:45:08
A+ A-

坚持长期视角,专注底层创新,探索新的路径。一家此前不被多数媒体关注的“小企业”,走开源路线而非闭源或率先开发应用,却在2025年开年成为中国大模型领域科技创新的全球代表。

DeepSeek何以创造行业奇迹

这家名为DeepSeek(深度求索)的中国大模型企业,最近发布的大模型在多项性能测试中达到了OpenAI最新大模型o1的水平,部分项目甚至实现了超越。这引发了全球科技行业的热烈讨论,有媒体形容“DeepSeek朝硅谷‘开了一枪’”,甚至“震动美国科技界”。

DeepSeek的成功主要体现在两方面。首先是其算力成本投入与表现出来的性能对比超出了行业的一般认知。据媒体报道,DeepSeek r1的训练成本仅为ChatGPT o1的零头。其次是DeepSeek证明了开源路线的逆袭胜利,对大公司、巨头的闭源路线进行了一次颠覆。

然而,这些看法在社交平台上广泛讨论后,出现了一些扭曲。例如,DeepSeek r1的真实算力成本远不止600万美元,最早报道的媒体混淆了论文中的数据。事实上,550万美元是DeepSeek v3在正式训练阶段的成本,不包括前期研究和实验的成本。从行业发展的逻辑来看,探索与迭代、追赶所需的算力成本不应简单对比。创新和探索必然伴随着算力和各项成本的浪费,在确定性路径上的优化所付出的代价与探索未知所付出的代价不宜直接比较。

现阶段大模型的发展还不能定义为闭源与开源路线的成败。更严谨地看待DeepSeek带给我们的惊喜,应该是:它展示了模型架构底层创新的价值,提升了算力效率,并推动了开源大模型产品在能力上的超越,从而进一步提升行业整体的应用研发水平。

尽管这个故事显得有些审慎无聊,但值得探讨的是为什么一家资金量不占优势、专注于底层创新而非商业化的开源企业,能在中国大模型领域实现“弯道超车”。2024年8月,DeepSeek创始人梁文锋在接受采访时提到,团队的目标是AGI(通用人工智能),因此需要研究新的模型结构,在有限资源下实现更强的模型能力。

就在DeepSeek创造“行业奇迹”前不久,国内大模型行业的共识几乎仍是“要做应用”,因为做通用大模型的机会已经没有了。一些明星创业企业放弃了对通用AGI的探索,转而借助现有模型去研发应用。在这种共识下,多数国产大模型企业更多关注具体且仍不成熟的应用,如陪伴型AI聊天机器人或文生图、文生视频等。

面对差距,许多企业选择绕开这些差距,这是正常的科技与商业选择。梁文锋也承认,在模型结构和训练动力学上,国内的最高水平比起国外最高水平可能有一倍的差距,数据效率上也有差距,导致国内要用四倍的算力才能取得同样的效果。再加上复杂宏观环境下算力本身的成本差距,多数企业选择了绕开这些差距。

但DeepSeek选择的方向反直觉和常识。既然资源差距大,那就干脆回到模型架构底层去创新和优化。事实证明,这条路最终反而能更快达成目标。AGI的发展固然与算力成本相关,但在动态的创新过程中,更重要的是“创新”本身。大模型不是简单的资源加总游戏,也不是囤更多算力就能快速突破,而是需要坚持长期视角,专注底层创新,探索新的路径。短视恰恰是创新的最大敌人。

责任编辑:张小花 TT1000

热点新闻

精彩推荐

加载更多……