DeepSeek以低成本和少量芯片实现了与OpenAI等巨头媲美的性能,引发国际AI界的广泛关注。这意味着如果算力不再是决定AI性能的关键因素,之前大量投资英伟达芯片的逻辑可能会发生变化,其他相关行业也将受到影响。一位首席经济学家在微博上表达了这一观点。
紧接着,周一亚洲市场率先感受到了“东方神秘力量”DeepSeek带来的冲击。A股中的DeepSeek概念暴涨超过11%,而算力相关的板块如AI算力、GPU、液冷服务器和ASIC芯片等均大跌超3%。光芯片、高速铜互联、光通信和光模块等板块跌幅更是达到5%以上。日本半导体ETF也下跌了超过3%。
实际上,DeepSeek带来的焦虑甚至恐慌更多地体现在美国市场。周一纳斯达克期货跌近3%,计划为美国AI投资千亿美元的软银股价暴跌6%。市场担心的问题不仅是中国AI技术追赶甚至超越美国,还包括对DeepSeek高效训练方法的惊愕。这引发了关于美国科技巨头囤积GPU的意义、英伟达市值的真实价值以及美国政府管制先进AI芯片出口效果的质疑。
令人惊讶的是,在中国获取先进AI芯片受到严格限制的情况下,一家成立仅一年半且去年才推出首款大模型的年轻公司能够给全球市场带来如此震撼。该公司没有迷信传统的“大力出奇迹”的尺度定律,而是专注于创新训练方法,减少了对计算资源的需求。
去年12月,DeepSeek发布了新一代开源大模型DeepSeek-v3,其能力接近闭源的GPT-4,但训练成本仅为557.6万美元,使用了2048张英伟达H800 AI芯片。相比之下,类似能力的模型通常需要1.6万张GPU进行集群训练,例如Meta发布的Llama-3-405B在类似的集群上花费了3080万GPU小时,而DeepSeek仅用了约280万GPU小时。
这种高效的训练方式改变了AI对先进芯片和算力需求的逻辑。行业分析认为,DeepSeek开源让一些对OpenAI封闭不满的研究者感到高兴,更重要的是,它展示了中国在先进算力受限情况下研发先进模型的能力。
美国对中国在芯片领域的制裁近乎疯狂,几乎切断了高端AI芯片的供应链,使得国内AI产业上下游公司面临诸多挑战。然而,DeepSeek依然找到了自己的发展道路,并允许研究者和开发者自由使用该模型,允许用户对其进行任何形式的修改和衍生创作。这种开放姿态为全球AI行业带来了宝贵的资源。
封锁和制裁还推动了中国企业之间的联合突围。据报道,DeepSeek最新推出的推理模型DeepSeek-R1支持华为的昇腾平台和MindIE推理引擎,通过“动态精度调节”技术,它们在同等任务下性能损失仅5%,但成本下降70%。这标志着人工智能硬件选项多元化的重要一步,为英伟达以GPU为中心的生态系统提供了另一种选择。
尽管DeepSeek取得了显著进展,但它仍然是新生力量,单凭一个模型或企业无法改变中美AI科技力量的对比。市场处于信息爆炸时代,很多时候难以全面了解事情的发展全貌。例如,在训练成本方面,有国内大模型头部企业的技术负责人指出,DeepSeek-v3公布的557.6万美元只是单次训练成本,实际成本可能要翻倍;而在前人试错后,后来者的训练成本会更低。
事实上,在算力和资金等环境条件严苛的情况下,国内大模型厂商普遍通过软件和算法优化,实现了比国外同行低得多的训练和推理成本。零一万物创始人李开复曾表示,他们的训练成本只有OpenAI的3%,推理价格是OpenAI的四十分之一。
有业内人士指出,大模型非常怕被抄袭,第一个突破的人需要付出巨大成本,而后来者只需付出较少成本就能获得相似效果。因此,跟随战略长期有效。但中国AI产业要想迎头赶上甚至领先,不能仅仅依靠跟随,还需要实现更多从0到1的突破。
正如DeepSeek创始人梁文锋所言,中国AI不可能永远处在跟随的位置。他认为,中国与美国在AI领域的差距不仅仅是时间上的,更在于原创与模仿之间的差异。中国必须有人站在技术前沿,才能真正实现领跑。