在龙年结束、蛇年开始之际,东方上演了一场震撼科技界的事件。1月27日,美国的人工智能主题股票遭遇抛售,英伟达股价暴跌16.97%,市值一日内蒸发近6000亿美元,创下美国历史上单日最大市值损失记录。这一事件的幕后推手是中国一家初创公司DeepSeek开发的大模型DeepSeek-V3。该模型发布后迅速登上美国苹果App商店免费下载排行榜榜首,引发科技圈和华尔街的关注。
1月28日凌晨,除夕夜前一晚,DeepSeek开源了其多模态模型Janus-Pro-7B,并宣布在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。随后,美国多名官员回应称DeepSeek是“偷窃”,并表示正在对其影响开展国家安全调查。面对外部压力,360集团创始人周鸿祎在微博上表示,如果DeepSeek需要,360愿意提供网络安全方面的全力支持。这场保卫战已经打响,中国“科技黑马”掀起的AI风暴可能将重塑全球科技业态。
软银宣布准备投资5000亿美元于AI基础设施建设时,DeepSeek发布了完全开源的R1模型。该模型在数学、代码、自然语言推理等任务上的性能与OpenAI最新的o1大模型相当,对全球科技界尤其是美国各大模型构成了巨大冲击。长期以来,算力被认为是AI的核心,但DeepSeek团队专注于算法创新,减少了对计算资源的需求。R1通过动态路由算法压缩了80%的冗余计算,以较低成本实现了高性能。DeepSeek官方公布的API定价显示,R1每百万输入tokens为1元至4元人民币,每百万输出tokens为16元人民币,而OpenAI的ChatGPT-o1运行成本约为R1的30倍。
这家成立仅一年半的年轻公司以低成本做出了硅谷需要上亿投入才能实现的大模型,R1迅速成为美国顶尖大学研究人员的首选。AMD宣布已将DeepSeek-V3集成到Instinct MI300X GPU上,优化AI推理性能。一名Meta员工透露,由于DeepSeek的低成本高性能,他们公司的人工智能部门陷入恐慌。国内大厂如阿里云也在春节期间加班发布了通义千问旗舰版模型Qwen2.5-Max,声称在多项测试中全面超越GPT-4o、DeepSeek-V3和Llama-3.1。
尽管DeepSeek在全球范围内引起了轰动,但实际体验显示它在某些方面仍需改进。例如,在文生图创作时,Janus Pro的表现令人失望。江苏省红楼梦学会会长苗怀明教授认为,DeepSeek可以写一些较为套路化、程序化的东西,但在独创性和深度文学作品创作方面尚有不足。此外,DeepSeek依然依赖于美国的算力生态,训练过程中需要使用英伟达GPU。包括马斯克在内的多位业内人士认为,DeepSeek的训练方式仍然依赖堆积算力,而非真正的突破。
DeepSeek登顶中美应用下载榜后,因遭受大规模恶意攻击短暂关闭注册通道。用户暴增导致系统频繁宕机,每问几个问题后就需要重新开启对话窗口。DeepSeek团队清醒地认识到,虽然取得了突破,但仍需保持冷静,看清差距。创始人的回复表明,他们正努力探索可持续发展的新路。