一夜之间,OpenAI和Claude母公司Anthropic对DeepSeek发起了指责。据《金融时报》报道,OpenAI声称发现证据,证明DeepSeek利用其模型进行训练,涉嫌侵犯知识产权。具体而言,他们发现了DeepSeek“蒸馏”OpenAI模型的迹象,即使用更大模型的输出来提高较小模型的性能,以较低成本在特定任务上取得类似结果。微软也开始调查DeepSeek是否使用了OpenAI的API。
消息一出,引来了一波嘲讽。纽约大学教授马库斯表示,OpenAI需要免费使用所有艺术家和作家的作品训练模型,然后用省下的钱去起诉DeepSeek。知名技术媒体404 Media创始人及主编Jason也讽刺OpenAI只许州官放火。
另一方面,Anthropic创始人Dario Amodei发表长文称,说DeepSeek构成威胁太夸张了,只是达到了他们7-10个月前的水平,Claude 3.5 Sonnet在许多评估中依然领先。不过,为了保持领先,他建议设置更多限制。
相比之下,微软的做法显得耐人寻味。就在指控DeepSeek涉嫌侵权后不久,微软的AI平台上接入了DeepSeek模型。网友调侃道,否认是接受的第一步。
目前,微软和OpenAI对DeepSeek的质疑仍处于调查阶段。根据微软工作人员的说法,DeepSeek可能在去年秋天调用了OpenAI的API,导致数据泄露。按照OpenAI的服务条款,任何人都可以注册使用其API,但不能使用输出数据训练对其造成竞争威胁的模型。OpenAI拒绝进一步置评,也不愿提供证据细节。
模型蒸馏是一种压缩技术,通过将复杂的大模型的知识转移到更小、更高效的模型中。这种技术在学术界和工业界非常普遍且被认可。例如,Together AI曾将Llama 3蒸馏到Mamba,实现推理速度提升。IBM的文章也提到,知识蒸馏已成为生成式AI普惠化的重要工具。
然而,违反OpenAI的服务条款是个问题。尽管一些开源模型允许蒸馏,但OpenAI首席科学家Mark Chen表示,DeepSeek独立发现了OpenAI在实现过程中采用的一些核心理念,并认可了其在成本控制上的工作。同时,他也提到OpenAI也在积极探索模型压缩和优化技术。
实际上,OpenAI自身在合规性上也存在问题。它在训练模型时使用了大量的互联网数据,包括有版权的内容。2023年12月,《纽约时报》以侵犯知识产权为由将微软和OpenAI告上法庭。OpenAI辩解称,使用公开可获得的互联网资料训练AI模型是合理的,且版权著作被非商业性使用是受到合理保护的。此外,大语言模型的关键在于Scaling,任何单独被盗的内容都不足以支撑训练一个大模型。
这引发了关于人工智能领域发展的基本逻辑的讨论。Anthropic创始人Dario Amodei认为,DeepSeek的新模型虽然成本更低,但水平与他们7-10个月前相当。他认为正确的说法是“DeepSeek生成了一种模型,用较低的成本实现了接近7至10个月以前的Claude的表现”。
分析师郭明錤认为,DeepSeek R1加速了两个趋势:一是通过优化训练方式持续增长AI算力,二是API/Token价格显著下滑,有利于加速AI应用的多元化。这些趋势有助于增加AI算力需求,并降低投资者对AI投资能否获利的疑虑。