超越ChatGPT,这个国产应用在美国“登顶”了 开源模型引发轰动

湖南日报 2025-01-29 13:50:05
A+ A-

1月27日,由杭州深度求索开发的Deepseek应用登上苹果中国地区和美国地区应用商店免费APP下载排行榜榜首,在美区下载榜上超越了ChatGPT。

超越ChatGPT,这个国产应用在美国“登顶”了

Deepseek来自量化巨头幻方量化旗下的大模型公司。1月20日,该公司正式发布了推理大模型DeepSeek-R1。这款模型因其性价比高,在海外开发者社区中引起了广泛关注。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能与OpenAI的模型相当,并采用MIT许可协议,支持免费商用、任意修改和衍生开发。目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAI的最新版ChatGPT-4并列,并在风格控制类模型分类中与OpenAI的模型并列第一。

超越ChatGPT,这个国产应用在美国“登顶”了 开源模型引发轰动

更令人惊讶的是,据DeepSeek介绍,R1的预训练费用仅为557.6万美元,在2048块英伟达H800 GPU集群上运行55天完成,仅是OpenAI GPT-4模型训练成本的不到十分之一。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。此外,DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型向社区开源,允许用户借此训练其他模型。

英伟达高级研究科学家Jim Fan认为,DeepSeek-R1可能是首个展示了强化学习飞轮可以发挥作用且能带来持续增长的开源软件项目。“飞轮”用来形容AI系统中自我强化、正向循环的过程。DeepSeek的论文显示,不同于过去AI模型往往依赖于监督微调,R1完全由强化学习驱动,证明了直接强化学习是可行的。

Jim Fan写道,我们正处于一个奇特的时间线上,一家非美国公司正在践行OpenAI最初的使命,即实现真正开放的前沿研究并让所有人受益。这种情况简直无法理解,但最有娱乐性的结果却是可能性最大的结果。

责任编辑:张蕾

热点新闻

精彩推荐

加载更多……