Nature:世界科学家涌向DeepSeek 廉价强大模型引关注

人工智能学家 2025-01-31 11:45:58
A+ A-

科学家们对DeepSeek-R1表现出浓厚兴趣,这是一种价格低廉但功能强大的人工智能推理模型。自一家中国公司上周发布以来,美国股市因此出现上涨。测试表明,DeepSeek-R1在解决数学和科学问题方面与OpenAI于9月发布的o1模型相当。

Nature:世界科学家涌向DeepSeek

尽管R1在某些任务上仍有不足,但它为全球科学家提供了训练定制推理模型的机会。俄亥俄州立大学的人工智能研究员Huan Sun表示,由于其出色的性能和低成本,更多科学家可以在日常研究中尝试大型语言模型,而不必担心成本。她还提到几乎所有从事人工智能工作的同事都在讨论这个模型。

Nature:世界科学家涌向DeepSeek 廉价强大模型引关注

对于研究人员来说,R1的低成本和开放性可能带来巨大变革。他们可以通过应用程序编程接口以较低成本查询该模型,或者免费使用其在线聊天机器人DeepThink。此外,还可以将模型下载到自己的服务器上并免费运行和构建,这在竞争对手的封闭模型如o1中是不可能实现的。

Nature:世界科学家涌向DeepSeek 廉价强大模型引关注

温哥华不列颠哥伦比亚大学的人工智能研究员Cong Lu表示,自1月20日R1推出以来,许多研究人员一直在探索如何基于R1训练自己的推理模型。Hugging Face的数据支持了这一点,一周内记录了超过300万次不同版本的R1下载。

Nature:世界科学家涌向DeepSeek 廉价强大模型引关注

Sun的研究团队对R1进行了初步测试,结果显示它在生物信息学、计算化学和认知神经科学等领域的数据驱动任务中表现良好。两种模型都正确解决了约三分之一的任务,但R1的成本仅为o1的1/13,虽然思考速度较慢。

Nature:世界科学家涌向DeepSeek 廉价强大模型引关注

在数学领域,牛津大学的Frieder Simon发现R1在抽象泛函分析中的证明比o1更具前景。但他也指出,研究人员需要具备分辨证明质量的能力,因为这些模型可能会犯错。

R1受到广泛关注的原因之一是其以“开放权重”形式发布,这意味着其算法连接可供继续使用。科学家可以通过微调提高其在特定领域的性能。孙教授表示,只要有合适的数据集,研究人员可以训练模型以改进特定科学过程的编码任务。

能够下载并部署R1到本地系统也有助于保护隐私,特别是在涉及敏感数据的医学研究中。旧金山人工智能公司Anthropic的联合创始人Jack Clark表示,DeepSeek展示了改进其他模型的方法,通过将其推理能力传授给其他大型语言模型,例如Meta的Llama。

研究人员也在应用强化学习技术来改进具体任务。Lu去年参与创建了一个名为“AI Scientist”的模型,该模型可以执行从文献扫描到撰写论文的一系列研究任务。通过定义适当的奖励信号,科学家可以针对任何目标训练模型。

然而,DeepSeek-R1并非完美无缺。例如,在一些简单的任务上,如计算包含字母W的美国州名数量时,聊天机器人DeepThink未能成功完成。与其他中国模型一样,R1拒绝回答政治敏感问题,但尚不清楚这是内置限制还是界面设置所致。

责任编辑:张蕾

热点新闻

精彩推荐

加载更多……