DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

新浪财经 2025-02-04 11:58:31
A+ A-

DeepSeek的写作能力为何飞跃?PTX是否真正做到了绕开CUDA的垄断?

DeepSeek最强专业拆解来了,清交复教授超硬核解读

智东西2月3日报道,五位高校教授在线上讨论了DeepSeek的技术原理与未来方向,解析其优化方法如何提升算力能效。他们探讨了复现o1大推理模型、DeepSeek R1技术路线和训练流程亮点、降低成本策略等问题。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

北京交通大学教授金一主持了这场线上分享。复旦大学教授邱锡鹏、清华大学长聘副教授刘知远、清华大学教授翟季冬以及上海交通大学副教授戴国浩分别从不同专业角度分享了对DeepSeek的思考,并延伸到对中国大模型高质量发展路径的启发。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

邱锡鹏教授主持开发了国内首个开源对话式大语言模型MOSS。刘知远教授是大模型创企面壁智能的首席科学家。翟季冬教授是AI基础设施创企清程极智的首席科学家。戴国浩教授是AI基础设施创企无问芯穹的联合创始人。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

邱锡鹏解读了R1技术路线图,指出强推理模型最终落脚点是Agent。他提到OpenAI o1是一个非常现象级的推理模型,在竞赛题目上达到了人类专家水平。邱锡鹏认为,o1的核心在于强化学习,通过预训练、提示工程、监督微调等手段让模型具有初始的类人推理行为。他还详细介绍了R1的技术路线,包括冷启动、推理导向的强化学习、拒绝抽样和监督微调以及适用于所有场景的强化学习四个阶段。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

刘知远从宏观角度介绍DeepSeek R1所代表的大规模强化学习技术及其基本原理。他认为DeepSeek可能是全球第一个能够通过纯强化学习技术复现OpenAI o1能力的团队,并开源发布详细技术介绍。刘知远强调,DeepSeek的意义在于它展示了深度思考的能力,类似于2023年初的“ChatGPT时刻”,让大家感受到大模型的能力又迈进了一步。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

翟季冬分享了DeepSeek在系统软件方面的工作,拆解并行训练策略。他指出DeepSeek V3的成本相对较低,采用了MoE架构和多种优化策略,如负载均衡、通信优化、内存优化和计算优化,从而大幅提升了训练效率。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

戴国浩讨论了DeepSeek在软硬件上的优化,特别是绕过CUDA层的问题。他解释了PTX(并行线程执行)指令的重要性,并指出通过定制的PTX优化,可以使系统和模型更好地释放底层硬件的性能。他还提到,协同优化可以通过软件和硬件的结合进一步提升整体系统的优化空间。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

在Q&A环节中,四位教授从各自的专业角度分享了DeepSeek引起的一些效应和技术亮点。邱锡鹏认为DeepSeek的成功在于效果好且开源;刘知远强调了低成本和开源的重要性;翟季冬则关注架构创新,尤其是MoE;戴国浩从学术和产业两个角度表达了对DeepSeek的赞赏。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

对于MoE架构是否是最优解的问题,几位教授一致认为没有绝对最优的方法,但模块化和稀疏激活将是未来的重要方向。关于长思维链设计对硬件的需求,戴国浩提出需要更高的带宽和存储能力,以及新的硬件架构来支持高效的推理过程。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

最后,关于PTX方法的通用性,翟季冬和戴国浩都认为PTX是英伟达特有的指令,如果换用其他芯片,则需要使用相应的底层接口进行调整。

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

DeepSeek最强专业拆解来了,清交复教授超硬核解读 揭秘大模型优化之道

责任编辑:张蕾

热点新闻

精彩推荐

加载更多……