黄仁勋最新对话:开源闭源模型会和谐共存 企业不利用GenAI迟早被淘汰

冒泡泡的鱼儿 2024-06-17 10:00:37
A+ A-

据国外媒体报道,在近日举行的2024年Databricks Data + AI峰会上,英伟达创始人、CEO黄仁勋与Databricks的联合创始人、CEO阿里·戈德西(Ali Ghodsi)进行了一场精彩对话。双方的对话展示了人工智能和数据处理技术在现代企业中的重要性和发展趋势,强调技术创新、数据处理能力和能源效率在推动企业转型和行业发展中的关键作用。

黄仁勋在对话中展望了数据处理和生成式人工智能的未来。他指出,每家公司的业务数据都如同一座未被充分挖掘的金矿,尽管蕴藏着巨大的价值,但要从中提取深刻的洞察力和智能一直是一项艰巨的任务。

黄仁勋还谈到开源模型如Llama和DBRX正推动企业转型为AI公司,激活全球AI运动,促进技术发展和企业创新。通过这次英伟达与Databricks的合作,两家公司将携手发挥各自在加速计算和生成式人工智能领域的专长,共同为用户带来前所未有的好处。

黄仁勋最新对话:开源闭源模型会和谐共存 企业不利用GenAI迟早被淘汰

以下为对话实录:

主持人:我非常激动地向大家介绍下一位嘉宾,他是一位无需任何介绍的杰出人物--全球独一无二的“摇滚巨星”CEO——英伟达CEO黄仁勋。请上舞台。非常感谢你的到来!我想先从英伟达令人瞩目的业绩谈起,贵公司市值高达3万亿美元。五年前你是否曾想过世界会如此迅速地演变,展现出今天这样一幅令人瞩目的景象?

黄仁勋:当然!我从最初就预料到会这样。

主持人:真是令人赞叹。能否为台下的CEO们提供一些建议,我们应该如何实现目标?

黄仁勋:无论你决定做什么,我的建议是不要涉足图形处理器(GPU)的研发。

主持人:我会告诉团队我们不打算涉足这个领域。我们今天花费了许多时间深入讨论了数据智能的深远意义。企业手中握有海量的专有数据,这些数据是构建定制化人工智能模型的关键。这些数据的深度挖掘与应用对我们至关重要。你是否也注意到了这一行业趋势?是否认为我们应当在这一领域加大投入?你是否收集到了业界对此问题的声音和洞见?

黄仁勋:每家企业都像拥有一座金矿,掌握着丰富的业务数据。如果你的公司提供了一系列服务或产品,并且客户对这些服务和产品感到满意,同时提供了宝贵的反馈,那么你已经积累了大量有价值的数据。这些数据可能涉及客户信息、市场动态或供应链管理。长期以来,我们都在收集这些数据,拥有庞大的数据量,但直到现在,我们才真正开始从中提炼出有价值的洞见,甚至是更高层次的智能。

目前,我们对此充满激情。我们在芯片设计、缺陷数据库、新产品和新服务的创造,以及供应链管理中都运用了这些数据。这是我们首次采用以数据处理和精细化分析为起点的工程流程,通过构建学习模型,然后部署这些模型,并与数据收集的Flywheel平台相连,以获取更多的数据。我们公司正通过这种方式,使我们能够跻身于世界上最大的公司之列。这当然得益于我们公司大量采用人工智能技术,这些技术帮助我们完成了众多令人瞩目的成就。我相信,每家公司都在经历这样的变革,因此,我认为我们正处在一个非凡的时代。这个时代的起点是数据,以及对数据的积累和有效利用。

01开源与闭源的和谐共存

主持人:这真是太令人赞叹了,非常感谢。目前,关于闭源模型与开源模型之间的辩论正逐渐升温。开源模型是否能够迎头赶上?两者是否能够共存?或者最终是否会被一个单一的闭源巨头所主导?你对整个开源生态系统有何看法?它在大语言模型的发展中扮演了怎样的角色?未来又将如何发展?

黄仁勋:我们需要前沿的模型,尤其是那些能够开拓视野的先进模型。OpenAI和谷歌在这方面的工作至关重要,它们不仅拓展了技术边界,还帮助我们探索了新的可能性。然而,如果审视今年的情况,可能最重要的事件都与开源紧密相关,比如Llama 2、Llama 3、Mistral,以及Databricks团队所开展的DBRX项目。DBRX确实是非常酷的成果。它的酷之处在于,它激发了每一家企业的活力,使得任何一家公司都有可能转型为一家人工智能公司。你一定也注意到了这一点,我们在全球范围内都看到了这样的趋势。我们最近将Llama 3转化为了一个推理微服务,并且现在可以下载使用。你可以访问Hugging Face,当然还有Databricks,现在它已经被全球数百家公司所采纳。

这充分说明了开源激发了每一家公司的潜力,让它们有机会成为人工智能领域的一份子。在英伟达,我们广泛地使用开源模型,并结合我们自己的数据和技能,对它们进行微调和训练。如果没有开源,就不会有这场激励全球每一家公司向人工智能转型的运动。我认为,这无疑是一件具有重大意义的事情。

主持人:确实,这是一个令人赞叹的发展。开源与闭源模型将共存,我们确实需要这两种模式。您提到的Nim框架,即Nims,正是我们所关注的。我非常兴奋地在这里宣布,我们将把DBRX集成到Nims中,并在Databricks平台上提供服务。事实上,我们未来开发的所有新模型也将采用这种方式。我们对Nims的前景充满期待。

黄仁勋:创建大型语言模型API的过程确实是一项技术挑战。尽管这些模型在当前看来可能不算庞大,但它们在计算上依然非常复杂,技术栈涉及众多依赖项。为此,我们开发了英伟达推理微服务Nim,它整合并优化了所有必要的依赖项。英伟达拥有专业的工程师团队,他们专注于这一领域,将复杂的技术封装成易于使用的微服务。用户可以在Databricks平台上轻松使用这一服务,也可以下载并根据需要进行个性化微调。英伟达NeMo(更新版本的神经模块)微服务提供了这种灵活性,确保它能够在任何云环境或本地环境中运行,真正实现了无处不在的人工智能能力。

主持人:这确实是一项令人赞叹的技术。能够在本地部署运行的能力尤为突出,它意味着我们不再完全依赖云服务,这无疑是一项巨大的进步。在与客户的交流中,我们发现他们正致力于培养内部专业技能,以定制模型并获得竞争优势。对于这一现象,你有何看法?

黄仁勋:我认为,未来的趋势是,正如我们今天所见证的,我们已经能够将几乎所有类型的信息和数据进行标记化处理。我们能够提取其结构、理解其内涵,并学习其表示,无论是声音、语言、图像、视频,还是化学物质、蛋白质,甚至是机器人的动作控制或驾驶操作,我们都能够进行标记化。由于云数据中心正在生产这些标记,我们实际上是在制造一些前所未有的独特产品。这是首次,我们拥有了被称为人工智能超级计算机的工具,它们在专门为此目的设计的工厂中生产标记,我们大规模生产智能的能力是一项全新的技术。这也是我坚信我们正处于一场新工业革命的开端的原因之一,这场革命不是生产电力,而是生产智能。

当然,每家公司在其核心都是关于特定领域的智能。在数据、数据处理、人工智能及其基础设施方面,很少有公司能比Databricks拥有更深入的了解。我们专注于我们的专业领域,我们的基础是这种特定领域的智能,无论是金融服务还是医疗保健等各个领域。最终,我们所有人都将成为智能制造商。

如果你今天要成为智能制造商,你将来会有人工智能领域的人力资源,我们称之为人工智能工厂。因此,每个公司都必须开始这一进程。我们正在这样做,你也将这样做。我们观察到,无论公司规模大小,它们都在朝着这个方向努力。因此,在未来,我们所有人都将参与到这一进程中。你将从你的特定领域数据开始,这些数据存储在Databricks的某个地方,你将处理这些数据,提炼并从中提取智能,然后将其放入Flywheel平台中,你将拥有一个人工智能工厂。

02加速计算与生成式AI的融合

主持人:这确实是一项令人赞叹的成就,我对此深信不疑。我们对此充满热情,尤其是在数据处理方面。我们Databricks每天处理的数据量极为庞大,大约每天4000万亿字节。

黄仁勋:这无疑是目前地球上最大的计算需求之一,也就是所谓的数据处理。事实上,几乎每一家企业都在进行这项工作。

主持人:确实,数据处理的高并行性使其成为我们重复执行相同操作的理想领域。我对于我们能够携手合作,将GPU加速技术引入数据处理充满期待。我们致力于在核心数据处理领域实现与AI模型相媲美的革命性进步。我们对与您携手,利用GPU加速技术优化我们的Photon引擎,以迈入将GPU应用于核心数据处理的新时代感到无比激动。目前,这些庞大的工作流程不得不依赖CPU来执行,我们期望它们也能在Nvidia GPU上高效运行。

黄仁勋:顺便提一下,这是一个重大的消息:当今计算领域的两大关键趋势--加速计算和生成式人工智能,Nvidia和Databricks将强强联合,汇聚我们在这些领域的专业技能,将这些前沿技术带给每一位用户。数据处理的加速虽然在技术上极具挑战,但我们已经投入了五年的时间,不懈努力,终于开发出了能够显著提升Photon性能的库。这是我们长期努力的成果,现在我们将使Photon加速,让数据处理变得更加迅速、成本效益更高,并且非常重要的是,显著降低能源消耗。

主持人:这确实是一个意义深远的进展,它在逻辑上非常合理。尽管数据处理过程复杂且充满特殊情况,但由于其高度的可并行性,我们实际上并不需要通用的计算能力。我们面对的是重复性极高的操作,处理的是庞大的数据集,而不是独一无二的数据。因此,我对这项技术充满期待,它不仅具有颠覆现状的能力,还将大幅提升性能,降低成本,这无疑将带来令人惊叹的变革。

黄仁勋:当我们能够迅速处理海量数据时,研究人员便有可能在某个清晨醒来,突发奇想地说:“让我们收集互联网上的所有数据来训练一个庞大的模型,因为现在这已不再是耗时费力的工作。”若非加速计算技术的发展,人们不会考虑这样的想法,因为那将成本高昂且耗时漫长。但现在,这已成为可能,我们能够以更低的成本和更高的效率处理前所未有的数据量。这将激发出无限的创新思维,比如:“让我们利用公司的全部数据来训练我们的超级人工智能,”这样的日子即将到来。

03开启智能服务的新篇章

主持人:的确,将整个互联网的数据进行处理,这曾是一个只存在于科幻小说中的概念。我们曾认为这是不可能实现的,直到硬件和基础设施发展到足够先进的水平,使得我们能够对技术进行专门化处理。如今,这已成为现实,每个人都在参与其中。让我们转向另一个话题。生成式人工智能的蓬勃发展确实令人瞩目。起初,众多企业以聊天机器人为起点,致力于开发和定制基于自身数据的聊天机器人。然而,目前我们观察到人们正逐步拓展至更多尖端的应用场景。展望未来,人工智能的哪些新应用最令你感到兴奋?

黄仁勋:在所有潜在影响中,客户服务可能是最为深远的领域。对于在座的每家企业而言,客户服务涉及的开支高达数万亿美元,横跨每一个行业,每一家企业。聊天机器人在客户服务中的应用,其重要性不仅在于自动化能力,更在于其对数据飞轮的贡献。企业需要捕捉对话,将客户互动纳入数据体系,这无疑将产生大量数据。目前,数据量的增长速度大约是每五年增加十倍。鉴于客户服务的推动,我预计未来数据量的增长速度可能达到每五年百倍。我们将把所有元素整合入数据飞轮,它将收集更多数据,提炼更深层次的洞察,从而提取更精准的智能信息,提供更优质的服务,甚至实现在问题出现前的主动预防和解决,类似于预防性维护,我们将实现主动式客户支持,这将进一步推动数据的生成和飞轮的旋转。因此,我认为客户服务将是大多数公司实现超级加速的关键,尤其是考虑到它将收集的数据量。

我们已经实现了对一切事物的数字化标记,我对我们在化学、蛋白质、碳捕获材料、酶、以及创新电池等领域的进展感到兴奋。我们还利用生成式人工智能实现了区域天气预报的精确度,在以往,这需要超级计算机的计算能力才能达到。物流、保险、以及保护人们免受伤害的能力都将因此得到提升。

此外,生成式人工智能在物理、生物领域,以及3D图形、数字孪生、视频游戏虚拟世界构建等方面也展现出巨大潜力。如果贵公司尚未涉足生成式人工智能,那可能是因为尚未充分关注。事实上,它已经渗透到了每一个行业。

主持人:我完全赞同你的观点,人工智能的应用无疑将遍布各个领域,这不仅合理,更充满无限可能,令人充满期待。面对这些新兴的前沿领域,我们对数据的需求正日益增长。关于如何帮助企业实现更可持续的人工智能发展,您有何看法?

黄仁勋:可持续性可以从多个角度来考量,尤其是与能源相关的方面。值得注意的是,人工智能本身并不挑剔其“学习”的地点。我们没有必要将人工智能的训练数据中心设立在那些电网已经承受压力的人口密集区域。恰恰相反,我们可以将它们安置在能源充足且分布均匀的地区。全球能源资源十分丰富,关键在于如何合理分配和利用。因此,我认为这是我们首次有机会捕获并利用那些过剩的能源,将其转化为人工智能模型的动力,并最终将这些智能成果回馈给社会,服务于我们的实际需求。

另一个重要的视角是,人工智能的核心不仅仅在于模型的训练,更在于其推理和生成能力。我们训练模型的最终目的是为了应用它们。当我们着眼于人工智能的长期效益时,以我先前提及的利用人工智能进行天气预报为例,我们不再需要每次都从头开始模拟物理定律,而是可以通过人工智能来生成预测结果。这种方法不仅缩短了预测时间,提高了预测精度,更在能源消耗上实现了数千倍的降低。

此外,人工智能的纵向效益还体现在其他方面,例如通过一次性训练模型来设计手机芯片,从而为所有用户节省能源。我相信,随着时间的推移,人工智能将展现出其在节能方面的潜力。

最后,关于生成式人工智能,今天的计算体验大多是基于检索的。每次我们点击手机,虽然看似消耗的能量不多,但实际上它激活了全球的API,检索信息,点亮了互联网,然后从不同的数据中心收集少量信息,通过推荐系统呈现给我们。未来,随着设备上运行的小语言模型变得更加上下文化和生成化,互联网流量将大幅减少,计算将更多地即时生成,这将极大地节省能源,使计算模型发生根本性转变。

通过这种方式,我们不仅能够节省大量能源,还能更高效地获取答案。这将彻底改变我们的计算方式,使我们能够更快地提出问题,得到答案,从而激发出更多有趣的问题。这种与人工智能合作的未来,将是一个充满提示和启发的新时代。

主持人:是的,未来非常激动人心。好的,我最后一个问题是,我们如何帮助客户,也就是在座的各位,今天就开始行动?最好的方法是什么?

黄仁勋:我之前提到过,我认为Databricks从数据处理扩展到数据治理,再到数据存储,然后将其纵向扩展到从数据中提取智能,这一转变是非常有远见的。我未能记起她的名字,但毫无疑问,那位“Cookie女士”的工作表现极为出色。是Casey吧?请别让她被其他公司挖走,她刚才在后台的演示确实令人印象深刻。我被她的演示深深吸引,尽管在后台有许多交流的机会,但我个人更倾向于全神贯注地观看她的演示。她对数据智能平台的掌握和展示技巧,无疑值得我们的高度赞扬和尊重。我认为这个平台非常了不起,你们让人们更容易地管理数据、提取信息、处理数据。数据整理在模型训练中仍然是一个非常重要的部分。人们谈论模型训练,但在训练模型之前,你必须弄清楚哪些数据是正确的。这关乎数据质量、数据格式、数据准备。所以,我认为开始的方式是来到Databricks,使用Databricks的数据智能平台。我说的对吗?

主持人:完全正确。

黄仁勋:确实,没有人会反对将他们的平台命名为DIP,即数据智能平台(Data Intelligence Platform)。这个名称既响亮又富有内涵,我对此十分赞赏。它与Nims一样,都是令人印象深刻的命名。你完全可以同时使用这两者,无需做出选择。获取一个Nims加上DIP,我完全赞同这种结合使用的方式,这是一个明智的策略。

无论你计划做什么,关键在于立即开始行动。你必须积极参与进来,投身于这趟迅猛发展的列车之中。切记,生成式人工智能正以指数速度增长,你不应仅仅观望或等待。指数趋势的发展速度是惊人的,几年之内,落后者将被远远抛在后面。因此,立即加入这场技术革命,随着技术的不断进步,你也将随之学习和成长。这正是我们所采取的行动方式。

这是一个不应通过旁观来学习的过程,你不能仅通过阅读来掌握它,真正的学习来自于亲身实践。正如我们所做的,全身心投入其中。

主持人:非常感谢。这是一条宝贵的建议。过去十年的合作令人难忘,感谢你所做的一切。我们一直是出色的合作伙伴,期待与Databricks共同迎接下一个十年的辉煌。

责任编辑:乔娇 TT0002

热点新闻

精彩推荐

加载更多……