作者 | 周雅
来源 | 科技行者
NVIDIA创始人黄仁勋在CES 2025的全程高能演讲,浅看是一场新品发布会,实则是英伟达下了一步巨大的棋,这步棋关乎从云端到终端、从数据中心到普通用户、从虚拟世界到物理世界的“全方位”AI发展路线,不过这个“全”带了引号,因为英伟达试图在每一个方向都去突破既有玩法的极限。
就像黄仁勋在会后接受包括至顶科技在内的媒体采访时所说:“英伟达只做两类事情:要么是别人没在做的,要么是我们能做得独特且更好的。”
所以从这个角度,再回看那场发布会,似乎是另外的基调,所以这篇文章特此梳理黄仁勋这次演讲背后的8个核心要点。
图:出现在CES 2025舞台上的黄仁勋,这次穿了件闪亮亮的皮衣,开玩笑地对观众说道:“毕竟我在拉斯维加斯”。
要点一:“AI改变了游戏规则,更改变了计算的本质”,所以用BlackWell重新定义AI计算的边界。
黄仁勋开篇回顾了英伟达的发展历程。
从1993年NV1开始,英伟达就立志,构建能完成普通计算机无法完成任务的计算机,当时英伟达的编程架构被称为UDA(Unified Device Architecture,统一设备架构),跑在UDA的第一个应用程序,是世嘉的《虚拟战士》。
六年后的1999年,NVIDIA发明了可编程GPU;又过了六年后的2006年,英伟达发明了通用并行计算架构CUDA(Compute Unified Device Architecture);再过了六年后的2012年,随着“师生三人组”Alex Krzyzewski、Ilya Suskevor和Jeffery Hinton利用GPU训练AlexNet,并赢得2012年ImageNet挑战赛,震惊了计算机视觉界,AI由此进入新阶段。(这几个6年历程,老铁见了都得直呼666)
黄仁勋认为,AI发展有四个阶段:
1、感知AI(Perception AI),理解图像、文字和声音,场景包括语音识别、推荐系统、医学成像;
2、生成式AI(Generative AI),生成图像、文本和声音,场景包括数字营销、内容生成;
3、现阶段的Agenic AI,能够感知、推理、规划和行动,场景包括代码助理、客户服务、患者护理;
4、未来的物理AI(Physical AI),场景包括自动驾驶汽车、通用机器人。
2018年是一个关键的节点,谷歌发布Transformer模型BERT,彻底改变了AI的格局。这里温馨插入一段解释,之所以说Transformer具有变革性,是因为它引入的注意力机制,解决了长序列数据处理的难题,且允许并行计算,打破了传统RNN和LSTM的串行限制,它让机器第一次真正学会了“看全局”。
如果说以前的AI是只能一个个字往下读,但会看了后边忘了前边的儿童,而Transformer就是一目十行,心有全篇的专家。这个突破不仅让AI更聪明,处理信息的速度也贼快。而且它厉害的地方是,不光能处理文字,连图片、声音这些都能应对。所以说,Transformer就像是AI世界的“基本法”,彻底改变了AI的发展方向。
黄仁勋现场说:“Transformer驱动的机器学习将从根本上改变每一个应用程序的构建方式、计算方式、以及超越这些的可能性。”
顺着这句话,黄仁勋举了个“AI革新传统图形渲染”的例子。传统光线追踪,要对每个像素进行复杂计算,计算量巨大,但AI变革了这个过程——英伟达在游戏图形领域完成了两次根本性的革新:
第一次革新是引入可编程着色器和光线追踪技术,这让显卡能够通过定制化的程序来处理像素,并模拟真实世界中的光线行为,从而生成极具真实感的画面;第二次革新是DLSS(AI超分辨率技术,Deep Learning Super Sampling),它的核心理念是让AI来辅助甚至部分取代传统的像素渲染,通过在英伟达超级计算机上进行大规模训练,AI系统学会了理解和预测像素的颜色值,使得GPU上的神经网络能够“脑补”出未经实际渲染的像素内容。
最新一代DLSS 4的突破,被黄仁勋称之为“奇迹”,它不仅能在空间维度上补全像素,还能在时间维度上工作——通过预测未来画面,为每一帧额外生成三帧画面,就好比有3300万像素,而实际只需计算200万像素,并让AI预测其余的3100万像素,既保证了渲染质量,又提升了渲染效率。在现场演示中,DLSS 4 以每秒247帧的速度渲染场景,比不使用AI快8倍以上,同时将延迟保持在仅34毫秒。
顺着上述知识点,黄仁勋发布了这次的第一款GPU新品——RTX Blackwell系列。
RTX Blackwell 系列拥有920亿个晶体管,AI算力最高达4000 TOPS(比上一代高出三倍),美光G7内存,带宽可达每秒 1.8 TB(是上一代性能的2倍)。现有的 RTX GPU 也将支持 DLSS 4。
该系列包括四种型号:
RTX 5070——售价549 美元,提供 RTX 4090 的性能。
RTX 5070 Ti——售价749 美元,提供与 4090 相当的性能,配备 1406 AI TOPS 和 16GB G7 内存。
RTX 5080——售价999 美元,配备 1800 AI TOPS 和 16GB G7 内存。
RTX 5090——售价1999 美元,配备 3404 AI TOPS 和 32GB G7 内存。
搭载 RTX Blackwell GPU 的笔记本电脑,电池寿命延长 40%,性能提高一倍,功耗降低一半,价格从1299 美元到 2899 美元不等。其中,搭载RTX 5090、RTX 5080、RTX 5070 Ti的笔电将于3月上市,搭载RTX 5070笔电将于4月由OEM发售。
要点二:“Scaling Law依然奏效,正推动AI计算需求的指数级增长”,所以用NVLink满足全球数据中心需求。
接着讲到AI发展,黄仁勋认为Scaling Law(规模定律)还没结束——即数据越多、模型越大、计算能力越强、模型就越有效。之所以还没结束,是因为互联网每年产生的数据量都在翻倍,未来几年人类产生的数据量将超过之前的总和,而且这些数据正变得多模态。
黄仁勋认为,规模定律非但没结束,而且还发展出三种状态:预训练规模定律(Pre-Training Scaling)、后训练规模定律(Post-Training Scaling)、测试时间规模定律(Test-Time Scaling)。
其中:
「预训练规模定律」利用强化学习和人工反馈等技术,AI借助人类反馈进行学习提升,它可以针对特定领域微调,类似学生根据老师指导改进作业,适合解决数学、推理问题。
「后训练规模定律」则类似于自我练习,AI通过持续自主练习提升能力,过程中虽耗费大量算力,但能产生突破性模型。
「测试时间规模定律」是指AI运行时,不再仅仅改进参数,而是能动态掉配计算资源,通过“分步推理”和“深入思考”找出最优解决方案。该定律已被证明极其有效。
黄仁勋说,“规模定律推动了对英伟达的计算,特别是Blackwell芯片的巨大需求。”
图:Blackwell全系产品图
话音落下,黄仁勋搬出了一个由72块Blackwell GPU组成的NVLink72巨型“盾牌”模型,还摆了个pose,被网友调侃“美国队长”。
不过黄仁勋手里的“盾牌”,只是NVLink72的缩小模型,真正的NVLink72重达1.5吨,拥有60万个零件,相当于20辆汽车的复杂程度,系统内部有个类似“脊椎”的结构,通过2英里的铜线与5000根电缆把所有的Blackwell连接在一起。
黄仁勋介绍了性能参数。一个NVLink72芯片的AI浮点运算性能是1.4 ExaFLOPS,比世界上最大、最快的超级计算机还要大。其内存带宽达到 1.2 PB/s,相当于全球所有互联网流量的总和。这种超级计算能力,使得 AI 能够处理更复杂的推理任务,同时显著降低成本,为更高效的计算奠定了基础。
NVLink72的生产和部署过程十分复杂。它在全球45个工厂进行生产,采用液冷技术散热,经过严格测试后会被拆解成小部件,运送到全球的数据中心,之后再重新组装起来——这种特殊的运输方式是因为整机太重太大。
黄仁勋解释了“为什么要建造这块庞然大物”,是因为Scaling Law要求越来越强大的计算能力。新一代Blackwell芯片与上一代相比,每瓦性能提升了4倍,每美元性能提高了3倍。这个提升带来两个重要影响:
第一,从成本角度看,训练同样规模的AI模型,成本可以降低到原来的1/3;或者用相同成本,可以训练规模大3倍的模型。
第二,从数据中心运营角度看,由于数据中心受限于供电能力,新芯片的能效提升意味着,在相同供电条件下,数据中心可以进行4倍于之前的AI运算,这直接转化为更高的营收能力。
黄仁勋强调,这种提升非常重要,因为未来几乎所有应用都会使用AI进行文本处理(tokens)。目前大模型的token生成速度为每秒20-30个,与人类阅读速度相当。但在未来,GPT-o1/o2/o3、Gemini Pro等新模型能够进行自我对话、思考、反思,因此token的生成速度将大幅提高,而这些处理都需要在数据中心进行,他将这些数据中心比喻为“AI工厂”,而新一代芯片的能效提升,本质上就是在提高这些“AI工厂”的生产效率。
要点三:“Agenic AI是企业最重要的变革之一”,所以英伟达软硬兼施。
黄仁勋描绘了一个令人振奋的AI未来图景——“Agenic AI将成为企业最重要的变革之一。”这种变革不仅是技术的进步,更是工作方式的根本转变。
在他的描述中,AI代理不再是简单的问答系统,而是一个复杂的智能网络,它能够理解用户需求,搜索信息、调用各种工具、并通过多个模型的协同工作,来帮助用户解决问题。
为了帮助企业和合作伙伴实现Agenic AI的未来图景,英伟达推出了三个重要产品:
第一个是NVIDIA NIMS,这是一套打包好的AI微服务,包含CUDA DNN、Cutlass、Tensor RTLM、Triton等CUDA软件,以及一系列模型(涵盖语义理解、数字人、虚拟内容生成、数字生物等领域,并即将上线“物理AI”模型),方便开发者集成到自身软件中,可以在大部分云平台上运行。
第二个是NVIDIA NEMO,这是一个“数字员工”管理系统,负责训练AI智能体适应企业特定需求、设置行为准则和权限、并且通过反馈不断改进,就像是给AI代理做“入职培训”。
第三是一整套AI Blueprints(AI蓝图),以便生态系统伙伴和开发者自主构建AI智能体,而且它完全开源。黄仁勋介绍了其中的一套模型——Llama Nemotron开源模型套件,这是一个企业级语言模型的“全家桶”,是英伟达针对Meta的Llama进行微调而成(黄仁勋解释说,是因为英伟达发现Llama 3.1已经成为一个现象级产品,它被下载65万次,衍生出了6万个不同版本,是大部分企业研发AI的开始,而且可以它能被很好地微调)。
英伟达的Llama Nemotron包括三种规格:
Nano:极其小巧、响应快、最具成本效益的模型,针对PC和边缘设备所需的低时延模型进行了优化;
Super:在单个GPU上提供卓越吞吐量的高精度模型;
Ultra:精度最高的模型,专为要求最高性能的数据中心规模应用而设计。
黄仁勋预测,未来企业的IT部门将转变成AI智能体的HR部门,它们不再仅仅是维护软件系统,而是要管理一支数字劳动力队伍。全球有3000万程序员和10亿知识工作者将受益于这场变革,AI智能体将成为他们的得力助手。
这种AI智能体带来的变革,正在影响各行各业,黄仁勋在现场通过一支视频展示了5种AI代理的应用场景:
AI研究助手:在研究领域,AI智能体可以快速处理讲座、期刊、财报等复杂资料,生成易于理解的内容;
天气预报系统:在气象预报中,AI智能体将预报精度从25公里提升到2公里;
软件安全AI:在软件开发过程中,AI智能体可以自动扫描代码漏洞并提出修复建议;
虚拟实验室:在制药研究中,AI智能体可以帮助研究人员快速筛选药物候选物,加速新药研发过程。
英伟达选择了一条独特的市场路径。他们不直接面向企业用户,而是与生态系统的合作伙伴一起工作,就像当年推广CUDA一样。生态系统中的合作伙伴有CrewAI、Daily、LangChain、LlamaIndex、Weights & Biases的工具,也有ServiceNow、SAP、西门子的工业平台,也有甲骨文、dataloop的数据平台等。英伟达正在将AI代理渗透到各个行业。
这个战略显示了英伟达对未来AI的深刻理解:AI代理不仅是一个技术产品,而是企业的“数字员工”,它们需要培训、管理和持续改进,就像管理人类员工一样,这些AI代理可被训练为领域特定的任务专家。
通过这番演讲,黄仁勋展现了一个AI代理与人类协同工作的未来。在这个未来中,企业将拥有一支由人类+AI代理组成的劳动力队伍,该队伍是推动生产力提升的重要力量,而英伟达正在通过完整的技术方案和生态系统建设,来帮助企业实现这个未来。
要点四:“将Windows PC转变为AI超级计算机”,所以英伟达发布了WSL2。
说完了Agenic AI的愿景之后,如何才能真正落地呢?黄仁勋的答案是——本地算力:
“虽然云端计算对AI 来说是完美的选择,但AI的未来不应该仅限于云端,而是应该无处不在,特别是要进入我们的个人电脑。就像Windows 95革新了个人计算时代一样,未来的PC将开创新的计算范式,让每个用户都能够充分利用AI的力量来提升工作效率和创造力。”
从这个角度来看,黄仁勋介绍了未来PC的概念:不再只是简单地拥有3D、声音和视频API,而是要具备各种生成式API的能力(包括3D生成、语言生成、声音生成等),这意味着每台电脑都将成为一个强大的AI助手。
英伟达提供了一个解决方案:Windows WSL2(Windows Subsystem for Linux 2),这是一个Window系统内的双操作系统,为开发者提供直接访问硬件的能力,并且已经针对云原生应用和CUDA进行了优化,这使得包括NVIDIA NIMS、NVIDIA NEMO在内的所有AI工具都能在Windows PC上运行。
通过WSL2,英伟达可以将其所有AI工具和服务带到个人电脑上,包括各种模型。换句话说,这是一种计算范式的转变——每台个人电脑都将成为一个强大的AI工作站。
要点五:“我们要创造一个物理世界的AI模型”,所以英伟达发布Cosmos。
黄仁勋接下来的演讲内容,我认为是本场最重要也是英伟达接下来最重要的战略布局,我觉得可以理解为“让AI化形”。
什么意思?如果说GPT等大语言模型让AI掌握了“说”的能力,那么英伟达希望创造一个能理解物理世界的AI系统,赋予AI“做”的能力,这预示着AI即将从虚拟世界走向现实世界的重要一步。
接下来我们就逐步来讲讲。
黄仁勋首先说,当我们使用ChatGPT这样的语言模型时,我们输入一段提示词,模型会分析这段文字中的每个词语(token)之间的关系,然后一个接一个地生成回答的词语。这个过程看似简单,实际上模型内部有数十亿个参数在运作,每个词语都要和上下文中的其他词语建立联系,计算它们之间的相关性。
但是,我们生活的现实世界比文本复杂得多,AI需要理解重力、摩擦力、惯性等物理规律,还要明白空间关系和因果关系。比如,当你把球推出去时,它会如何运动;当你推倒一个物体时,会发生什么;物体从桌子上掉下去后,并不会消失——这些在人类看来很简单的常识,对AI来说都是巨大的挑战。
为了达成这个极具挑战性的“让AI理解物理世界”目标,于是英伟达正式推出Cosmos——一个强大的、能理解物理世界的、全球基础模型。
Cosmos是如何工作的?就像婴儿通过观察、触摸、实验来认识这个物理世界,Cosmos通过看大量视频来学习物理世界的规律,就像是一个加速学习的婴儿。黄仁勋说,Cosmos已经学习了2000万小时的视频,内容包括:自然现象(水会怎么流动)、物理规律(物体会如何碰撞)、人类动作(人是如何走路和抓取物品的)等。这些都成为它理解物理世界的“经验”。
但是,Cosmos的作用远不止于此。黄仁勋说,因为有Cosmos,我们可以因此创造一个物理世界的基础模型,基于Autoregressive Model(自回归模型)、Diffusion Model(扩散模型)、Video Tokenizer(将视频内容编码为紧凑的潜在token)、Video Processing and Curation Pipeline(视频处理管道)。
比如,它可以用来生成训练数据,帮助开发更智能的机器人,被黄仁勋比喻成“机器人的种子”;它能生成多种未来的物理场景,帮助AI做出更好的决策,“就像是一个奇异博士”;它甚至可以为视频生成准确的描述,这些描述又可以用来训练语言模型。
最重要的是,英伟达选择将Cosmos开源,就像Meta开源Llama一样。黄仁勋表示,希望Cosmos能为机器人和工业AI领域带来类似Llama 3.1对企业AI的革命性影响。
现在关键来了:当Cosmos与英伟达的虚拟现实仿真平台Omniverse结合时,这就像是给AI创造了一个“物理世界的实验场”,让它能在这里学习、实验和成长,它就能创造出基于真实物理规律的虚拟世界。
这里梳理一下黄仁勋的解释:Omniverse是一个基于物理规律运行的模拟器,而Cosmos则可以理解为一个物理世界的AI生成系统。当这两个系统结合时,这就像是我们在用大语言模型时,通过RAG(检索增强生成)系统来确保AI生成的内容是基于真实信息一样。在这里,Omniverse的物理模拟确保了Cosmos生成的内容符合现实世界的物理规律。
黄仁勋用了一个很好的类比:就像我们需要让语言模型的输出建立在真实信息的基础上一样,我们也需要让机器人的行为建立在真实物理规律的基础上,这样的结合创造出了一个“基于物理规律的多元宇宙生成器”。
在实际应用中,这种结合特别适合机器人和工业应用场景。正因为如此,黄仁勋提出了一个“三个计算机系统”概念:
第一个计算机系统(DGX)是用来训练AI的。这就像是机器人的“学校”,在这里进行基础的AI训练。
第二个计算机系统(AGX)是部署在实际场景中的,比如安装在自动驾驶汽车里、机器人身上或者体育场馆中的计算机。这些是在“前线”工作的计算机,负责实际的自主操作。
第二个计算机系统正是Omniverse+Cosmos系统,它是一个数字孪生平台。这就像是机器人的“虚拟训练场”。在这里,已经训练好的AI可以进行练习、完善,通过合成数据生成和强化学习,来提升性能。这个系统将前两个系统连接起来,使它们能够协同工作。
为什么需要Cosmos+Omniverse?因为假设你在教一个孩子学物理,不可能让孩子去做所有危险的实验,比如从高处跳下来感受重力,或者去碰滚烫的物体了解温度。而Omniverse就提供了一个“虚拟实验场”:比如可以无限尝试各种动作,而不用担心损坏真实设备;或者,快速模拟数千种不同的场景,而不用担心时间不够;或者测试各种极端情况,而不用承担实际风险。
这种组合的强大之处还在于:一方面,就算AI出错,也不会造成实际损失,可以立即重来。另一方面,Cosmos通过观察视频学习到的“经验”,可以在Omniverse中得到验证和完善。
黄仁勋特别强调了Omniverse+Cosmos系统在工业领域的重要性:“全球制造业大约有50万亿美元的规模,包括数以百万计的工厂和数十万个仓库,这些设施都需要向软件定义和自动化方向发展。无论是工厂的自动化系统,还是自动驾驶汽车,都需要这样的系统,来保证其行为既符合AI的智能决策,又符合现实世界的物理规律。”
图:英伟达Omniverse的合作伙伴生态系统
也因此,黄仁勋预测:工业生产正在向数字化、智能化方向发展,数字孪生将成为未来每一个工厂的标配,它就像工厂的“虚拟分身”,能够完全模拟真实工厂的运作,通过Omniverse+Cosmos系统,可以模拟出多种未来可能的运营方案,然后让AI选择最优方案,这些方案会成为真实工厂的运营指导。
要点六:“三个计算机系统”理论构筑自动驾驶未来,所以英伟达带来了Thor。
接着,黄仁勋谈到了自动驾驶革命,又秀出一张生态合作图,展示了英伟达在自动驾驶领域的广泛合作,覆盖Waymo、特斯拉、捷豹路虎、奔驰、丰田,还有比亚迪、理想、小鹏等众多中国车企。
黄仁勋提供了一组数据:全球每年生产1亿辆汽车,道路上有10亿辆车,每年行驶里程达到1万亿英里。他预测,“这些车辆未来都将实现高度自动化或完全自动化驾驶,这代表自动驾驶很可能成为第一个万亿美元级别的机器人产业。”目前,仅仅是少量开始量产的自动驾驶汽车,就已经为英伟达带来了40亿美元收入规模,预计今年将达到50亿美元。
针对于此,英伟达这次发布了新一代车载处理器Thor。
图: 英伟达Thor
这款芯片的处理能力是上一代Orin的20倍。在安全方面,DRIVE OS获得了ASIL-D认证,这是汽车功能安全的最高标准,这背后凝聚了约15000个工程年的努力,使CUDA发展成为一个功能完备、安全可靠的自动驾驶计算平台。
要点七:“通用机器人的ChatGPT时刻来临”,所以英伟达用ISAAC Groot重新定义机器人开发。
谈到机器人变革,黄仁勋说了一句金句:“通用机器人的ChatGPT时刻来临”,并指出了三种最有前景的机器人类型,这三种机器人的独特之处在于,它们不需要特殊的环境改造,可以直接在我们现有的世界中使用:
1、通用型AI或AI代理:因为它们是信息工作者,只要能适应我们现有的办公环境和电脑系统,就可以工作。
2、自动驾驶汽车:因为人类已经花了一百多年建设道路和城市,这些基础设施已经完备。
3、人形机器人:可以直接适应为人类设计的所有环境和工具。
黄仁勋认为,如果这三种机器人技术获得突破,将创造人类历史上最大的科技产业。
但他也指出了当前面临的关键挑战,特别是在人形机器人的训练方面,与自动驾驶汽车不同(我们每天都在产生大量的驾驶数据),收集人类动作示范数据是非常耗时费力的。
为了解决这个问题,英伟达提出了一个创新方案——ISAAC Groot平台,这是一个面向人形机器人开发的完整解决方案。
该平台的创新之处在于其独特的数据获取和训练方法:开发者可以使用Apple Vision Pro进行远程操作来捕获数据,通过少量人类示范就能生成大规模训练数据,并利用Omniverse+Cosmos进行领域随机化和3D真实感放大,这是一种AI训练方法的创新。
这个环节其实也揭示了机器人领域的重大变革:我们正在从专用机器人向通用机器人过渡,而这个转变的关键在于如何高效地训练这些机器人,通过AI和虚拟仿真技术的结合,我们可以大大加速这个过程。
要点八:“每个用计算机的人,都需要AI超级计算机”,所以英伟达用“DIGITS”开启个人AI超算的新纪元。
作为压轴的重磅产品,黄仁勋介绍了公司内部的一个项目“Project DIGITS”,展现了将企业级AI计算能力带入个人桌面的雄心。
首先,黄仁勋解释了项目名字的由来。最初项目叫“DIGITS”(Deep Learning GPU Intelligence Training System,深度学习GPU智能训练系统),后来为了与公司其他产品线(如RTX、AGX等)保持一致,简化为DGX。
DGX-1的推出是一个革命性的转折点。在此之前,如果想要使用超级计算机,你需要建设专门的设施和基础设施,这对大多数机构来说都是难以实现的。而DGX-1改变了这一切,它是一台“开箱即用”的AI超级计算机。黄仁勋还特别提到,2016年他们将第一台DGX-1交付给了OpenAI,当时包括马斯克、Ilya Sutskever在内的团队都在场。
图: 英伟达DGX-1
但现在情况不一样了,AI的应用已经不再局限于研究机构或创业公司。正如黄仁勋在演讲开始时提到的,AI计算正成为新的计算方式、新的软件开发方式,每个软件工程师、工程师、创意艺术家,实际上是每个用计算机的人,都需要AI超级计算机。
因此,英伟达希望能做出比DGX-1更小的设备,于是正式发布“Project DIGITS”:一个小型化的AI超级计算机。
图:英伟达“Project DIGITS”
该产品基于英伟达的GB110芯片(最小的Grace Blackwell芯片),通过与MediaTek合作开发CPU,并采用NVLink连接到Blackwell GPU,实现了前所未有的性能突破。
图:英伟达“Project DIGITS”的内部结构
它的设计理念,是成为一个放在桌面上的云计算平台,无论你的PC是什么系统都能连接使用,也可以作为Linux工作站使用,支持ConnectX和GPU Direct等技术,是一台袖珍版的超级计算机。预计将在2025年5月上市。
换句话说,英伟达正在将高性能计算从专业数据中心,带入普通用户的办公桌面,这种小型化、便携化的AI超级计算机,可能会像个人电脑革命一样,让更多人使用AI技术进行创新和开发。