张宏江再次炸裂预测：多模态大模型即将实现，AGI奇点来临｜2024 T-EDGE

财经 > 财经滚动新闻 > 正文

张宏江再次炸裂预测：多模态大模型即将实现，AGI奇点来临｜2024 T-EDGE

钛媒体

下载客户端
独家抢先看

2024年12月07日 17:25:00 来自北京

北京智源研究院创始理事长，美国工程院外籍院士张宏江

北京智源人工智能研究院创始理事长，美国国家工程院外籍院士张宏江

12月6日-7日，2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办，以“ALL-in on Globalization ，ALL-in on AI”为主题，汇聚全球科技和商业领导者，共同探讨人工智能对全球各行业的巨大影响，以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领域的顶级盛会，T-EDGE一直代表了钛媒体在科技与经济前瞻性，以及推动国际创新交流上的高质量追求。

12月7日，T-EDGE 全球AI论坛：All-in On AI会议上，北京智源人工智能研究院创始理事长，美国国家工程院外籍院士张宏江，以“ChatGPT发布24个月后的6点观察”为主题，围绕 AI 大模型发展与应用展开深度演讲。

张宏江表示，随着ChatGPT风靡全球，世界迎来新的 AI 革命，模型参数规模形成指数级“Scaling Law”发展。

在ChatGPT发布24个月后的今天，张宏江认为大模型领域有六个比较重要的技术趋势：Scaling Law没有全面放缓，AI将创造新的操作系统、新平台、新生态，大模型推动存量和新增应用，多模态大模型是AGI的终极模型，多模态大模型赋能机器人，以及大模型的未来将迎来“自主智能”的世界。

张宏江指出，对于最近“Scaling Law放缓”、大模型面临挑战等传闻和说法，他认为并不用担心Scaling Law放缓。“即使在Pre-Training（预训练）有放缓趋势，但o1的发布，让我们看到另外一个天地，就是相对于预训练模型的‘快思考’模式，推理模型o1可以给更多的思考时间，Scaling Law的推理性能已出现‘拐点’，有一个指数级增长。”

实际上，在去年2023T-EDGE大会上，张宏江曾判断，GenAI将重写软件业，过去一年的发展充分验证了张宏江的预测，美国To B企业软件行业正飞速被AI迭代，并且这些软件服务企业正式进入了盈利时代。（详见钛媒体App前文：《张宏江：所有产业都将被AIGC重写，完全自动驾驶将有望实现｜钛媒体T-EDGE 2023》）

“过去一年，美国有很多ToB应用爆发，但很遗憾，中国与美国在这点上有很大的差距，中国To B市场非常小，或者To B软件公司收入规模远不如美国，所以 AI 大模型重写软件服务依然需要时间进行落地。”张宏江称。

实际上，AI 大模型作为基础平台，将会系统性推动所有产业进入新范式，成为下一个时代的“超级入口”。张宏江曾谈到，AI 将重写所有软件应用和产业，提升每个领域的生产力。未来1.5年-2年，人类或将可以看到大规模商业落地曙光。

张宏江在T-EDGE大会上曾指出，所有的软件公司都必须拥抱大模型，包括软件工具、应用服务等类型企业，都需要启用大模型重写软件。

展望未来，在张宏江看来，多模态大模型将是 AGI 的终极模型形态，形成从语音、图片、视频，到端到端统一的多模态大模型十分重要。同时，AI应用层面将从AI Infra（基础设施）、AI PC、AI手机，到 AI 软件、自动驾驶、（人形智能）机器人、AI for Science（科学智能）等领域都将迎来新的机遇。

张宏江强调，未来每个人都从 AI 助理走向Agent，最后每个人都拥有一个AutoPilot，大模型将迎来一个自主智能的世界。随着大模型发展，统一的多模态大模型有望实现“突破”，这些新的技术变革，将让 AGI 奇点即将到来。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

以下是张宏江演讲全文，经整理：

各位钛媒体的嘉宾，大家下午好！

今天，我想用下面的时间，跟大家分享一下我对于大模型的发展与应用、过去ChatGPT发布的24个月的几点观察，我这边总结出6点：

1、Scaling Law（规模效应）还有效吗？

近日，OpenAI发布了o1模型，其在推理方面很大程度上超过了人的平均IQ（通常智商）。这也是我们第一次看到在推理上，过去这些模型，第一次超过了人类的IQ的平均值。

那么，先说我的第一个观察，因为最近大家这个聊得比较多的，就是说Scaling Law是不是发展“到头”了？

在此之前，我们先回答，为什么Scaling Law如此重要？

当ChatGPT这个几千亿参数的模型发布之时，自然语言处理的性能形成了指数级提高，就是我们所说的Scaling Law，它是大模型的规模定律。Scaling Law认为，模型的参数增大，到一定程度的时候，你才真正能看到模型的精度，有一个突飞猛进的增长，也就是出现“涌现”。

如果我们从图上来看的话，这事实上是我们看到一个明确的拐点，从一开始现象的非常缓慢的增加，它的精度，突然到了一个拐点，当我们的规模到了一定程度以后，就出现一个拐点冲儿，它的性能有足够性的往上讲，那么在几个方面都出现了这样的拐点，那么这个拐点我们把它叫做“涌现”。所以，我们过去的十几年来，看到模型越做越大，继而看到了这个“规模效应”。

最近这种说法受到了一些挑战。

首先，我们看到，现在很多模型训练到一定规模以后，好像没有办法的往前走，主要有几个方面：一方面是说，数据是不是不够；另一方面是说，算力是不是还够。

其次，更重要的是，我好像很长时间没有看到大模型性能大的改善。比如，人们一直没有看到GPT-5的发布，大家是不是认为，这个模型到了某个规模的话，数据可能不够了训练不出来了。这些问题肯定是值得大家思考的。

然而，我想要说的是，其实我们不用担心Scaling Law放缓，因为其即使在Pre-Training（预训练）有放缓趋势，但o1的发布，让我们看到另外一个天地，就是相对于预训练“快思考模式”，推理模型o1可以给更多的思考时间，所以，我们看到Scaling Law的推理性能出现“拐点”，有一个指数级增长。

01模型的新方法：引入“思考时间”（thinking time）的概念，允许模型在给定的计算预算内进行更多的计算迭代。推理计算可能随“思考时间”呈指数级增长，而不是线性增长。

最后，在推理模型领域，Scaling Law效应一直在持续而非放缓，这是我对此非常有信心的思考。

2、新操作系统、新平台、新生态

如果大家去年听过我的演讲的话，一定会对这张PPT不会陌生。

首先，大模型实际上是一个新的操作系统，从而会建立一个新的平台，那么，我们同样也需要建立一个新的生态。

我们看一下所谓的 AI 操作系统是什么，无非就是能够获取人的命令，能够执行人的命令，能够调用数据来进行计算。今天，大模型通过自然语言的交互，通过多模态的交互，就能够理解人们的需求，能够开始执行计算，所以我们说，大模型是新一代的操作系统。

其次，AI大模型拥有如此强大的技术能力，它将会重写所有的软件。

最后，既然是一个新的操作系统、一个新的平台，那一定会产生一个新的生态。如果我们看一下，如果把模型作为最核心的一块底层的话，实际上我们可以看到，云架构、数据中心底层是芯片。

这就是为什么我们看到，英伟达过去两年快速成长，云厂商和数据中心厂商过去两年也快速成长，这都是由于大模型训练、推理所拉动的。那同样，为了训练模型，我们在数据处理、数据存储、数据交互建立一个新生态，AI infra也需要快速发展，才能让大模型应用落地。所以，这是一个非常丰富的生态，比传统的软件生态要丰富的多，它能带来的创新、影响、技术变革时间，也会相当长。

作为生态的推动者，大模型不止要推动硬件、芯片厂商，而且还要推动数据中心相关的硬件厂商更进一步，带动能源的需求，带动能源的发展。所以，我相信，AI 大模型生态链会比之前PC、手机的生态链要更加强大。

另外一点，基础模型训练成本如此之高，而端侧、推理模型需求才刚刚开始，AI PC、AI Phone手机会慢慢发展。

未来，我相信大模型在数据中心、推理混合模式等方面，以及端侧和云端的结合，会带动产业链快速发展。

3、大模型推动存量和新增应用

第三个观察，我要分享，大模型将同时推动存量和新增应用。

过去两年，我们好像没有看到很多 AI “杀手级”应用出来，所以大家担心这个“浪潮”是不是将会失去。但其实，在技术快速发展的时候一定有很多机会，而在技术平缓、成熟的时候，也同样存在一定的机会，AI 应用的需求和数据中心的昂贵成本将推动边缘AI快速发展。

我认为大模型应用可能分为四个阶段：

1）第一波增长的 AI Infra（基础设施）、芯片和数据中心、能源等；

2）第二部分是PC、智能手机等硬件应用。

3）大规模 AI 应用。其实在美国，硬件端侧设备还没有起来之前，过去一年有很多 To B 应用爆发性成长，但很遗憾，中国与美国有很大的差距，中国To B软件市场非常小，或者说To B软件公司规模远不不如美国，所以 AI 重写大模型依然需要时间落地。

4）大模型在物理层面的爆发，比如自动驾驶、（人形智能）机器人、AI for Science（科学智能）都会越来越广泛、成熟发展。

所以，我们有理由相信，无论是自动编程，还是智能交互、客服、内容生成，大模型所推动的 AI 应用发展速度一定会超过早期的互联网、移动互联网时期。

4、多模态大模型是AGI的终极模型

我的第四点观察是，多模态生成大模型是AGI（通用人工智能）的终极模型。

实际上，我们人与人交流是通过语言模型，但人与世界之间的互动，还需要视觉、语音等其他不同模型的形态。因此，统一的多模态大模型才能够解决所有理解的问题。

那么，我们过去一年就会看到多模态生成模型的快速发展，文生图、文生视频、图生视频等等，最有代表性的是OpenAI Sora，具有产生非常漂亮、内容逼真视频的能力，以及理解、描述和，模拟现实世界能力，展现出世界模型的雏形。世界模型是一个重要方向，是我们达到通用人工智能的重要一环。

近期，李飞飞创立的公司World Labs日前分享了一项成果，也非常震撼：只需单张图像即可生成三维世界，团队研发的 AI 系统可以允许用户进入任何图像，并以三维方式进行探索其中的世界。这是非常非常重要的进步。

通向通用人工智能（AGI），我们希望把所有理解现实世界的能力、交互能力、和生成能力，建立在一个模型里面，这样才能真正接近我们人类思考的方式。要达到这个目标，形成端到端统一的多模态大模型十分重要。

比如，GPT-4o的发布，给人们呈现了所谓的“Her”，即电影”Her“中的主人公——AI 私人助理，逐渐有情感，开始对人有依赖，能给有情感的与人交互，那么，GPT-4o的演示恰恰表现出这种能力雏形，做到了生成、推理、语音、视觉等技术统一到一个模型当中的“第一步”。智源研究院最近发布的EMU3大模型把统一的多模态大模型发展向前推进了非常重要的一步。

5、多模态大模型赋能机器人

为什么我们认为，多模态的发展如此重要？其实有一个点在于，有了多模态大模型的突破，我们才能够真正的赋能于机器人，才能真正开发出通用、能自我规划、自主的机器人。

实际上，传统机器人的模型完全是由人来设计的，把复杂任务分解变成“简单任务”，然后对于每个简单任务进行人工设计，由规则来驱动运动的规划，这是非常原始的模型。那么，有了语言大模型和世界大模型之后，我们能够把复杂的任务通过多模态大模型分成“简单任务”，能够听懂人的这种命令，然后又能够进一步通过视觉模型分解成机器的动作，从而完成复杂-简单-机器动作的过程。

未来，多模态大模型驱动的“具身智能”模型，能给让复杂的任务一步到位，分解成机器的动作，这是我们的目标。

正是因为多模态大模型的迅速发展，过去一年迎来了通用、人形机器人“热潮”。但有一点我们要特别注意，中国在机器人的“本体”走在世界前列，但是需要有多模态大模型、具身智能的能力，只有具备这些能力后才能看到通用机器人的“起飞”（迅速发展）。

6、大模型的未来：自主智能的世界

最后一点我的观察就是，大模型的未来会带来一个自主智能的世界。

我们过去几十年看到 IT 产业不断进步，但PC、互联网真正实现的是“信息系统”。而我们今天真正进入的则是 AI 时代、模型时代。

那么未来，随着AI大模型的发展驱动，一定会让我们进入“自主智能”的时代。无论是软件，还是机器人本体，都能够有自主决策和行为能力，从而真正进入所谓自主智能的世界。

无论是现有应用，还是新的应用层面，我们都可以看到大模型智能体（AI Agent）的广泛赋能，而Agent的这种方式广泛应用需要智力、AI 能力的迅速提升。那么，随着 AI 这一轮浪潮不断发展，未来所有应用都会像Copilot一样无处不在，而且会越来越智能，从而将Copilot变成“AutoPilot”。

未来，我们每个人都将有一个 Agent。从助理、代理，再到AutoPilot，意味着未来大模型会给整个产品设计、社会组织、就业变化、业务成长等方面带来巨大机遇，会迎来一个“自主智能”的世界。

而这意味着，我们需要增加更多的GPU，训练更大模型、更强模型，以及更多的数据，这些都会成为企业的核心资产，大模型的未来对于我们生活和工作、企业组织、人员就业带来非常深刻的变化。

7、结语

讲了六点观察，最后是我的结束语：通用人工智能（AGI）奇点是不是已经来临？

如果你要问马斯克（Elon Musk），他说已经到了；如果问美国AI大模型独角兽Anthropic CEO Dario Amodei，他说2026年；如果你要问谷歌DeepMind CEO Demis Hassabis，他说可能还有十年；如果问辛顿（Geoffrey Hinton），他说还有5-20年。

所以这意味着，技术发展比人们学习 AI 的速度要快，人类进化的速度是一条直线，但 AI 技术发展的速度是一条指数级增长曲线，始终没有与人类学习能力的曲线相交叉。那么，一旦它们之间出现“交叉”，那就是奇点的来临。

今天，我们有理由相信，随着大模型学习能力越来越强，Scaling Law发展速度越来越快，AI 原生应用迅速落地和成长，统一的多模态大模型实现“突破”，这些技术变革将让奇点很快到来，也就是所谓“自主智能”的时代很快到来。

好，谢谢大家！

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

张宏江再次炸裂预测：多模态大模型即将实现，AGI奇点来临｜2024 T-EDGE

亲爱的凤凰网用户:

第三方浏览器推荐: