张宏江再次炸裂预测:多模态大模型即将实现,AGI奇点来临|2024 T-EDGE

张宏江再次炸裂预测:多模态大模型即将实现,AGI奇点来临|2024 T-EDGE

北京智源研究院创始理事长,美国工程院外籍院士 张宏江

北京智源人工智能研究院创始理事长,美国国家工程院外籍院士 张宏江

12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办,以“ALL-in on Globalization ,ALL-in on AI”为主题,汇聚全球科技和商业领导者,共同探讨人工智能对全球各行业的巨大影响,以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领域的顶级盛会,T-EDGE一直代表了钛媒体在科技与经济前瞻性,以及推动国际创新交流上的高质量追求。

12月7日,T-EDGE 全球AI论坛:All-in On AI会议上,北京智源人工智能研究院创始理事长,美国国家工程院外籍院士 张宏江,以“ChatGPT发布24个月后的6点观察”为主题,围绕 AI 大模型发展与应用展开深度演讲。

张宏江表示,随着ChatGPT风靡全球,世界迎来新的 AI 革命,模型参数规模形成指数级“Scaling Law”发展。

在ChatGPT发布24个月后的今天,张宏江认为大模型领域有六个比较重要的技术趋势:Scaling Law没有全面放缓,AI将创造新的操作系统、新平台、新生态,大模型推动存量和新增应用,多模态大模型是AGI的终极模型,多模态大模型赋能机器人,以及大模型的未来将迎来“自主智能”的世界。

张宏江指出,对于最近“Scaling Law放缓”、大模型面临挑战等传闻和说法,他认为并不用担心Scaling Law放缓。“即使在Pre-Training(预训练)有放缓趋势,但o1的发布,让我们看到另外一个天地,就是相对于预训练模型的‘快思考’模式,推理模型o1可以给更多的思考时间,Scaling Law的推理性能已出现‘拐点’,有一个指数级增长。”

实际上,在去年2023T-EDGE大会上 ,张宏江曾判断,GenAI将重写软件业,过去一年的发展充分验证了张宏江的预测,美国To B企业软件行业正飞速被AI迭代,并且这些软件服务企业正式进入了盈利时代。(详见钛媒体App前文:《张宏江:所有产业都将被AIGC重写,完全自动驾驶将有望实现 |钛媒体T-EDGE 2023》)

“过去一年,美国有很多ToB应用爆发,但很遗憾,中国与美国在这点上有很大的差距,中国To B市场非常小,或者To B软件公司收入规模远不如美国,所以 AI 大模型重写软件服务依然需要时间进行落地。”张宏江称。

实际上,AI 大模型作为基础平台,将会系统性推动所有产业进入新范式,成为下一个时代的“超级入口”。张宏江曾谈到,AI 将重写所有软件应用和产业,提升每个领域的生产力。未来1.5年-2年,人类或将可以看到大规模商业落地曙光。

张宏江在T-EDGE大会上曾指出,所有的软件公司都必须拥抱大模型,包括软件工具、应用服务等类型企业,都需要启用大模型重写软件。

展望未来,在张宏江看来,多模态大模型将是 AGI 的终极模型形态,形成从语音、图片、视频,到端到端统一的多模态大模型十分重要。同时,AI应用层面将从AI Infra(基础设施)、AI PC、AI手机,到 AI 软件、自动驾驶、(人形智能)机器人、AI for Science(科学智能)等领域都将迎来新的机遇。

张宏江强调,未来每个人都从 AI 助理走向Agent,最后每个人都拥有一个AutoPilot,大模型将迎来一个自主智能的世界。随着大模型发展,统一的多模态大模型有望实现“突破”,这些新的技术变革,将让 AGI 奇点即将到来。

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

以下是张宏江演讲全文,经整理:

各位钛媒体的嘉宾,大家下午好!

今天,我想用下面的时间,跟大家分享一下我对于大模型的发展与应用、过去ChatGPT发布的24个月的几点观察,我这边总结出6点:

1、Scaling Law(规模效应)还有效吗?

近日,OpenAI发布了o1模型,其在推理方面很大程度上超过了人的平均IQ(通常智商)。这也是我们第一次看到在推理上,过去这些模型,第一次超过了人类的IQ的平均值。

那么,先说我的第一个观察,因为最近大家这个聊得比较多的,就是说Scaling Law是不是发展“到头”了?

在此之前,我们先回答,为什么Scaling Law如此重要?

当ChatGPT这个几千亿参数的模型发布之时,自然语言处理的性能形成了指数级提高,就是我们所说的Scaling Law,它是大模型的规模定律。Scaling Law认为,模型的参数增大,到一定程度的时候,你才真正能看到模型的精度,有一个突飞猛进的增长,也就是出现“涌现”。

如果我们从图上来看的话,这事实上是我们看到一个明确的拐点,从一开始现象的非常缓慢的增加,它的精度,突然到了一个拐点,当我们的规模到了一定程度以后,就出现一个拐点冲儿,它的性能有足够性的往上讲,那么在几个方面都出现了这样的拐点,那么这个拐点我们把它叫做“涌现”。所以,我们过去的十几年来,看到模型越做越大,继而看到了这个“规模效应”。

最近这种说法受到了一些挑战。

首先,我们看到,现在很多模型训练到一定规模以后,好像没有办法的往前走,主要有几个方面:一方面是说,数据是不是不够;另一方面是说,算力是不是还够。

其次,更重要的是,我好像很长时间没有看到大模型性能大的改善。比如,人们一直没有看到GPT-5的发布,大家是不是认为,这个模型到了某个规模的话,数据可能不够了训练不出来了。这些问题肯定是值得大家思考的。

然而,我想要说的是,其实我们不用担心Scaling Law放缓,因为其即使在Pre-Training(预训练)有放缓趋势,但o1的发布,让我们看到另外一个天地,就是相对于预训练“快思考模式”,推理模型o1可以给更多的思考时间,所以,我们看到Scaling Law的推理性能出现“拐点”,有一个指数级增长。

01模型的新方法:引入“思考时间”(thinking time)的概念,允许模型在给定的计算预算内进行更多的计算迭代。推理计算可能随“思考时间”呈指数级增长,而不是线性增长。

最后,在推理模型领域,Scaling Law效应一直在持续而非放缓,这是我对此非常有信心的思考。

2、新操作系统、新平台、新生态

如果大家去年听过我的演讲的话,一定会对这张PPT不会陌生。

首先,大模型实际上是一个新的操作系统,从而会建立一个新的平台,那么,我们同样也需要建立一个新的生态。

我们看一下所谓的 AI 操作系统是什么,无非就是能够获取人的命令,能够执行人的命令,能够调用数据来进行计算。今天,大模型通过自然语言的交互,通过多模态的交互,就能够理解人们的需求,能够开始执行计算,所以我们说,大模型是新一代的操作系统。

其次,AI大模型拥有如此强大的技术能力,它将会重写所有的软件。

最后,既然是一个新的操作系统、一个新的平台,那一定会产生一个新的生态。如果我们看一下,如果把模型作为最核心的一块底层的话,实际上我们可以看到,云架构、数据中心底层是芯片。

这就是为什么我们看到,英伟达过去两年快速成长,云厂商和数据中心厂商过去两年也快速成长,这都是由于大模型训练、推理所拉动的。那同样,为了训练模型,我们在数据处理、数据存储、数据交互建立一个新生态,AI infra也需要快速发展,才能让大模型应用落地。所以,这是一个非常丰富的生态,比传统的软件生态要丰富的多,它能带来的创新、影响、技术变革时间,也会相当长。

作为生态的推动者,大模型不止要推动硬件、芯片厂商,而且还要推动数据中心相关的硬件厂商更进一步,带动能源的需求,带动能源的发展。所以,我相信,AI 大模型生态链会比之前PC、手机的生态链要更加强大。

另外一点,基础模型训练成本如此之高,而端侧、推理模型需求才刚刚开始,AI PC、AI Phone手机会慢慢发展。

未来,我相信大模型在数据中心、推理混合模式等方面,以及端侧和云端的结合,会带动产业链快速发展。

3、大模型推动存量和新增应用

第三个观察,我要分享,大模型将同时推动存量和新增应用。

过去两年,我们好像没有看到很多 AI “杀手级”应用出来,所以大家担心这个“浪潮”是不是将会失去。但其实,在技术快速发展的时候一定有很多机会,而在技术平缓、成熟的时候,也同样存在一定的机会,AI 应用的需求和数据中心的昂贵成本将推动边缘AI快速发展。

我认为大模型应用可能分为四个阶段:

1)第一波增长的 AI Infra(基础设施)、芯片和数据中心、能源等;

2)第二部分是PC、智能手机等硬件应用。

3)大规模 AI 应用。其实在美国,硬件端侧设备还没有起来之前,过去一年有很多 To B 应用爆发性成长,但很遗憾,中国与美国有很大的差距,中国To B软件市场非常小,或者说To B软件公司规模远不不如美国,所以 AI 重写大模型依然需要时间落地。

4)大模型在物理层面的爆发,比如自动驾驶、(人形智能)机器人、AI for Science(科学智能)都会越来越广泛、成熟发展。

所以,我们有理由相信,无论是自动编程,还是智能交互、客服、内容生成,大模型所推动的 AI 应用发展速度一定会超过早期的互联网、移动互联网时期。

4、多模态大模型是AGI的终极模型

我的第四点观察是,多模态生成大模型是AGI(通用人工智能)的终极模型。

实际上,我们人与人交流是通过语言模型,但人与世界之间的互动,还需要视觉、语音等其他不同模型的形态。因此,统一的多模态大模型才能够解决所有理解的问题。

那么,我们过去一年就会看到多模态生成模型的快速发展,文生图、文生视频、图生视频等等,最有代表性的是OpenAI Sora,具有产生非常漂亮、内容逼真视频的能力,以及理解、描述和,模拟现实世界能力,展现出世界模型的雏形。世界模型是一个重要方向,是我们达到通用人工智能的重要一环。

近期,李飞飞创立的公司World Labs日前分享了一项成果,也非常震撼:只需单张图像即可生成三维世界,团队研发的 AI 系统可以允许用户进入任何图像,并以三维方式进行探索其中的世界。这是非常非常重要的进步。

通向通用人工智能(AGI),我们希望把所有理解现实世界的能力、交互能力、和生成能力,建立在一个模型里面,这样才能真正接近我们人类思考的方式。要达到这个目标,形成端到端统一的多模态大模型十分重要。

比如,GPT-4o的发布,给人们呈现了所谓的“Her”,即电影”Her“中的主人公——AI 私人助理,逐渐有情感,开始对人有依赖,能给有情感的与人交互,那么,GPT-4o的演示恰恰表现出这种能力雏形,做到了生成、推理、语音、视觉等技术统一到一个模型当中的“第一步”。智源研究院最近发布的EMU3大模型把统一的多模态大模型发展向前推进了非常重要的一步。

5、多模态大模型赋能机器人

为什么我们认为,多模态的发展如此重要?其实有一个点在于,有了多模态大模型的突破,我们才能够真正的赋能于机器人,才能真正开发出通用、能自我规划、自主的机器人。

实际上,传统机器人的模型完全是由人来设计的,把复杂任务分解变成“简单任务”,然后对于每个简单任务进行人工设计,由规则来驱动运动的规划,这是非常原始的模型。那么,有了语言大模型和世界大模型之后,我们能够把复杂的任务通过多模态大模型分成“简单任务”,能够听懂人的这种命令,然后又能够进一步通过视觉模型分解成机器的动作,从而完成复杂-简单-机器动作的过程。

未来,多模态大模型驱动的“具身智能”模型,能给让复杂的任务一步到位,分解成机器的动作,这是我们的目标。

正是因为多模态大模型的迅速发展,过去一年迎来了通用、人形机器人“热潮”。但有一点我们要特别注意,中国在机器人的“本体”走在世界前列,但是需要有多模态大模型、具身智能的能力,只有具备这些能力后才能看到通用机器人的“起飞”(迅速发展)。

6、大模型的未来:自主智能的世界

最后一点我的观察就是,大模型的未来会带来一个自主智能的世界。

我们过去几十年看到 IT 产业不断进步,但PC、互联网真正实现的是“信息系统”。而我们今天真正进入的则是 AI 时代、模型时代。

那么未来,随着AI大模型的发展驱动,一定会让我们进入“自主智能”的时代。无论是软件,还是机器人本体,都能够有自主决策和行为能力,从而真正进入所谓自主智能的世界。

无论是现有应用,还是新的应用层面,我们都可以看到大模型智能体(AI Agent)的广泛赋能,而Agent的这种方式广泛应用需要智力、AI 能力的迅速提升。那么,随着 AI 这一轮浪潮不断发展,未来所有应用都会像Copilot一样无处不在,而且会越来越智能,从而将Copilot变成“AutoPilot”。

未来,我们每个人都将有一个 Agent。从助理、代理,再到AutoPilot,意味着未来大模型会给整个产品设计、社会组织、就业变化、业务成长等方面带来巨大机遇,会迎来一个“自主智能”的世界。

而这意味着,我们需要增加更多的GPU,训练更大模型、更强模型,以及更多的数据,这些都会成为企业的核心资产,大模型的未来对于我们生活和工作、企业组织、人员就业带来非常深刻的变化。

7、结语

讲了六点观察,最后是我的结束语:通用人工智能(AGI)奇点是不是已经来临?

如果你要问马斯克(Elon Musk),他说已经到了;如果问美国AI大模型独角兽Anthropic CEO Dario Amodei,他说2026年;如果你要问谷歌DeepMind CEO Demis Hassabis,他说可能还有十年;如果问辛顿(Geoffrey Hinton),他说还有5-20年。

所以这意味着,技术发展比人们学习 AI 的速度要快,人类进化的速度是一条直线,但 AI 技术发展的速度是一条指数级增长曲线,始终没有与人类学习能力的曲线相交叉。那么,一旦它们之间出现“交叉”,那就是奇点的来临。

今天,我们有理由相信,随着大模型学习能力越来越强,Scaling Law发展速度越来越快,AI 原生应用迅速落地和成长,统一的多模态大模型实现“突破”,这些技术变革将让奇点很快到来,也就是所谓“自主智能”的时代很快到来。

好,谢谢大家!

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载