AI感知视听技术正在以人脑的方式“变态”进化

2024年06月22日 20:40:20 来自北京

2024年6月22日，在华为开发者大会2024（HDC 2024）上，天图万境与华为云携手推出了“视频声效大模型”解决方案，乍一看，不就又是一个音视频大模型嘛，可听完天图万境创始人图拉古的讲述，我们看到跨行业的人做AI进入了“变态”的地步，准确的讲，这种方法正在启迪AI超越人类。

按照通常的理解，大家修改架构，不管是大热的transformer，还是sora的dit，大家都在用大力出奇迹的方法，体现自家优势。

图拉古的研发似乎为行业找到了新的思路，人类的大脑可以处理非常复杂的事情，但是功耗峰值也就45瓦，如何让AI按照这样的方式进化，是全球科学家正在研究的方向。

大会上，图拉古谈到一种“联级神经元”的方法。他表示，人们通常讲到多模态，就好像是让一个人学会这个世界上所有的技能，顶级的手术医学技能，顶级的音乐演奏技能，顶级的微积分计算，顶级的赛车手等等，这显然是一件超级难的事情。但在事情期初，人们往往会过于乐观或者过度自信，比如当你的孩子刚出生，你也许就会幻想他聪明优秀，万人追捧，学会琴棋书画，舞得剑戟刀枪，可随着孩子慢慢长大，你也许会看到孩子另一面的特长，而不是面面俱到。

天图万境创始人图拉古

图拉古说，“我们看到，国外的顶级研究机构已经在研究这种‘联级神经元’的架构设计，把专业的垂直 AI 模型作为一个神经元看待，这就像大脑一样，有负责语言的区域，有负责音乐的区域，有负责行动的区域，有负责平衡的区域，他们虽然都在一个头颅内，可是各自却是独立的，靠生物电通讯。

2019年时，世界上迎来了一台十分特殊的手术，整个手术室充满了浪漫古典的旋律，这正是当法国的医生给一位著名音乐家做手术时，为了保证他的小提琴技能不受影响，从而在手术过程中让他保持头脑清醒地拉了几个小时的小提琴。

还有一些事情，比如我们喝酒喝醉后，小脑会受到影响，所以人们走起路来左右摇摆，但是语言区还可以让你思维活跃的表达，这样的例子数不胜数。

仿照这样的大脑构架，我们可以把每个专用AI模型当做一个“神经元”来看待，让其中一个充当调度的AI，负责实现生物电的调度中心，让它通知其他对应的“AI神经元”，执行对应任务。多个“AI”神经元之间通过调度AI来通讯，形成了类人脑的“联级神经元”，每次行动能量消耗极低、算力极少，但是却可以完美准确的完成任务。

剩下的问题就是，如何教会AI进行学习和判断了。人类大脑获得的大部分信息，都是通过听觉和视觉来感知认识世界的，那我们也必须按照这样的方式去训练 AI，因为生命体已经用了5亿4000年来证明这种方式是最优解。

人类看到的世界是立体的，通常人们会用激光雷达来测量立体世界，这显然不是人类的进化方式。后来，人们用多目组成类人左右眼的形式，计算视差，获得立体世界。可是我们知道，人类闭上一只眼睛的时候，也可以准确的拿到面前的水杯，也可以知道自己距离物体的距离，甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力，可以在单眼下获得准确稳定的深度，而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本，实现了通过单目摄像头实时获取稳定的空间感知图，实现了世界首个空间计算AI。

天图万境紧接着推出了认识物体，认识世界的AI分割模型，这个模型最早用在电影抠像里，天图万境并没有过早地披露这一信息，直到今年，天图万境才告知大家，他们的抠像技术实际上是在训练AI认识世界，而并非在抠绿。他们在已有的图像上做分割，让机器知道画面里的物体都是什么，并理解在设定情景下什么物体应该保留或者去掉，甚至还可以执行其他特定的决策。

确实，如果说训练认识世界的数据，没什么比电影数据更具有想象力了，上天遁地，无所不能。而天图万境已经拥有了全亚洲最大的物理数据集和分割数据集，并正在提供给华为盘古大模型做专业训练。

除了通过眼睛认识世界，理解世界，听觉也是人类感知世界的重要方式。人类闭上眼睛，就可以知道是鸟叫还是虫鸣，可以听呼啸而过的车声，判断车辆的远近距离，甚至通过听到熟人的音色，还可以在众多朋友中判断这个人是谁。图拉古希望机器也有这样的能力。

现在，天图万境利用自己的AI感知视听技术，正在实现这一远大愿景。他们与华为云携手推出了“视频声效大模型”解决方案，正在向我们证明这一前沿技术的可行。

该技术支持用户仅需上传一个视频，不需要输入任何提示词，就可以获得连续的音频，这个音频包含了音色、声场、动态数量等等。比如一辆火车从远及近开来，你就可以获得一个小到大的声音；一个石头落入水中，你就可以听到石头落水的声音，甚至还包含那种不同物质传输的不同声音效果。更离谱的是，你可以听到泛起涟漪后的微弱声音，还有火箭发射巨大引擎的轰鸣声。

乍一看，这似乎没有什么了不起。可这正是图拉古之前所描述的愿景，让我们重新审视这个空间智能AI。

首先，这种复杂的处理运算，竟然是运行在一个本地消费级显卡上，更离谱的是，几乎是实时运行。

为什么说更离谱呢？首先，AI要识别这是什么，是火箭还是雷电，这群鸟是乌鸦还是海鸥，这辆车是火车还是汽车，如果是火车，那是蒸汽火车，还是电动火车等等。其次，AI还要知道火车的声音是什么样，火箭的声音是什么样，打雷闪电又是什么样，大的雷电和小的雷电声音有何不同，海鸥怎么叫等等。紧接着，AI要知道这里边的空间关系是什么，比如会不会有吸音，有没有混响，伪音。最难的在于，AI还要知道这个声源的运动关系，依托于运动关系做出即刻的声场效果，产生动态声音。对于成片画面而言，就是每一个声音都要跟画面完全匹配，出现闪电就要响，还要计算声音和光速的传播关系，看到闪电多久后才能有声音传播起来。当汽车急刹车的时候，还要出现刹车的声音等等；还要知道每一组不同的材质组合会发出什么样的声音。

在“视频声效大模型”解决方案发布之前，人们认识图拉古和天图万境，以为这是一家电影技术公司。是的，他们在电影技术领域有着远超同行的技术和绝对领先研究，但是人们不知道，他们的抠绿不是抠绿，而是在分割画面；他们的还原不是还原，而是在计算空间，他们的音频也不只是音频，他们让AI理解世界。

所以，图拉古和他团队此次发布的大模型也不是大模型，是AI时代的一股清流，是一种真正经过了人脑深度思考的结果，不是习惯性跟风和恐惧性前进。

最后，引用图拉古的话作为结束语：

“一个伟大的时代，会在一种良性循环中，徐徐展开；人类、AI、机器和谐相处，互帮互助的美好愿景，正在向我们阔步走来。”

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

AI感知视听技术正在以人脑的方式“变态”进化

亲爱的凤凰网用户:

第三方浏览器推荐: