“
ChatGPT主要体现了对于语言的处理能力,如果真正想要让通用人工智能(AGI)发挥出它的力量,未来的AGI需要有“具身”(embodied)实体,使其能够通过与真实的物理世界进行交互来完成各种任务,这样才能为产业发展带来真正的更大价值。
人类本身就是世界上相当理想的一个具身智能体。未来的AGI具身智能体也需具备三个关键组成:身体、小脑和大脑。在此方面,还有很多难点需要克服,如样本效率、计算能力、感官融合、收集数据等问题。
姚期智 图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长
* 本文整理自作者在2023世界机器人大会上的讲话。文章仅代表作者个人观点,不代表CF40及作者所在机构立常
”
ChatGPT的出现,是人工智能在学术领域的一个突破,同时它也为各行各业创造了许多新价值。
人工智能的下一步是什么?ChatGPT主要体现了对于语言的处理能力,如果真正想要让通用人工智能(Artificial General Intelligence, AGI)发挥出它的力量,未来的AGI需要有“具身”(embodied)的实体,让它能够同真实的物理世界进行交互来完成各种任务,这样才能为产业发展带来真正的更大价值。
那么,具身智能体应该长成什么样子?人类本身就是世界上相当理想的一个具身智能体。它基本上具备三个方面:第一方面是身体,第二方面是小脑,第三方面是大脑。身体方面,具身智能体必须要有足够的硬件,具有传感器和执行器;小脑会主导视觉、触觉等各种感知来控制身体,完成复杂的任务;大脑部分主导上层的逻辑推理、决策、长时间的规划,使得一个智能体能够通过自然语言与其他智能体、环境交流。
目前,清华大学交叉信息研究院的八九位老师近年来的工作都围绕具身智能的方方面面展开。接下来我想和大家分享这些团队的一些进展和思考。
第一,身体部分。具身AGI最理想的身体形式,我们认为应该就是人形机器人。因为人类的社会环境主要是为人类而定制的,比如说楼梯的结构、门把手的高度、被子的形状等,这些都是依据人类的形状而定制,所以如果我们能够打造一个有泛应用的通用机器人,人形是最适合的形态,人形机器人最能够适应人类的各种环境。
清华大学交叉信息研究院自主研发了人形机器人初步的造型,这个工作主要由陈建宇团队所完成。目前我们已经有了两个形式的机器人,其中一个是此前在世界人工智能大会上亮相的“小星”,它的高度是1.2米,随后亮相的另一个机器人是“小星MAX”,它的身高达到了1.6米。
技术方面,这一人形机器人使用了新一代的本体感知驱动器技术方案,在算法方面采用了动态的双足行走。我们是世界上为数不多的能够走通整个软硬件技术的团队之一。
第二,小脑方面。小星机器人通过一套机器人运动控制的算法来实现,算法分成两层:上一层是固态规划层,下一层是基于动力学的实时全身运动控制,它用来计算发给电机关节的精确指令。小星可以在水泥地上很灵活地快速行走,也可以在比较复杂的树林里面行走,它具有一定的抗干扰能力,在草地里、石子路上行走也具有稳定性。
在构建小脑的算法端,未来需要给机器人更好的功能、更好的控制,所以我们也在研究灵活度更高的算法,利用人工智能、强化学习的方法去运用和强化学习框架。这一方法的好处是没有对于模型的限制,能够对于复杂的环境或不确定的环境展现出更强的适应能力。另外,还有一个方法来学习,就是利用人体运动的实际数据,我们把它放到这个框架里,给予强化学习更好的引导。
通过强化学习,机器人能够用一种自然的方式来模拟人态的行走,在设计上我们可以使它消耗更低的能耗。我们把这个硬件参数代入仿真,能够实现更高层次的运动形态,比如在仿真中能够实现4米/秒的行走速度。
除了这种方法以外,在强化学习方面,清华大学交叉信息研究院的队伍也研究了一些基础的核心技术。
样本效率方面,目前一直困扰着强化学习应用的难题在于它所需要的样本非常多。我们在这方面做了一些工作,比如以Atari游戏作为标准测试的指标。人工智能公司Deepmind于2015年在自然上发表了DQN算法,需要花一千个小时去进行学习,才能够达到人类的水平,这在当时已经非常了不起,而高阳队伍提出了一个新的算法叫作Efficient Zero,它能够在两个小时的时间里达到并超过人类平均水平,比DQN提高了500倍的样本效率。
另外一个困扰着强化学习的难题是泛化性,就是能否对这些任务及其环境中间的不确定性和干扰进行更好的泛化,许华哲团队围绕这个问题提出了一系列解决方案,比如机器人包饺子的应用,这个物理过程里面包含非常复杂的解决方案,使得算法适应性更高,即使在有人为干扰的情况下也能完成任务。
小脑方面,除了走路以外,还有一个重要任务是视觉处理。赵行团队在这方面有一些最新工作:基于视觉的机器人跑酷功能。其研究使得四足机器人能够基于视觉信号识别路障,能够匍匐前进,能够跳过高台,当这些跳跃失败的时候,机器人会不停尝试,直到成功为止。未来我们也会把这类跑酷功能放到人形机器人来实现。
清华大学交叉信研究院赵行团队四足机器人
还有一个比较高端的感知,就是触觉。人的皮肤吸收了很多触觉信号,能够完成非常精细的物体抓取动作来规避危险,所以我们希望机器人能够有更好的触觉的传感器,让它们能够触摸、感受这个世界。
对此,许华哲队伍运用一些非常好的材料,设计了一个低成本、易操作的触觉传感器,能够精确地感觉、接触到物体三维,还能够捕捉到物体很细小的纹理,它能够和人工算法结合,达到物体的分割和最终的效果。并且,我们也做了一些下游的关于触觉物体操纵的工作,希望机器人将来能够操作更小的物体。
此外比较难的事情,就是如何打造机器人灵活的双手,这一功能需要非常高的自由度,接触和物件非常复杂,所以机器人想要实现这些动作是非常困难的。弋力团队提出新的算法,可以用自动的方式来创建场景和建模仿真,使得机器人在仿真中学习到这些技术。
第三,大脑方面。谷歌在这一部分做了大量工作,特别是Palm-e多模态的大语言,能够对机器人的任务进行规划,大语言模型就把它所做的事情调用到下沉的控制器,按照顺序完成任务,这也是非常重要的一步,尤其对于谷歌在具身大模型方面主要的技术路线而言。
不过,这个框架有一个主要的问题:它的下一层不一定能够很好执行上一层的规划,尤其是当中间发生一些意外干扰的时候。对此,陈建宇团队提出一个新的方案和新的框架,比如在任务执行过程中自动判断是否发生异常,以及如果发生异常的话如何解决,这些都由一个语言模型和视觉模型自动完成。
我们把这个方法应用在了人形机器人上。首先我们需要像大语言模型一样,给这个机器人描述一下其所需要的任务,机器人按照任务来执行。在场景工作中,如果机器人做搬箱子的工作,它的视觉语言模型通过视角检测是否有意外发生,以及如果有意外的话如何纠正。例如,如果看到箱子掉到地上,机器人能够想出一个方法将它捡起来,最后完成任务。
除了上面谈到的工作,斯坦福大学的李飞飞团队通过大语言模型系统地产生了控制机器人的代码,而清华大学交叉信息研究院的杨植麟团队也提出了CodeGeeX(多语言代码生成模型),通过不同的大语言模型进行训练。
最后,对于具身机器人,目前还有很多难点需要克服:
第一,我们能否像大语言模型一样有一个具身大模型,能够一步到位地控制最低层的效率。
第二,关于计算能力的挑战。谷歌的Robotic Transformer模型所做的第一个下沉的统一模型,目前只能达到3个赫兹的水平,和我们需要的500个赫兹差得很远,所以我们还需要克服很多困难。
第三,如何把多模式的感官融合起来。
第四,在收集数据方面,还需要做很多的事情,其中也涉及很多安全隐私方面的问题。
版面编辑:宥朗|责任编辑:宥朗
视觉:李盼 东子
监制:李俊虎 潘潘
本文来源:微信公众号“财经ThinkTank”
公众号:小姨ai
暂无评论内容