openpi 开源项目 官网 https://openpi.net/index.html#what-is
莫拉维克悖论与机器人奥运会
发布日期:2025年12月22日
发布方:Physical Intelligence 公司研究团队
1996年,当计算机在国际象棋中击败世界冠军时,它可以选出最佳棋步,但需要人来移动棋子。二十年后,当AlphaGo在围棋中击败世界冠军时,它仍然无法自己移动棋子。今天,大语言模型可以解决国际数学奥林匹克的金牌问题,但却无法用铅笔写下答案。这种我们对某件事难度的预期与机器实际面临难度之间的不匹配,被称为莫拉维克悖论。像下棋、解数学题或在拥挤街道规划最短路线这类看似困难的问题,对机器来说却“很容易”;而像拿起棋子、写张便条、做花生酱三明治或洗碗这些看似简单的事,却带来了异常艰难的挑战。
为了突出这一悖论,Benjie Holson在最近的一篇博客文章中提出了一系列“机器人奥运会”挑战任务,包含诸如涂抹花生酱、清洗油锅、将钥匙插入锁孔、把袜子由内向外翻过来等看似简单的日常行为。这些挑战任务可能看起来不像数学奥赛题那样需要高认知能力,但机器人专家认为,它们对自主机器人提出了非凡的挑战。
我们想看看,仅通过对我们基于 π0.6 的最新模型进行微调,能完成其中多少任务。这是一个对通用能力的很好测试:这些任务不是我们选择的,它们测试了多种操作能力,并且此前的机器人系统都未曾演示过。在提出的5个类别中,我们已能够为其中3个类别的“金牌”任务展示初步解决方案,另外2个类别则获得了“银牌”。我们未解决的两个金牌任务对我们的机器人来说是物理上不可能完成的,尽管其中一个可以通过小的修改(使用金属工具)来解决。我们仅通过微调最新模型就做到了这一切。这并非一个重点研究项目,大部分工作仅是为每个任务收集数据(大多数任务耗时不足9小时)。
奥运会赛况
Benjie Holson最初提出的任务分为不同类别,每个类别内有“铜牌”、“银牌”和“金牌”任务。我们没有为追求最高成功率而竭尽所能(正如我们最近关于使用强化学习优化可靠性和速度的工作中所讨论的),这些任务的策略通常并不稳定,但平均成功率为 52%,任务完成度为 72%。我们还运行了一个基线测试,即微调一个标准的视觉语言模型(VLM),而不使用我们的π0.6模型,以测试机器人基础模型预训练的重要性。这个基线测试未能成功完成任何一项任务,平均任务完成度仅为 9%,这表明大规模机器人预训练对于取得成果至关重要。
只要有可能,我们都尽量按照原博客文章的描述来设置任务。对于一些任务,我们使用了固定(非移动)机器人,尽管原任务是为移动机器人设计的,但我们不认为移动底盘会使这些静态任务变得更难。
🥇 项目一:全身(又名:门)
此类的金牌任务是打开并穿过一扇自闭式杠杆把手门。这很困难,因为机器人必须在通过时保持门是开着的。
观看“开门并通过”任务视频
🥈 项目二:洗衣
金牌任务是将一件由内翻外的正装衬衫翻正后挂起来。我们认为我们当前的机器人在物理上无法完成此任务,因为夹爪太宽,无法伸入袖子(这应该在下一个硬件版本中修复!)。因此,我们尝试了银牌任务:将一只袜子由内向外翻过来。由于机器人夹爪的形状,这项任务相当困难,但我们的策略通过大约8小时的数据学会了它。
观看“翻袜子”任务视频
我们还为铜牌任务训练了一个策略:折叠一件翻过来的T恤。
观看“折叠T恤”任务视频
🥇 项目三:基本工具使用
我们测试了此类中的所有三个(铜、银、金)任务。金牌任务是使用钥匙。这很困难,因为它需要精细操作,并且要求在不放下钥匙的情况下用夹爪重新调整其方向。虽然原任务显示是人把钥匙递给机器人,但我们让机器人从桌子上拾起它。
观看“固定机器人使用钥匙”任务视频
我们也在移动机器人上运行了此任务。
观看“移动机器人使用钥匙”任务视频
银牌任务是制作一个花生酱三明治。我们相信这个任务实际上更难:它需要用刀舀取黄油并以精巧的力度涂抹,然后仔细地完成三明治。
观看“制作花生酱三明治”任务视频
铜牌任务是用喷雾瓶和纸巾清洁窗户。这很困难,因为它需要多个步骤、处理可变形纸巾以及操作喷雾瓶。
观看“清洁窗户”任务视频
🥈 项目四:指尖
银牌任务是使用狗粪袋,这需要将袋子套在夹爪上,用它拾起“狗粪”,然后将其由内向外翻转。金牌任务是剥橘子。银牌任务极其困难,因为它需要分开袋口以打开它,并将其套到夹爪上。
观看“使用狗粪袋”任务视频
金牌任务用我们的机器人夹爪是无法完成的,因此我们使用了一个工具(技术上违反了规则,所以我们不将此计为成功)。即便如此,由于需要跟踪哪些部分已被剥开,并小心平衡力度以避免损坏橘子,这项任务仍然极其困难。
观看“剥橘子”任务视频
🥇 项目五:湿滑挑战
金牌任务是用水和海绵清洗一个油腻的锅,银牌任务是清洁手指上的花生酱,铜牌任务是擦拭台面。这些任务需要处理液体、湿海绵以及花生酱或油污。
观看“清洗油锅”任务视频
观看“清洁手指”任务视频
观看“擦拭台面”任务视频
为什么简单的事情如此之难?
我们(进化上的)祖先很少需要计算多重积分,但他们每天都必须应对严酷的物理挑战。因此,我们的大脑非常擅长用手操控物体,并解决许多其他日常的物理挑战。当我们重新调整大脑去解决数学问题时,会立刻注意到这有多难;但当我们用大脑去做它进化出来所要完成的事情时,却几乎不费吹灰之力。
正因为我们如此擅长物理交互,建造能够与物理世界互动的机器对我们来说,比建造解决认知任务的机器更难。我们可以(通过编程语言)“解释”给机器如何执行任务,但这并不比向一个人“解释”任务更有效。想象一下,指导某人如何像奥运选手一样拉小提琴或游泳:即使你是此类任务的专家,你的“指导”也几乎只能作为一个起点。要真正学习这些技能,你的学生需要自己练习。
更糟糕的是,机器人无法理解这样的指令,因为它甚至缺乏基本的物理技能——如何握铅笔、如何拿刀、如何用海绵擦拭。我们不能告诉它“要做三明治,先拿起刀”,因为它甚至不知道如何执行该技能最基本的构建模块。这些构建模块完全属于物理智能的范畴,超出了我们自我反省所能触及的范围。我们无法为物理智能编程,因为我们实际上在意识层面并不理解它。
捕获与应用先验知识
大语言模型之所以强大,正是因为它们能够捕获大量知识,然后以组合的方式泛化,将这些知识应用于新问题。但语言模型本身并不解决物理智能问题,因为它们是在人类交流(即来自网络的文本)上训练的,而这些交流并不传达物理技能。我们不会在网络论坛上发布关于如何移动手臂来清洗油锅的详细说明,因为每个人都已经知道,而且我们实际上也不知道如何传达它。即使是当前系统的感知能力(在过去十年中取得了巨大进步),也仍然很大程度上植根于解释、标题和标签——这些是人们可以轻易用文字传达、并且可以从网络上获取的信息。
关键在于将多模态大语言模型中的先验知识(可以提供对物理任务的“理论”理解)与真实物理行为的多样化和代表性数据相结合。在这方面,我们无法走捷径——就像不使用图像就不可能学会看一样,没有足够的数据来支撑这些交互,就不可能学会在物理世界中行动。但关键的是,创建物理智能基础模型的目的,不是教会模型机器人可能做的每一个行为,而是提供一个足够丰富和多样的行为基础,从而提供有意义的物理理解,并为多模态大语言模型捕获的语义知识奠定基础。
通用模型如何克服悖论
机器学习革命带来的苦乐参半的教训是,许多我们难以直接编程让计算机完成的事情,可以从数据中学习,但前提是数据可得。那么,莫拉维克悖论可以被看作是关于数据稀疏性挑战的陈述:如果我们无法从网络数据中学习所需的内容,而被迫通过编程实现,我们将无法获得良好的性能。如果我们能为特定技能获取大量数据,我们应该能够可靠地学会它,但这也不够——我们不希望机器人需要执行的每一个任务都要求海量数据。
像 π0.6 这样的视觉-语言-动作模型,提供了一种从高度多样化的任务库中捕获通用物理知识的方法,从而提供了一个强大的基础,使得能够用更小、更实用的数据集来学习下游技能。这就是为什么我们能够通过微调最新的机器人基础模型来解决这些任务,而没有使用大规模机器人预训练的基线模型则一项也无法解决。随着我们的模型变得更强大,即使是最复杂的任务也会变得更容易学习。新任务可能不仅需要更少的数据,还可以使用更简单的数据源(正如我们在最近关于人机技能迁移出现的文章中所讨论的),甚至可以通过强化学习利用自主经验。随着时间的推移,瓶颈将向上转移:当我们以通用和稳健的方式解决了低层技能后,我们将能够通过更高层次的训练进一步改进策略(我们已经在原始的π0.5研究论文中的语言指令训练协议中观察到了早期迹象)。随着这一切发生,我们将最终能够构建真正通用的模型,结合物理理解与认知,或许能以与我们自己的大脑不太相同的方式来理解世界。
如果你对这些想法感到兴奋,并希望加入我们的团队,请联系我们!