斯坦福华人团队的Mobile ALOHA“全能家务机器人”在网上火了。
它展示了做饭、铺床、浇花等多种家务技能,还能够煮虾、擦拭桌子上的红酒、洗盘子、自动打开电梯……可谓全复合“保姆人才”。这让网友直呼机器人时代已来,因为它“眼里有活儿”。
不过,Mobile ALOHA所展示的复杂技能,其实是背后由人遥控操作的。
1月6日清晨,发现网友为Mobile ALOHA所呈现的自主化、智能化能力倾倒后,Mobile ALOHA的两位研发人员连忙“辟谣”,称部分动作是机器人自主展示的,部分则由人遥控完成。
为了如实呈现机器人的能力,他们还专门放出了Mobile ALOHA在全自动状态下的“蠢笨”动作合集,称 “机器人尚未准备好接管世界”。
当你以为机器人能丝滑优雅地举起一杯红酒时,它只能颤颤巍巍地握住杯子,看着酒杯倾倒碎在地上,将红酒洒满桌。
表现颇佳时,机器人能熟悉地端起左手颠锅、右手拿铲,完成一道菜肴的制作。但多是几次,原本挥洒自如的锅铲就不是对着铁锅底部一顿操作,就是在锅中挥舞但碰不到菜。
△失败的炒菜案例
全自动状态下,它无法有力地控制住一把平底锅,将锅端起后,整个平锅便不可避免地掉落,为了拯救翻到的铁锅,守在旁边的研究人员还被烫伤了。
△倒菜失败
甚至一根红色圆珠笔,Mobile ALOHA也无法拾起。
△拿记号笔
现实和理想还有差距,但Mobile ALOHA所呈现出的完成精细和复杂的任务的运动操作能力,仍值得关注,这让未来机器人更具有想象空间。
遥控的叠被子、做菜、洗衣技能
Mobile ALOHA到底可以做到什么?
经过20~50轮演示和模仿学习,机器人可以自主完成一些复杂的移动操控任务。它能够按照人类做菜的顺序,将油倒入锅中,再放入一粒虾仁,并翻转锅铲将其炒熟,并拿起锅,转身将虾倒入背后已备好的盘子里。
△炒虾
它可以自动按下电梯按钮,并成功进入电梯中;
△自动打开电梯
还可以精准打开一扇两门柜子,并抬手将一个3磅重的锅放入柜子中,再关上柜门。
△将锅放入柜门
还可以在与人相遇后伸出“手”击掌。
△与人击掌
目前,机器人可以连续9次完成端起酒杯擦桌子的动作,连续5次自主呼叫电梯,具有学会技能的能力。但这个技能并非100%精准、智能,会出现错误,呈现出前文所展示的“失败状态”。
对于一款想要进入家庭场景的机器人而言,比起技能丰富度,安全是更重要的前提。一款身体笨重、由钢铁材料制成的机器人,会给家带来远超狗等宠物的杀伤力。
机器人尚未做好准备接管世界,但拥有潜力。
为了探索Mobile ALOHA的潜力,符博士将机器人带回家中,并遥控机器人完成了一些复杂动作。它能完成做滑蛋虾仁、干贝烧鸡、蚝油生菜厨艺,这里面涉及到了切蒜、洗生菜、打鸡蛋等细致动作。
△做干烧贝鸡
在遥控状态下,它能拉开窗帘布、打开窗子,握着水壶浇水;
△浇水
可以握着戴森吸尘机,进行全屋清洁;
△用吸尘器打扫房间
它能在主人站着不动的情况下,捏着圆形的剃须刀完成整个刮胡子动作。
△剃胡子
可以将衣服赛道洗衣机里,并转动洗衣液的圆形瓶盖,将洗衣液倒入洗衣机,再操作完成洗衣动作。
也能从抽纸盒中抽出一张纸,并揉成一团,再擦去玻璃上的灰,且控制机械与玻璃接触时,不伤害玻璃表面。
△拿纸擦玻璃
虽然上述家务能力是由人遥控操作完成的,但机器人呈现的完成复杂、精细动作的物理可能,是一个巨大的进步。
它还解决了人形机器人领域的一大技术难题——面对布料这种柔软又单薄的材质,机器人要如何完成叠被子、叠衣服等人手可以简单完成的动作。
在遥控状态下,它可以完成铺平床单、为枕头套上枕套的动作,且机器人铺平的床可谓一丝不苟,远超当代年轻人的床物收纳能力范畴。
它还可以将一件衣服展开,捏着拉链头,拉上衣服拉链,再用衣服撑将其撑起,并放入衣柜中。
在机器人世界,人手能简单完成的动作,对机器便越难。机器人还做不到“眼中有活”,但手能干细致活。
Mobile ALOHA的联合研发者Tony Z.Zhao还引用了2015年的DARPA机器人挑战大赛上的失败汇集,戏谑称希望特斯拉机器人的摔倒视频。
对于Mobile ALOHA的失败集锦,网友也格外宽容,称他们“愚蠢又可爱”,也有人称“比起远程操控,自主果然困难很多”。
软硬件开源,全套机器人仅需3.2万美元
Mobile ALOHA的最大价值是物理操作能力的进步,它展示了机器人做重复性精细操作任务的潜力。
为了实现双手操作技巧,符博士团队基于谷歌Deepmind的ALOHA遥操作系统生成,设计出了一款低成本的全身远程操作系统“Mobile ALOHA”。
Mobile ALOHA是一个开源的操作系统,其学习原理是遥操作和模仿学习,即通过对人类重复动作的学习掌握技能,它是一种全身远程操作的双手移动操作系统。
谷歌的ALOHA遥操作系统更多是在桌面上进行思考,Mobile ALOHA在底部上增加了移动底盘,增加了对机器人移动性和灵活性的训练。
借助集成的移动底座和全身远程操作界面,Mobile ALOHA可以收集更多的机器人与现实世界交互的数据,并在交互过程中学习、模仿人类动作。
研究团队发现,只需对每项任务进行 50 次演示,Mobile ALOHA学会动作的成功率能高达90%,如可以实现连续9次擦红酒,连续5次成功使用电梯。
据符博士表示,之所以能在50个演示之内便实现上述效果,是因为Mobile-ALOHA 将模仿学习和静态操作数据结合协同训练。
△协同训练效果
通过这种联合训练方式,机器人训练成功率可以显著提高,尤其是在执行需要精确操作的任务时。如在擦拭红酒任务中,举起酒杯和擦拭是最重要的子动作,在没有联合训练时,其成功率只有58%,但联合训练后,成功率可以提高到95%。
△训练效果差别1
这种联合数据训练的方式,在VINN、扩散策略和ACT等不同的模拟学习方法上都有着不错的效果。如扩散策略下,整个任务的成功率原本只有35%,但经过联合训练后,可以提高到65%。
△训练效果差别2
此外,协同训练在不同数据组合情况下,鲁棒性、稳定性在不同维度上都得到了提高。
△训练效果差别3
在硬件上,它的外在形象并非最火的人形机器人形态,整个身体由一个移动底盘、一个操作界面,两个机械臂,反馈驱动,两个腕部相机及1个顶部相机构成。整个机器采用反向驱动结构的设计,控制者能通过操作台控制机械臂,指导Mobile ALOHA完成动作。它的底部安装有电池包,可断电使用。
△Mobile ALOHA的硬件设计
这款机器人和操作系统由斯坦福的三人团队研究而成——计算机科学博士生Zipeng Fu和Tony Z.Zhao,和二人的指导老师是Chelsea Finn。
他们在软硬件上都进行了开源,公布了代码、硬件结构和数据,团队还专门列出了具体的硬件清单,包括整套机器人下来成本只需要3.2万美元,即22.7万人民币。
这意味着,只要有兴趣,任何人都可以基于他们的研究成果,对机器人进行试验,去训练自己想实现的动作。该硬件的运动底盘厂家松灵机器人已在官网表示,可以定制同款斯坦福Mobile Aloha机器人。
△Mobile Aloha机器人
2024年被认为是人形机器人元年,无论是特斯拉、波士顿动力等具身智能玩家,还是如谷歌的AutoRT控制系统,又或RT-2机器人大模型,都在从不同维度推动人形机器人发展。在最长远的想象力,进入家庭的人形机器人将会带来巨大的市场空间。
原本以特斯拉、智元机器人等人形机器人都将to B场景看作最先落地的未来,To C家庭场景则更具有难度,但Mobile ALOHA的机器人让To C场景看到曙光。
全自动的机器人时代虽尚未来到,但Mobile ALOHA仅通过两指夹具,便完成了洗衣、做饭等高难度动作,这让家务机器人、人形机器人有了更加具象的想象空间。