凤凰彩票谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫连甩三连弹开打

发布时间:2024-01-05 16:09:08     浏览:

  凤凰彩票【新智元导读】昨天的斯坦福炒虾机器人,一日内爆红中文互联网。谷歌DeepMind今天也毫不示弱地放出了自家的家务机器人,端茶倒水擦桌子,也是样样拿手。网友称,2024年是妥妥的机器人年了。

  毕竟这样能炒菜能洗碗的全能机器人,谁不想带一个回家,把自己从家务中解放出来呢!

  以前,聊天机器人惬意地吟诗作画,人类苦逼地收拾打扫,这画风怎么看怎么不对。

  洗衣服(包括把一袋脏衣服倒进洗衣机、从袋子中拿出洗衣凝珠、拧开洗衣液倒进去、按下洗衣机按钮等过程)。

  最后,还有一个彩蛋:忙碌的一天结束后,机器人还会自己给自己充电,迎接元气满满的一天,继续为主人服务了!

  今天,谷歌DeepMind也官宣了一系列进展,就是为了能让机器人技术在日常生活中帮助我们。

  谷歌采用了AutoRT、SARA-RT和RT-Trajectory等技术,让机器人能够更快地做出决策,更好地理解环境,在环境中导航。

  一个是提高它们将行为泛化到新情况的能力;第二个,就是提高它们的决策速度。

  首先,系统SARA-RT使用一种新颖的「向上训练」方法,将机器人Transformer模型转换为更高效的版本。

  这样,就降低了机器人部署所需的计算要求,在保持质量的同时,提高 了速度。

  当研究者将SARA-RT应用于谷歌最先进的RT-2模型时,在获得简短的图像历史后,最佳版本的准确率提高了10.6%,速度提高了14%。

  虽然Transformer很强大,但它们可能会受到计算需求的限制,这会减缓它们的决策速度。

  这意味着,如果RT模型的输入增加1倍,处理该输入所需的计算资源就会增加4倍凤凰彩票,从而导致决策速度减慢。

  如上所述,SARA-RT「向上训练」的方法来提高效率。「向上训练」是将二次复杂度转化为单纯的线性复杂度,大大降低了计算要求。这种转换不仅提高了原始模型的速度,而且还能保持其性能。

  研究者表示,可以相信这是第一个可扩展的注意力机制,可以在不损失质量的情况下提供计算改进。

  谷歌这一系统的设计是为了可用性,同时也希望更多的研究人员和从业者将其应用于机器人学和其他领域。

  因为SARA提供了加速Transformer的通用方法,且不需要算力昂贵的预训练,这种方法有助于扩大Transformer技术的使用。

  与此同时,SARA-RT不需要任何额外的代码,因其可以使用各种开源的线性变量。

  SARA-RT可以应用于各种Transformer模型。比如,将SARA-RT应用于点云Transformer,用于处理机器人深度摄像头的空间数据,并且速度提高了一倍多。

  第二,RT-Trajectory模型通过自动将描述机器人运动的视觉轮廓添加到其训练中,来学习如何遵循指令。

  要知道,人类可以很直观地理解该如何擦桌子,但机器人,则需要通过多种方式,将指令转化为实际的身体动作。

  这个RT-Trajectory模型,可以在训练数据集中获取每个视频,并在执行任务时将其与机械臂抓手的2D轨迹草图叠加在一起。

  这样,这些轨迹就以RGB图像的形式,在模型学习其机器人控制策略时,为它提供了低级的、实用的视觉提示。

  当对训练数据中看不见的41项任务进行测试时,由RT-Trajectory控制的手臂取得了63%的成功率。

  传统上,训练机械臂依赖于将抽象的自然语言(「擦桌子」)映射到特定的动作(关闭抓手、向左移动、向右移动),这使得模型很难推广到新的任务。

  相比之下,RT-Trajectory模型使RT模型能够通过解释特定的机器人运动(如视频或草图中包含的运动),来理解完成任务时应该「如何做」。

  这个系统的用途很广泛,它还可以通过观看所需任务的人类演示来创建轨迹,甚至可以接受手绘草图。

  第三,AutoRT利用基础模型的强大功能来创建一个系统,该系统可以理解人类的实际目标,并使机器人能够在新环境中收集训练数据。

  AutoRT将基础模型(如LLM、VLM)与机器人控制模型(RT-1、RT-2)相结合,以创建一个可以部署机器人在新环境中收集训练数据的系统。

  AutoRT可以同时指挥多个机器人,每个机器人都配备了一个摄像头,以及一个末端执行器,在一系列设置中执行不同的任务。

  (1)自主轮式机器人发现有多个对象的位置。(2)VLM向LLM描述场景和对象。(3)LLM建议机器人执行不同的操作任务,并在做出选择之前决定机器人可以在没有辅助的情况下完成哪些任务,哪些任务需要人类远程控制,哪些任务不可能完成。(4)尝试所选任务,收集经验数据,并对数据的多样性/新颖性进行评分。以此往复。

  在7个月的评估中,AutoRT安全地同时协调了多达20个机器人,让它们有条不紊地穿梭在各个办公室。

  首先,AutoRT就具有安全护栏,能够为基于LLM的决策者提供「机器人宪法」。在为机器人选择任务时,必须遵守这些安全提示。

  这个「机器人宪法「,一定程度上受到了阿西莫夫机器人三定律的启发。首先,机器人不得伤害人类。另外,机器人也不得尝试涉及人类、动物、尖锐物体或电器的任务。

  不过,这也不能保证安全性,因此,AutoRT系统由经典机器人技术的使用安全措施组成。

  比如,通过编程可以设定,如果机器人关节上的力超过给定阈值,就会自动自动停止。

  并且,所有活动机器人都必须通过物理停用机关,保持在人类主管的视线范围内。

  一边是斯坦福代表着学术界的机器人成果,另一边是谷歌带着工业界的成果,双双亮相。

  我认为,在未来2年的某个时候,人工智能和机器人技术的交叉,将同生成式AI一样爆炸。

  Mobile-Aloha是一个开源的机器人硬件,它可以灵活地完成双手任务,比如做饭(人类远程操控)。很快,硬件将不再是我们实现人类级别的机器人的瓶颈,而是「大脑」。

  这项工作是由3名研究人员用学术预算完成的凤凰彩票。多么令人难以置信的工作!斯坦福大学太棒了!

  由于资源限制,学术界不再是最前沿的LLM的发源地。但至少在短期内,机器人技术让学术界和产业界的竞争环境更加公平。

  硬件价格更实惠是必然趋势。给有抱负的博士生的建议:拥抱机器人,至少人没有那么多,更有空间发挥实力。