HTK新闻网

纽约大学最新研究:机器人的尴尬现状被彻底揭露

这项由纽约大学的IrvingFang、JuexiaoZhang、ShengbangTong和ChenFeng等研究者完成的重要研究发表于2025年6月的arXiv预印本平台(论文编号:arXiv:2506.09930v1),有兴趣深入了解的读者可以通过https://ai4ce.github.io/INT-ACT/访问完整论文和研究代码。

机器人技术正处在一个有趣的发展阶段。现在的智能机器人就像是拥有博士学位的大脑却装在了三岁孩子身体里的奇怪生物。它们能够理解复杂的语言指令,知道该做什么,甚至能在脑海中规划出完美的行动方案,但一旦开始实际操作,就变得笨手笨脚,经常把简单的任务搞砸。

近年来,研究人员开发出了一种叫做"视觉-语言-动作"(VLA)模型的机器人大脑。这种大脑的特别之处在于它结合了三种能力:能看懂周围环境的"眼睛",能理解人类语言的"耳朵",以及能控制机器人行动的"手脚"。理论上,这样的组合应该让机器人变得非常聪明和灵活,就像一个既能听懂你说话,又能看懂现场情况,还能准确执行任务的完美助手。

然而,纽约大学的研究团队发现了一个令人意外的问题。他们设计了一套全面的测试系统,叫做INT-ACT,包含了50个不同难度的任务,就像给机器人设置了一个全方位的考试。这些测试涵盖了三个主要方面:处理没见过的物体、理解复杂的语言指令,以及在混乱环境中进行推理。

测试结果揭示了一个有趣而尴尬的现象:机器人们普遍患上了"理想很丰满,现实很骨感"的毛病。当研究人员要求机器人执行一个简单任务,比如"把胡萝卜放到盘子上"时,机器人的大脑能够正确理解这个指令,甚至能够准确识别出胡萝卜和盘子的位置。用研究者的话说,机器人展现出了"良好的意图"。但是,当它真正开始行动时,却经常在关键的执行环节出现失误。

这种现象就像是一个厨师知道如何做菜,能够准确说出每一个步骤,甚至能指出所有食材的位置,但一旦开始动手,就会把盐当成糖,把油倒成醋。研究团队将这种现象称为"意图-行动差距",这个名字非常形象地描述了机器人当前面临的核心问题。

研究团队测试了几种目前最先进的机器人大脑,包括π0、SpatialVLA、Magma和Octo等模型。这些模型就像不同品牌的智能助手,各有特色,但都存在相似的问题。当面对标准的、训练时见过的场景时,它们表现得相对不错。但一旦环境稍有变化,比如换了个没见过的物体,或者指令稍微复杂一些,问题就暴露无遗。

为了深入理解这个问题,研究团队设计了三大类测试场景。第一类是"物体多样性"测试,就像让机器人在一个从未去过的商店里购物。机器人需要处理那些在训练时从未见过的物体,比如用螺母代替胡萝卜,或者用键盘代替盘子。第二类是"语言复杂性"测试,相当于用更自然、更复杂的方式与机器人对话,而不是使用简单的命令式语言。第三类是"视觉-语言思考"测试,模拟现实世界中常见的混乱和干扰情况。

在物体多样性测试中,研究人员发现了一个特别有趣的现象。机器人们在识别新物体方面表现得相当不错,这得益于它们强大的视觉理解能力。但问题出现在动作执行上。比如,当要求机器人把可乐罐放到键盘上时,即使机器人能够正确识别可乐罐和键盘,并且知道应该执行"放置"动作,但在实际抓取和放置过程中却经常失败。更奇怪的是,即使只是改变目标物体而保持源物体不变,比如从"把胡萝卜放到盘子上"改为"把胡萝卜放到键盘上",机器人的抓取成功率也会发生显著变化,这表明高层次的感知和规划与低层次的动作控制之间存在脆弱的耦合关系。

语言复杂性测试揭示了另一个令人担忧的问题。现在的机器人大脑虽然基于强大的语言模型,理论上应该具备出色的语言理解能力,但在实际应用中却表现得相当脆弱。当研究人员将简单的指令"把胡萝卜放到盘子上"改为更自然的表达"把兔子最喜欢的蔬菜放到盘子上"时,大多数机器人都出现了明显的性能下降。这种现象特别令人困惑,因为机器人使用的语言模型在纯语言任务中能够轻松处理这类常识推理问题。

研究团队还进行了一个有趣的对比实验。他们直接测试了机器人使用的基础语言模型PaliGemma,发现这个模型在纯视觉问答任务中表现得相当不错,能够正确回答"图片中兔子最喜欢的蔬菜是什么"这样的问题。但一旦这个模型被整合到完整的机器人系统中并经过动作数据的训练后,这种语言理解能力就大幅下降了。这就像是一个原本能够流利对话的人,在学会了一些体力活动后,反而变得不会说话了。

视觉-语言思考测试可能是最接近现实世界挑战的部分。研究人员在场景中加入了各种干扰物体,模拟日常环境中的杂乱情况。结果发现,当单独面对视觉干扰或语言歧义时,机器人还能勉强应对,但当两种挑战同时出现时,它们就完全崩溃了。

最典型的例子是橙汁任务。当研究人员要求机器人"把从橙子中榨出的果汁放到盘子上",同时在场景中放置一个真正的橙子作为干扰物时,机器人们普遍出现了混乱。它们不再能够正确识别橙汁盒,而是错误地尝试抓取橙子。这种现象表明,当语言线索与视觉干扰发生冲突时,机器人的推理能力会发生系统性的故障。

研究团队还发现了一个有趣的现象:机器人的"错误物体尝试率"会在特定情况下急剧上升。在胡萝卜任务中,当指令从"把胡萝卜放到盘子上"变为"把兔子最喜欢的蔬菜放到盘子上",同时在场景中添加一个玩具兔子时,一些机器人开始错误地尝试抓取兔子而不是胡萝卜。这表明语言中的常识暗示与视觉线索发生冲突时,机器人会做出不合理的决策。

这些发现对于机器人技术的发展具有重要意义。目前的VLA模型虽然在某些方面表现出色,但它们的泛化能力远没有达到预期水平。研究结果表明,简单地将强大的视觉语言模型与机器人控制系统结合,并不能自动获得期望的泛化能力。反而,端到端的训练过程可能会损害原本强大的视觉语言理解能力。

为了验证这一点,研究团队进行了额外的实验。他们尝试通过在训练过程中加入更多样化的语言表达来改善机器人的语言理解能力,这种方法确实在某些方面有所改善,但整体效果仍然有限。这表明问题的根源可能不在于数据的多样性,而在于当前的训练方法本身。

研究团队指出,当前VLA模型面临的核心挑战是如何在保持强大的感知和推理能力的同时,实现精确的动作控制。这需要在架构设计上进行根本性的创新,而不是简单地扩大模型规模或增加训练数据。一些可能的方向包括模块化设计,将感知、推理和控制分离成相对独立的组件,或者开发新的训练方法来避免端到端训练对原有能力的损害。

这项研究的另一个重要贡献是INT-ACT测试套件的开源发布。这个测试系统为研究社区提供了一个标准化的评估工具,让不同的研究团队能够在相同的标准下比较各自的成果。测试套件包含了50个精心设计的任务,涵盖了从简单的物体操作到复杂的常识推理等各个层面。

研究团队在设计测试时特别考虑了现实世界的应用需求。他们避免了一些现有基准测试的局限性,比如过于简化的场景或者不切实际的任务设定。INT-ACT的任务都是基于日常生活中常见的操作,但通过系统性的变化来测试机器人的泛化能力。

测试结果还揭示了不同VLA模型之间的有趣差异。π0模型在大多数测试中表现最好,特别是在从头开始训练的版本。这可能是因为从头训练避免了预训练模型中的一些偏置。SpatialVLA在某些空间推理任务中表现出色,但在语言变化方面较为脆弱。Magma模型由于采用了视觉语言共同训练的策略,在语言理解方面表现相对较好,但在动作执行上仍然存在问题。

研究还发现,模型的大小并不总是决定性因素。一些较小的模型在特定任务上的表现可能比大型模型更好,这表明架构设计和训练策略可能比纯粹的规模扩展更重要。这为未来的研究提供了有价值的启示:与其盲目追求更大的模型,不如专注于设计更合理的架构和训练方法。

从技术实现的角度来看,这项研究采用了严格的实验设计。所有测试都在ManiSkill2仿真环境中进行,这个环境被设计得尽可能接近现实世界的物理特性。每个任务都进行了多次重复实验,确保结果的可靠性。研究团队还引入了新的评估指标,特别是"意图正确率",这个指标能够区分感知推理能力和动作执行能力,为分析模型的问题提供了更细粒度的工具。

这项研究的局限性也值得注意。由于所有实验都在仿真环境中进行,结果能否完全适用于真实世界的机器人还需要进一步验证。此外,测试主要基于BridgeV2数据集和相应的机器人配置,扩展到更多样的机器人平台可能会带来新的挑战和发现。

尽管如此,这项研究为机器人技术的发展提供了重要的指导意义。它不仅揭示了当前技术的局限性,更重要的是为未来的改进指明了方向。研究结果表明,要实现真正通用的机器人助手,我们还需要在感知-推理-行动的整合方面进行更多的基础性研究。

从更广阔的视角来看,这项研究反映了人工智能领域的一个普遍现象:将不同的AI能力有效整合仍然是一个巨大的挑战。虽然我们在各个单独领域都取得了令人瞩目的进展,但将这些能力组合成一个协调工作的整体系统仍然困难重重。这不仅是技术问题,也是我们对智能本质理解的反映。

研究团队的发现也为产业界提供了重要启示。当前许多公司都在积极开发服务机器人和工业机器人,这项研究的结果提醒我们,仅仅拥有先进的AI算法是不够的,如何将这些算法有效地转化为可靠的实际行动能力,仍然需要大量的研究和开发工作。

说到底,这项研究用科学的方法验证了一个朴素的直觉:知道怎么做和真正做好是两回事。就像一个理论上的游泳高手跳进水里可能仍然会呛水一样,现在的智能机器人虽然在纸面上看起来很完美,但在实际操作中仍然问题重重。

这并不意味着我们应该对机器人技术的前景感到悲观。相反,准确地识别和理解这些问题是解决它们的第一步。正如研究团队所指出的,当前的VLA模型已经在某些方面表现出了令人惊喜的能力,特别是在理解复杂场景和语言指令方面。问题的关键在于如何将这些能力更好地转化为可靠的行动。

这项研究也提醒我们,在评估AI系统时需要更加全面和细致的方法。传统的评估往往关注整体性能,但这项研究表明,分别评估不同能力组件(如感知、推理、行动)可能更有助于理解系统的真实能力和局限性。这种分析方法不仅适用于机器人技术,也可能对其他AI应用领域产生启发。

未来的机器人技术发展可能需要更多跨学科的合作。单纯的计算机科学方法可能不足以解决感知-行动整合的复杂问题,需要结合认知科学、神经科学、甚至哲学的见解来理解智能行为的本质。这项研究为这种跨学科对话提供了一个具体的出发点。

研究团队承诺将继续改进和扩展INT-ACT测试套件,包括增加更多类型的任务、支持更多机器人平台,以及开发自动生成新测试场景的工具。这将为整个研究社区提供持续的支持,推动机器人技术向更实用的方向发展。

有兴趣进一步了解这项研究细节或使用INT-ACT测试套件的读者,可以访问项目主页https://ai4ce.github.io/INT-ACT/获取完整的代码和数据。这种开放的研究方式体现了现代科学合作的精神,也将加速整个领域的进步。

Q&A

Q1:什么是"意图-行动差距"?这个问题严重吗?A:意图-行动差距是指机器人能够正确理解任务要求并识别相关物体(有好的意图),但在实际执行动作时却经常失败的现象。这个问题相当严重,因为它表明当前的智能机器人虽然"脑子很聪明",但"手脚不听使唤",严重限制了它们在现实世界中的实用性。

Q2:为什么机器人会在语言理解上出现退步?A:研究发现,当强大的语言模型被整合到机器人系统中并进行端到端训练时,原本优秀的语言理解能力会发生退化。这就像一个原本会说话的人在学习体力活动后反而不会说话了。问题可能出在当前的训练方法上,需要开发新的架构设计来避免这种能力损失。

Q3:INT-ACT测试套件有什么特别之处?A:INT-ACT是首个专门设计来全面评估机器人泛化能力的测试系统,包含50个精心设计的任务,涵盖物体识别、语言理解和复杂推理三大类挑战。与以往测试不同,它不仅评估整体性能,还能分别测量机器人的"意图正确率"和"动作执行率",帮助研究者精确定位问题所在。

转自:至顶网