伊赫巴里
Thursday, 05 March 2026
Breaking

人形机器人学习日常任务速度超预期,重塑未来自动化

本杰·霍尔森的“人形机器人奥林匹克运动会”揭示了纯视觉AI系统的突破性能力

人形机器人学习日常任务速度超预期,重塑未来自动化
7DAYES
5 hours ago
4

全球 - 艾赫巴里通讯社

人形机器人学习日常任务速度超预期,重塑未来自动化

随着人工智能和机器人技术的不断发展,人形机器人已达到一个令人惊叹的新里程碑:它们正在展现出前所未有的能力,能够掌握复杂的日常任务。曾经被认为是遥不可及的实用家庭辅助机器人,如今正迅速成为触手可及的现实,这在很大程度上要归功于机器人专家本杰·霍尔森(Benjie Holson)设计的一系列独特挑战。

去年九月,霍尔森公布了他的“人形机器人奥林匹克运动会”,这是一系列精心设计、难度递增的测试,旨在突破人形机器人所能达到的极限。霍尔森最初估计,真正有用的家用机器人至少还需要15年才能问世,但当这些机器在极短的时间内开始攻克这些挑战时,他感到非常震惊。这些测试从看似简单的动作,如用圆形门把手开门,到高度复杂的“金牌”任务,如精确地扣上男士衬衫的纽扣和使用钥匙开锁。

霍尔森的深层前提是:真正有价值的机器人能力并非那些在公开演示中常出现的华丽、杂技般的表演,而是支撑人类日常生活的那些平凡、重复的任务。他认为,社会真正渴望的机器人是那些能够可靠、精确地洗衣服、做饭和做家务的机器人。这一理念指导了奥林匹克运动会的设计,侧重于实际效用而非炫目的奇观。

最初的预期是解决这些挑战需要数年时间。然而,机器人公司“物理智能”(Physical Intelligence)大大超出了这些预测,在短短几个月内就完成了15项挑战中的11项——难度从铜牌到金牌不等。他们的机器人展示了令人印象深刻的多功能性,执行了擦窗户、涂花生酱甚至使用狗粪袋等任务,这表明其灵巧性和与环境的互动水平达到了此前被认为遥不可及的程度。

霍尔森发现,这种加速进展的一个关键因素是纯视觉(或基于摄像头)系统的卓越性能。与他最初的假设相反,这些机器人无需依赖复杂的力传感技术,就能展示出先进的操纵技能。霍尔森指出:“我曾认为那些(例如插入钥匙和涂花生酱等)任务需要力输入。但显然,你只需要给它更多的视频演示,它就能完成。”这一见解突显了机器人训练的范式转变,即大量的视觉数据正被证明是触觉反馈的有力替代品。

这种成功背后的训练方法很大程度上植根于“从演示中学习”。人类操作员遥控机器人执行任务数百次,生成丰富的数据集。然后,一个强大的AI模型会根据这些视觉和运动学数据进行训练,使机器人能够自主复制任务。这种方法避免了传统机器人技术中大量繁琐的逐行编码,大大简化了技能获取过程。

此外,大型语言模型(LLM)在机器人技术中的作用,尽管一度受到质疑,但正在不断演变。虽然LLM擅长高层次规划——例如分解泡茶的步骤——但物理执行一直是瓶颈。然而,利用与LLM相同变换器架构的视觉-动作模型的出现正在弥合这一差距。这些模型经过大量的文本、图像和视频数据集的预训练,从而对世界有了基本的理解。因此,当它们被训练执行特定任务时,AI无需从头开始学习几何学;它已经理解“移动茶壶”等概念,从而大大加速了任务特定的学习并实现了更直观的交互。

触觉感知的挑战,对于人类在诸如在口袋里找钥匙等任务中至关重要,仍然是一个复杂的障碍。尽管机器人专用的触觉技术通常昂贵、脆弱且不如摄像头系统先进,但一些公司正在创新。物理智能和星期日机器人(Sunday Robotics,完成了滚动配对袜子的铜牌任务)尝试在机器人手腕上、靠近手指处安装摄像头。通过观察机器人手指上的橡胶等软材料或物体本身的变形情况,机器人可以推断出作用力,从而有效地“看到”触觉。这种视觉推断在涂花生酱等任务中被证明出人意料地有效,机器人通过观察刀具的偏转和面包的挤压来判断压力。

展望未来,霍尔森将他对真正有用的家用机器人的预测从15年下调至更为乐观的6年。然而,他警告说,一个成功的实验室演示视频与一个市场就绪、可靠且安全的产品之间存在巨大鸿沟。广泛采用的道路,类似于自动驾驶汽车从原型发展到商业服务所花费的数十年,充满了与可靠性和泛化相关的挑战。确保机器人在不同光照、表面和物体变化下始终如一地执行任务,需要数量级更多的数据和严格的测试,将数天的数据收集转化为数周或数月的改进。机器人技术的未来,尽管前景光明,但取决于克服这些鲁棒性和安全性的最后一道障碍。

标签: # 人形机器人 # 人工智能 # 自动化 # 机器人技术 # 日常任务 # 纯视觉系统 # 机器学习 # 本杰·霍尔森 # 机器人技术未来 # 家用机器人