首页

当前位置: 首页 > 科研成果 > 正文

科研成果

朱松纯、朱毅鑫教授团队发文阐述：锤子应该这么挥，物理常识驱动机器人工具使用

时间：2022-07-25 点击数：

导读

本文是人工智能研究院朱松纯、朱毅鑫教授及团队发表在RA-L/IROS 2022 论文Understanding Physical Effects for Effective Tool-use 的介绍。

论文链接：

https://ieeexplore.ieee.org/document/9832465

01锤子应该怎么挥？

使用工具被认为是高等智能的一种体现。人并不是唯一会使用工具的物种，自然界中仍有其他的生物能够灵活地使用工具。比如，猩猩会用石头砸核桃，水獭会用石头敲蚌壳。虽然猩猩和水獭都选择用石头去砸开食物，但因为身体结构的不同，他们会采取不同的动作以适应自身的结构（Embodiment）。然而，如何使机器人理解工具的使用，并以适应其自身机构的方式使用工具尚且缺乏足够的研究。

图1 黑猩猩砸核桃

图2 水獭开贝壳

在这篇论文的研究工作中，研究人员提出了一个机器人工具使用的学习和规划框架。该框架能让机器人以最省力的方式，把任意物体当作工具使用。利用一个基于有限元分析的物理仿真器，该框架以一种机器人能理解的方式重现工具使用事件中细粒度的、连续的视觉和物理效果，并通过一个符号回归算法学习工具使用中的关键物理常识。在此之上，该研究工作设计了一个基于最优控制的运动规划方案，以整合机器人和工具特有的运动学和动力学特性，从而产生一个有效的轨迹，实现有效的工具使用。通过仿真实验，该论文验证了所提出的框架可以让机器人产生与人的使用方式不同的，但对机器人自身更有效的工具使用策略。

图3 Baxter模仿人砸核桃失败案例

图4 Baxter 规划出适合自身的砸核桃方式

02物理常识驱动机器人工具使用

智能体学习如何使用工具涉及到多个认知和智能过程，这个过程即使对人类来说也并不容易。因此，使机器人掌握工具使用所涵盖的所有技能是一项有挑战性的难题。这项工作包括三个层面：其一是底层的运动控制。很多研究基于阻抗控制（Impedance control）来跟踪工具使用的运动轨迹，或在不同阶段改变力和运动约束，或使用基于学习的方法来控制机器人运动轨迹。在底层控制中，鲁棒地执行运动轨迹是关注的核心。其二是中间层表征。各种利于下游任务的中间表征被提出，以便更好地理解工具的使用。尽管引入这些表征有利于学习更多不同的工具使用技能，但它们仍然局限于工具的形状和任务之间的几何关联。其三是理解在工具使用中的涉及的高层概念。比如物体的功能性（Functionality）和可供性（Affordance），工具使用中涉及的因果关系与常识[4]，从而实现更好的泛化能力。

现有的工作大多集中在以上三个层面中的某一层面。要么主要关注于机器人的动作轨迹而不去理解任务本身，要么旨在高层次概念理解而过度简化运动规划。都不能够较全面的涵盖所有层面。因此，机器人还远远没有办法基于特定的情境去制定工具使用的策略。例如给定一组物体（典型的工具或其他物体），机器人如何判断哪一个会是完成任务的最佳选择？一旦选择了一个物体作为工具，根据机器人和工具特定的运动学结构和动力学限制，机器人该如何有效地使用它？

朱松纯、朱毅鑫教授团队在RA-L/IROS22上发表的论文Understanding Physical Effects for Effective Tool-use通过综合考虑上述三个层面来推进机器人工具使用这一工作的思路[1]。该研究从以下三个角度整合了机器人的工具使用：（1）从高层的任务中学习相关的物理属性作为概念，（2）通过采用虚拟运动链（Virtual Kinematic Chain）作为中间表征[2,3]，将工具的属性整合到机器人上，（3）通过低层的最优控制规划出适合机器人自身机构的工具使用策略。

图5 算法框架流程图

为了应对工具使用的种种挑战，该论文提出了一个综合了学习能力和规划能力的框架，其中机器人通过对有助于使得任务成功的基本物理特性的推理，来理解与任务相关的核心物理量并产生有效的工具使用策略。与之前相关工作相比，该框架在更基础的层面上识别出工具使用过程中的关键量和不变量；该方法没有纯粹的基于视觉，而是关注工具产生的物理效果，识别完成任务的基本物理特性。具体来说，该论文采用了最先进的有限元仿真来模拟人在工具使用过程中视觉和物理效果随时间连续演变的过程（比如，压力，能量，接触面）。然后，该研究设计了一种基于符号回归的算法来分析仿真产生的一系列物理特性，并有效地确定每种特性对最终工具使用效果的贡献程度。机器人学到的关键物理量将驱动下游基于最优控制的运动规划算法，使机器人能够产生各种工具使用策略。为了统一机器人运动规划问题并使该框架更具通用性（例如，处理具有不同形态的机器人、不同形状的工具以及各种操作工具的方式），研究人员引入了一个虚拟运动链（Virtual Kinematic Chain）的观点，将工具视为机器人躯干的延伸，并在运动规划中将其运动学和动力学特性作为一个整体加以整合。

图6 从耗费扭矩力的角度对模仿人类的工具使用策略和最优规划的工具使用策略进行对比

由于运动学结构的显著差异，机器人观察到的人类使用工具的策略对其来说可能并不是最理想的方式。比如两个机器人（即Baxter和UR5）去模仿人类的策略（蓝色）。机器人先观察到人类抓握和使用锤子的方式，然后通过反向运动学（Inverse kinematics）计算出机器人执行同样操作所需要的关节运动轨迹。实验结果证明，直接模仿人类使用工具的方式所需要的扭矩力（Torque effort）要高于文中提出的算法所生成的最佳策略（红色）的。使用该框架产生的工具使用策略和人的策略有很大的不同，但对机器人来说更有效更省力。

图7 Baxter使用锤子完成砸的任务

图8 UR5使用锤子完成砸的任务

论文的实验结果证明，因具身结构的不同，使用同一种工具时不同的机器人有适合各自的最省力的方式，也即，不同的抓握方式和不同的运动轨迹。

图9 Baxter使用玩具(非典型工具)完成砸的任务

图10 UR5使用玩具(非典型工具)完成砸的任务

对于非常规的物体，机器人也能将其当做工具来使用。通过虚拟运动链，工具被当做机器人躯干的延伸，在运动规划中其运动学和动力学特性被作为一个统一的整体加以建模。因此该方法可以适用于各种不同形态的物体。

图11 模拟器验证规划的工具(锤子)使用策略

图12 模拟器验证规划的工具(玩具)使用策略

将该框架生成的工具运动轨迹输入到仿真环境中去验证是否产生符合预期的物理效果。其中，基于最优控制的运动规划同时考虑了运动学和动力学的特性，使得工具运动轨迹能够满足任务期望的物理特性。

03总结

在这项工作中，研究人员证明了所提出的学习和规划框架能够识别对任务成功有重要意义的基本物理量，自主规划有效的工具使用策略，模仿人类使用工具的基本特性。同时该方法能将见过的和未见过的物体作为工具，根据机器人自身机构以最省力的方式来使用。该论文所提出的框架使得机器人通过利用高精度物理仿真环境更好地理解物理常识，并在遇到新的（即未见过的）工具时，能够更好的规划工具使用策略。

尽管该论文的工作是在仿真环境中进行的，但该方法中规划算法输出的扭矩命令（Torque command）在未来有可能在真实的机器人上部署。由于机器人物体抓取仍然是一个尚未被完全解决的问题，该论文研究人员计划采用更复杂的方法来生成工具上的精确抓取姿态，这样就能产生更贴近现实和适应性更强的工具使用策略。同时，仿真环境与现实环境的差距是将该框架部署在真实机器人上的另一个主要挑战。基于物理的仿真模拟很难精确地调整到使其完全与现实世界相吻合的程度。然而，该论文提出的框架仍然是机器人理解和发现工具使用中核心任务目标的有效方式。

首页

科研成果

朱松纯、朱毅鑫教授团队发文阐述：锤子应该这么挥，物理常识驱动机器人工具使用

时间：2022-07-25 点击数：_showDynClicks("wbnews", 1887772040, 2381)

时间：2022-07-25 点击数：