学术分享丨基于主动探索的智能抓取机器人

*爱你&永不变心* 提交于 2020-08-15 07:52:12

  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《基于主动探索的智能抓取机器人》。

  论文: Deng, Y., Guo, X., Wei, Y., Lu, K., Fang, B., Guo, D., Liu, H., Sun, F. (2019). Deep Reinforcement Learning for robotic Pushing and Picking in Cluttered Environment. 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).doi:10.1109/iros40897.2019.8967899

  1. 研究背景

  近年来,电子商务的发展推动了物流产业项目的繁荣,全球物流市场收入预计在2021年达到224亿美元。人力成本的快速上涨,使智能化的物流装备在提高物流效率等方面的优势日渐突出。我国物流行业正在从劳动密集型转向技术密集型,机器人代替人工是未来的趋势。

  目前,物流自动化的难点在于仓储物流,80%的物流仓库仍然依赖于人力。物流抓取通常是重复枯燥的,有时具有危险性,我们希望让机器人来完成这样的工作,让人类劳动者投入到更有创造性的工作中。

  

  学术界和工业界都在寻求解决方案,许多研究人员针对这一课题开展了工作。Andy Zeng 等人通过对整个场景的分析,提出了利用Affordance Map(一个包含每个抓取点的置信度的图)来获取抓取区域的方法,大大提高了抓取的效率。然而,由于环境通常是复杂和无结构化的(例如混乱的场景),有时机器人很难找到合适的位置来抓住物体。

  因此,我们研发了一种新型智能抓取机器人,结合深度强化学习方法,赋予机器人主动探索感知的能力,解决了Affordance Map方法的缺陷,使得机器人能够改善抓取环境,提高了机器人在复杂环境下的抓取成功率。

  

  2. 系统总览

  我们设计的主动探索机器人系统的工作流程如图所示。首先,系统通过RGB-D相机得到场景的彩色图像和深度图像,基于这两幅图像,利用深度神经网络计算出Affordance Map。然后,我们提出了一个度量 来评价当前的 Affordance Map 的可信度。如果 达到阈值,复合机器人手将执行抓取操作。否则,将得到的RGB 图像和深度图像输入到深度Q学习网络(DQN)中,得到应采取动作的位置和方向,引导复合机器人手通过推动物体给环境带来适当的干扰。这个过程将不断循环,直到环境中的所有对象都被成功地拾取。

  

  3. 研究方法

  3.1 机械手设计

  现在主流的机械手主要有两种:吸盘式机械手和手爪式机械手。这两种结构各有利弊,将两者结合的机械手成为了新的趋势。因此,我们设计了一种将吸盘结构与手爪结构复合起来的新型机械手。

  在抓取物体的过程中,两个手指处于打开状态,吸盘处于缩回状态。确定抓取点后,吸盘弹出,与被抓取物体表面紧密接触。然后,空气泵在吸盘中产生负压,从而吸取物体,然后,推杆缩回,带动物体到达两个手爪之间,最后,机械手爪闭合抓取物体以保证抓取的稳定性。

  

  3.2 深度强化学习方法

  为了解决复杂环境下Affordance Map出错的问题,我们将主动探索引入我们的抓取系统中。与只使用一张静态的 Affordance Map 进行抓取操作判断不同,机器人会根据当前对 Affordance Map 的度量情况,主动探索和改变当前场景,直到新场景对应的Affordance Map足够好。我们利用DQN训练模型,该模型能够根据当前场景的 Affordance Map 和RGB-D信息,输出一个合理的动作改变场景。我们的网络结构基于 U-NET,输出亚像素级别的操作点位置。U-NET 是近年来提出的一种强大而轻量化的图像分割网络结构,结合了多层上下采样模块和残差的方法,从而在输出像素级语义信息方面具有很高的性能。为了尽可能缩小网络的尺寸来加快输出和收敛速度,我们将U-NET典型结构进行调整,仅使用了一次上下采样,并将输入的RGB-D 图像调整为四分之一分辨率。

  

  4. 实验内容

  在仿真环境中,我们添加了一个UR5 机械臂和一只机械手来实现主动探索的过程,并使用 Kinect 像机来获取视觉数据。为了模拟一个杂乱的环境,我们在场景中添加了11个块作为操作对象,并手动设计了几个具有挑战性的场景进行评估。实验结果表明,我们的模型相比于随机操作具有更优越的改善环境的能力。我们的模型能在更少的操作数内完成实验任务,更快地完成改善操作环境的任务。

  在真实场景中,为了判断经过主动探索优化后的Affordance Map相比与只使用 Affordance Map相比是否能更好的完成抓取任务,我们分别使用两种系统来完成实际的抓取任务,我们选取了四十种物品来构造抓取场景测试两种系统在抓取控制上的能力。

  真实实验的评价指标不同于模拟实验,同时真实实验对系统的评价也更加科学,有说服力。在实验过程中,我们发现,当 Affordance Map 最大值处的物体不能被抓取时,机器人会重复这个操作,因为环境没有改变,所以网络输出的抓取位置也不会改变。因此,如果机器人连续 3 次在同一物体上发生故障,我们就将该次实验定义为失败,而如果机器人成功抓取场景中的前10 个物体,我们就将该次实验定义为成功。

  

  

  我们使用经过主动探索优化后的Affordance Map 与只使用 Affordance Map 系统 进行了 20 个不同场景的抓取实验。记录每次操作的结果。实验结果表明,在主动探索优化后,系统在抓取成功率和实验成功率方面均表现得更好。与仅用 Affordance Map 相比,增加主动探索降低了重复无效操作出现的可能性,使得系统对环境的适应能力更强。

  

  主动探索前

  

  主动探索后

  4. 结论

  在这项工作中,我们提出了一种新型的机器人抓取系统,该系统包括一个吸盘和一个平行手爪的复合机械手。同时,系统采用了基于DQN的主动探索方法,实现了在复杂环境下对目标的智能抓取。通过机器人主动探索和改变环境,能够得到一个更好的Affordance Map。实验结果说明,使用复合机械手进行抓取效率更高。与仅使用静态的Affordance Map方法相比,主动探索策略表现出了更好的性能。

  参考文献:

  [1] H. Liu and F. Sun. Material identification using tactile perception: A semantics-regularized dictionary learning method. IEEE/ASME Transactions on Mechatronics, 23(3):1050–1058, 2017.

  [2] V. Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland,G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D.Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015.

  [3] M. A. Robertson and J. Paik. New soft robots really suck: vacuum-powered systems empower diverse capabilities. Science Robotics, 2(9), 2017.

  [4] A. Zeng, S. Song, K. T. Yu, E. Donlon, F. R. Hogan, M. Bauza, D. Ma, O. Taylor, M. Liu, E. Romo, et al. Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. In International Conference on Robotics andAutomation (ICRA), pages 1–8. IEEE, 2018.

  [5] C. C. Kessens and J. P. Desai. Design, fabrication, and implementation of self-sealing suction cup arrays for grasping. International Conference on Robotics and Automation (ICRA), pages 765–770.IEEE, 2010.

  作者简介

  

  陆恺,清华大学自动化系2016级学生,英国牛津大学计算机科学系2020级博士生。本科期间在清华大学国家重点智能技术与系统实验室进行机器人与主动感知抓取方面的研究,师从方斌、刘华平老师,在IROS 2019、 ICRA 2020发表论文。博士研究课题为机器人抓取系统,方向包括交互感知、机器学习和3D视觉。

  本文由CAAI认知系统与信息处理专委会供稿

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!