机器人环境地图

机器人也路痴？丨智言智语

快速地构建精确的环境地图是服务机器人实现安全高效服务的前提。...

编者按: 智显未来，洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏，为你介绍人工智能相关知识与故事，从最新成果到背后趣闻，带你徜徉AI空间，看人工智能如何唤醒万物，让世界变得更美好。

随着智能技术的发展，各式各样的服务机器人已经成为我们生活中的常客。那么，你有没有产生过这样的疑问：机器人会认路吗？它们是怎么探索新环境的呢？

（图片来自网络）

是像人类一样用炯炯有神的大眼睛直接探路？

（图片来自网络）

或者借助某种神妙之力？

当然没有这么简单，请听我们的详细解答！

以目前已经在我们的日常生活中广泛使用的扫地机器人为例，作为非常需要具备“认路”能力的一类机器人，为了实现快速的环境清扫工作，它在到达新环境时的第一项工作便是——构建环境地图。地图对于移动机器人来说非常重要，一方面，机器人需要通过地图估计当前时刻在环境中的位置；另一方面，地图为机器人的路径规划系统提供了搜索空间，以实现机器人在环境中安全，快速地移动。

图1 扫地机器人（图片来自于网络）

因此，快速地构建精确的环境地图是服务机器人实现安全高效服务的前提。环境地图很重要，但机器人又是如何顺利构建地图的呢？这里我们就不得不提到解决这类问题的核心方法——未知环境探索，它是指机器人在一个全新的环境中，通过自主移动构建整个环境地图的过程。未知环境探索的关键在于机器人运动控制的计算，以保证机器人采取有效的动作构建精确的环境地图。

除了室内这种扫地机器人，未知环境探索方法也广泛应用于室外环境下的移动机器人上。例如救援机器人，需要在一个新的环境中搜救幸存者，通过自主探索希望能够快速地覆盖整个环境区域。矿井勘探机器人以及海底探测机器人上也常常用到这类技术，其任务目的都是尽可能地覆盖更多的区域，以完成特定的任务。

未知环境探索方法有着怎样的发展历史呢？

未知环境探索问题在上个世纪90年代提出，其目标是使机器人在全新的环境中具有自主决策能力。目前常用的未知环境探索决策方法有三大类：基于边界的方法，基于信息的方法，以及基于深度神经网络的方法。

基于边界的方法是最早的未知环境探索方法，它通过检测地图中的自由区域与未知区域之间的边界，以引导机器人探索没有去过的环境。在三维环境中，由于这种边界很难在三维空间地图上直接搜索，因此会常常与一些随机搜索算法相结合，例如快速随机搜索树等。这种方法在室内服务机器人，矿井搜索机器人中广泛使用。

基于信息的方法则是将信息理论中熵的概念引入到未知环境探索问题中以构建优化问题。在信息理论中，熵通常用于衡量一个分布的不确定程度。熵值越大，表示对状态的不确定性越高。当机器人到达一个新的环境时，此时面临地图的熵值是最大的，而机器人需要通过移动，增加地图上每个位置状态的确定性，以减小地图熵值。

随着深度神经网络的发展，近几年也衍生出了一些基于深度神经网络的未知环境探索方法。例如采用深度图像或局部视野范围内构建的地图作为深度神经网络的输入，采用监督学习训练方法，直接预测机器人的运动方向。这种方法一方面依赖于大量的监督数据，另一方面容易陷入局部解。强化学习作为一种序列决策方法，通常会被结合进来用于深度神经网络的训练过程中。相比于前两类方法，这类方法的优势有两点：不再依赖专家规则，并且可以处理更杂乱的环境。

基于深度强化学习的未知环境探索方法

近几年，Alpha Go, AlphaGo Zero等游戏AI在围棋领域取得巨大突破使其核心技术——“深度强化学习”——得到了广泛的关注。与此同时，深度强化学习也逐渐应用到机器人领域，而基于深度强化学习的自主探索成为未知环境探索领域的热点方向之一，这类方法通常是设计奖励函数，通过强化学习算法，训练传感器数据到动作的映射网络。前面也提到，基于深度神经网络的方法相比于其他方法有很多优势，但是它也存在一些问题。首先，这种方法需要大量训练样本和训练时间，而训练过程通常是在仿真环境中进行，由于实际环境和实际机器人误差，从而导致从仿真环境中训练出的智能体很难迁移到实际的机器人上。针对这个问题，中科院自动化所深度强化学习团队提出了一种学习效率高、迁移性能强的深度强化学习未知环境自主探索算法。

图2 自主探索框架

团队以自主导航框架为基础，将未知环境探索分解为建图、决策和规划三个模块。通过将决策模块与规划模块相结合，减小机器人学习运动的难度，从而提高机器人学习效率。并且重新定了机器人决策动作空间，提高算法实体迁移性。该动作空间定义在建图模块得到的栅格地图，由若干目标点构成。

图3 基于栅格地图的动作空间

在此基础上，设计了一种带有辅助任务的全卷积Q网络（Fully Convolutional Q-network with an Auxiliary task，AFCQN），可以根据当前时刻构建的地图，当前时刻机器人位置和上一时刻机器人位置，对动作空间中的目标点进行评价。

图4 动作评价网络结构

该网络结构可以通过使用结合地图信息熵设计的奖励函数实现参数的自适应学习。

图5 实际环境中自动探索过程

通过仿真环境中的实验和实际环境中实体机器人上的实验表明，团队提出的这种基于深度强化学习的自主探索算法具有更好的学习效率和实体迁移性能。并且相比于经典方法，该方法在处理杂乱环境时具有更高的探索效率。

总结：

未知环境探索使机器人在新环境中不再“迷路”，是进行自主工作的前提，也是机器人自主学习和进化的关键。未知环境探索不仅让机器人熟悉新环境，更重要的是为后续决策提供重要的环境地图信息。深度强化学习为未知环境探索提供了新思路，但也面临着学习效率低的问题。高效和鲁棒的学习算法仍然是今后努力发展的方向。

参考文献：

1. B. Yamauchi, “A frontier-based approach for autonomous exploration,” in Proceeding of IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA). IEEE, 1997, pp. 146–151.

2. C. Stachniss, et al. “Information gain-based exploration using Rao-Blackwellized particle filters.” In Proceedings of Robotics: Science and Systems (RSS), 2005, pp. 65–72.

3. L. Tai and M. Liu, “Mobile robots exploration through CNN-based reinforcement learning,” Robotics and Biomimetics, vol. 3, no. 1, p. 24, 2016.

4. S. Bai, F. Chen, and B. Englot, “Toward autonomous mapping and exploration for mobile robots through deep supervised learning,” in Proceeding of IEEE International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 2379–2384.

5. H. Li, Q. Zhang, and D. Zhao. “ Deep reinforcement learning-based automatic exploration for navigation in unknown environment,” IEEE Transactions on Neural Networks and Learning Systems, vol. 31, no. 6, pp. 2064–2076, 2020.

来源：中国科学院自动化研究所

温馨提示：近期，微信公众号信息流改版。每个用户可以设置常读订阅号，这些订阅号将以大卡片的形式展示。因此，如果不想错过“中科院之声”的文章，你一定要进行以下操作：进入“中科院之声”公众号 → 点击右上角的 ··· 菜单 → 选择「设为星标」