Waymo与谷歌提出颠覆性TNT模型,实现自动驾驶多轨迹行为预测

a 夏天 提交于 2020-10-20 17:21:42

  导读:Waymo 近期宣布在凤凰城地区开放没有安全员的无人驾驶出租车,实现首个商用的真正的无人驾驶。与此同时,Waymo 也公开分享了一系列新的研究论文,本文就来讲解一下 Waymo 在行为预测方面的研究成果。

  周围的车辆和行人在接下来数秒中会做什么?要实现安全的自动驾驶,这是一个必须回答的关键问题,这也就是自动驾驶领域中的行为预测问题。

  行为预测的难点在于周围行人、车辆的不确定性和各种规则之外的行为。这些状况难以用规则进行总结,因此最近研发人员们开始利用基于数据驱动的深度学习的方法,以达到更加合理的预测效果。

  在这方面,来自 Waymo 和谷歌的团队提出了一系列用于自动驾驶行为预测的模型,让无人车理解抽象的道路环境,并实现对车辆、行人的多可能性预测。

  在今年 6 月的一篇 CVPR 论文中,这个团队首先提出了一个全新模型 VectorNet。

  在该模型中,团队首次提出了一种抽象化认识周围环境信息的做法:用向量(vector)来简化地表达地图信息和移动物体,这一做法抛开了传统的用图片渲染的方式,达到了降低数据量、计算量的效果。Waymo 也在其博客文章中明确表示,该技术提高了其行为预测的精准度。

  近日,这个团队公布了进一步的工作,提出了 TNT (Target-driveN Trajectory Predictio)。TNT 是一种目的地引导的轨迹预测方法,运用了监督学习的方法对车辆和行人进行多轨迹回归,最终的模型能够输出多个未来轨迹的预测,同时明确指出各个轨迹可能性。

  论文中介绍,TNT 在公开数据集 Argoverse 的测试表现与冠军结果相当,同时在 INTERACTION、Stanford Drone,以及 Waymo 内部数据集中取得了非常好的效果。

  目前该论文已经被国际机器人学习会议 CoRL(Conference on Robot Learning)接收。

  

  预测多种可能的未来情形

  

  Waymo 在博客中指出,VectorNet 突破性地提出了用向量的方式来抽象化表达这个世界,从而感知、理解周围环境。在理解环境以后,下一步就是实现更好的行为预测。

  自动驾驶行为预测和其他问题不一样的地方在于,周围的车辆、行人在接下来数秒时间里有多种行进的可能性。这些可能性本身也将影响自动驾驶车辆的决策规划。

  比方说,如果机器能算出:前方车辆有 80% 的概率左转、20% 的概率右转,自动驾驶车辆都能根据这一结果进行更好的决策规划。同时对机器来说,就算别的车辆只有 1% 的可能性右转,这种可能性也不能被忽视。

  而这种针对多种可能性的多轨迹预测,有着很大的技术难度。当下的神经网络难以很好应对多轨迹预测的任务。

  据业内人士介绍,神经网络擅长于一对一和多对一的拟合问题,而非一对多的问题。多对一如常见的分类问题,输入多张车辆的照片,神经网络能准确识别这些照片为 “车” 的类别。一对一如常见的回归问题,输入一张车辆的照片,神经网络能估计它的长宽高等尺寸。但如果输入一个样本,想让神经网络回归出三个结果,这是神经网络所不擅长的事情。

  据介绍,现在市面上基础的方案是基于交通规则获得周围车辆、行人的行进可能性。如果交规允许这条道路直行、左右转,那么就算三种可能性。但这种方式的预测结果并不完全可靠,因为规则之外的案例并未被考虑其中,如借道,违法掉头,事实上,要保障自动驾驶长时间运行下的安全性,应对规则之外的情形的能力非常重要。

  近两年的论文内容显示,很多团队正在尝试使用生成模型来进行多轨迹预测。即利用如 GAN,VAE 等模型在隐空间 latent space 进行采样,得到周围目标在特定场景下的多种潜在选择。

  但依靠生成模型的问题在于,样本采集存在很大的随机性,这对一个要求可靠的系统来说是难以接受的。假设前方来车左拐的可能性有 90%,右拐的可能性有 10%,用采样的方法很有可能我们采样三次得到的都是左拐,而忽略了它往右拐的可能性。在自动驾驶领域,依靠这种方式的行为预测难以进行实际应用。

  用监督学习实现精准预测

  该团队提出的 TNT 首次运用了监督学习的方法对车辆和行人进行多轨迹预测,是一种目的地引导的轨迹预测方法。其模型的最大贡献,就是能够不依靠采样,纯靠监督学习来进行多轨迹的行为预测。

  具体来说,该模型的行为预测按顺序分为三步,每一步都有着特定目标:1、利用地图的先验信息,离散化并预测目的地;2、在预测目的地基础之上,进一步预测目标的运行轨迹;3、在预测出多条运行轨迹当中,对每条轨迹进行筛选和打分,预测出各个选择的可能性,也同时选择出可能性最高的几个运行轨迹。

  

  在技术层面,运用监督学习的好处在于能够让最终的模型给出多个未来轨迹的预测,同时明确指出各个轨迹可能性。比如在输出三个轨迹的情况下,模型能够明确指出,30% 可能性左转、30% 可能性右转,直行的可能性为 40%。这样的预测结果就能真正地被决策系统所使用。

  在最终的表现上,单个 TNT 模型的行为预测准确性在公开数据集 Argoverse 的测试表现与冠军结果相当,同时在 INTERACTION、Stanford Drone 等测试中取得了非常好的效果。

  

  图|论文作者团队,左至右分别为赵行、高继扬、孙晨

  论文核心作者来自 Waymo 和谷歌。其中,赵行是 Waymo 研究科学家,本科毕业于浙江大学,在麻省理工学院获得博士学位;高继扬目前是 Waymo 的高级工程师,本科毕业于清华大学,后在美国南加州大学获博士学位;孙晨本科同样就读于清华大学,后博士毕业于南加州大学,目前在谷歌任研究科学家。

  -End-

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!