【导读】近日,来自卡内基梅隆大学的学者和该公司的 Eric P. Xing 发表了关于自动驾驶中端到端模型训练数据的缺乏、训练数据的噪声以及难以解释模型。提出了一种基于无监督现实到虚拟域统一的端到端自动驾驶方法。该方法具有以下优点: 1)将从不同来源分布收集的驾驶数据映射到一个统一的域中; 2)充分利用免费提供的带注释的虚拟数据; 3)除了可解释的、带注释的驾驶图像表示之外的学习,它可以专门用于车辆命令预测。该方法在两个高速公路驾驶数据集上的广泛实验证明了该方法的性能优势和可解释性。
论文:Real-to- for End-to-End
▌总结
在基于视觉的自动驾驶领域,端到端模型表现不佳且不可解释,而中介感知模型 ( ) 需要额外的中间表示,例如分割掩码或检测边界框 ( ) ,在大规模数据上进行训练时,获取这些大量标签信息可能非常昂贵。原始图像和现有的中间表示可能会穿插与车辆命令预测无关的琐碎细节,例如前方车辆的风格或道路边界之外的视野。更重要的是,如果合并不同来源的数据,之前的所有工作都无法有效处理这个域迁移问题,这极大地阻碍了模型的泛化能力。
在这项工作中,本文利用从驾驶模拟器中收集的虚拟数据来解决上述问题,并提出了 DU-Drive,一种用于端到端驾驶的无监督真实到虚拟域统一框架。它将真实驾驶数据转换为虚拟域中的规范表示,从中预测车辆控制命令。所提出的框架有几个优点: 1)将从不同的源分布收集的驾驶数据映射到一个统一的域; 2)利用免费提供的带注释的虚拟数据; 2) @3) 它学习可解释的、带注释的驾驶图像表示,可以专门用于车辆命令预测。在两个高速公路驾驶数据集上进行的大量实验证明了 DU 驾驶的性能优势和可解释性。
▌简介
基于视觉的自动驾驶系统是一个长期存在的研究问题。在现有的各种解决方案中,将单个前置摄像头图像映射到车辆控制命令的端到端驾驶模型吸引了很多研究兴趣,因为它消除了特征工程的繁琐过程。还有许多方法试图利用中间表示来提高端到端模型的性能(图 1)。例如,[33] 使用语义分割作为辅助任务来提高模型性能,而 [8] 做出驾驶决策之前,检测器首先被训练来检测附近的车辆。然而,随着我们向更大的尺度发展,驾驶数据的收集和中间表示的标记可能会非常昂贵。
图 1:针对基于视觉的驾驶模型提出了各种方法。标准的端到端模型 (a) 不可解释且性能欠佳,场景解析 (b) 或对象检测 (c) 需要昂贵的注释数据。所提出的方法(d)将来自不同数据集的真实图像统一为虚拟域的规范表示,避免冗余细节并提高车辆命令预测任务的性能。
此外,由于现实世界场景的复杂性,驾驶场景的一般图像和中间表示包含冗余细节。其中许多细节对预测任务既不相关也无帮助。例如真实模拟驾驶,高速驾驶的人类驾驶员不会根据前方汽车的品牌或道路边界外的景色来改变他们的行为。理想情况下,模型应该能够通过观察人类驾驶数据来学习关键信息,但由于深度神经网络的黑盒特性,很难分析模型是否已经学会根据正确的信号进行预测。
参考文献 [6] 对神经网络的激活进行了可视化,并表明该模型不仅学习了车道标记等驾驶关键信息,而且还学习了不需要的特征,例如不规则类型的车辆类别。参考文献 [18] 展示了由因果过滤器改进的注意力图的结果,其中包括相当随机的注意力斑点。很难证明学习这些信息是否有助于驾驶,本文认为,从驾驶图像中有效提取最少且足够信息的能力对于提高预测任务的性能至关重要。
相比之下,来自驾驶模拟器的数据自然避免了这两个问题。一方面,通过搭建机器人小车,我们可以轻松获取源源不断的行驶数据,用于控制信号的标注。另一方面,我们可以控制虚拟世界的视觉外观,通过尽量减少多余的细节来构建规范的驾驶环境。
这促使作者开发一个系统,该系统可以有效地将真实驾驶图像转换为虚拟域中的规范表示,从而促进车辆命令预测的任务。许多现有的作品利用虚拟数据通过生成对抗网络将虚拟图像转换为真实图像,同时借助辅助对象保持注释的完整性。
我们的方法虽然也是基于 GAN,但在几个方面有所不同:首先,与其他方法不同,作者试图将真实图像转换为虚拟域中的规范表示。对于规范表示,作者指的是像素级表示,它将预测任务所需的最少足够信息量与背景分开。由于任何图像只能具有一种规范表示,因此在生成过程中不会引入噪声变量。其次,本文没有直接保留注释,因为图像中确定车辆命令的确切信号尚不清楚。相反,本文提出了一种新的联合训练方案,将预测关键信息逐步提取到生成器中,同时提高模型训练的稳定性,防止驱动关键信息的模型崩溃。
这项工作有三个贡献:
▌型号介绍:
图 2:DU-Drive 的模型架构。生成器网络 G 将输入的真实图像转换为虚拟图像真实模拟驾驶,预测器网络 P 预测车辆命令。鉴别器网络 D 试图区分虚假图像和真实图像。对抗目标和预测目标都驱动生成器 G 生成对预测任务最有帮助的虚拟表示。为简单起见,省略了每个卷积/全连接层之后的实例归一化和激活层。 (缩写:n:数字,k:大小,s:大小)
图 3:DU-Drive 的域统一框架。对于每个真实域,训练一个独立的生成器,将真实图像转换为虚拟域中的虚拟图像。为车辆命令预测训练单个虚拟图像并在多个真实域上进行预测。
▌实验结果
表 1:数据集的详细信息
图 4:我们工作中使用的示例数据。从上到下:从 TORCS 模拟器捕获的虚拟数据、来自 comma.ai 的真实驾驶数据、来自挑战的真实驾驶数据。
图 5:DU-Drive 的图像生成结果,考虑了对驾驶行为不重要的信息,例如白天/夜间照明条件。并且视野超出了道路边界。有趣的是,车辆也从场景中移除,但考虑到我们在实验中只预测转向角,这实际上是合理的。另一方面,车道等关键信息得到了很好的保存。
图 6:TORCS 模拟器中 6 条轨道的形状,从中收集了虚拟数据。
图 7:条件 GAN 的图像生成结果。后台和前台发生的模型崩溃,不保存车道标记。
图 8:.第一行:真实源图像和生成的虚拟图像。下一行:虚拟源图像和生成的假真实图像。
表 2:转向角预测性能。平均绝对误差 (MAE) 及其标准偏差 (SD)。其中,DU-drive 优于所有方法。
图 9:随着虚拟数据集多样性的增加,预测任务的平均绝对误差的变化。
▌结论
我们提出了一种用于高速公路驾驶的无监督真实到虚拟域统一模型,或 DU-drive,它使用条件生成对抗网络将真实域中的驾驶图像转换为虚拟域中的规范,表示和预测车辆控制命令从中。在存在多个真实数据集的情况下,可以为每个真实域(从真实域到虚拟域的生成器)独立训练生成器,并且可以使用来自多个真实域的数据训练全局预测器。定性实验结果表明,该模型可以有效地将真实图像转化为虚拟域,并且只保留足够的最小信息,证明这种规范表示可以消除域偏移,提高控制指令预测任务的性能。
参考链接:
-END-
专家·知道
查看和获取人工智能领域的学科知识资料:
同时,欢迎用户贡献他们的专业知识。详情请点击: