2023年5月4日星期四

LiDAR or not LiDAR

自动驾驶对于 LiDAR 的使用可以追溯到 2005 年 DARPA 的那次自动驾驶竞赛,那时候深度学习还没有兴起,基于摄像头的感知大多还是基于双目视觉重建深度信息,也有一些单目配合 IMU 的尝试,配合传统的 语义分割+图像识别,对于简单低速场景来说还勉强可用,但是地形出现起伏、同时有一些无法分类的障碍物的时候,大家发现Velodyne 的 64 线旋转式激光雷达对于感知的帮助是巨大的。算法也很简单,就是先做一次地面点云擦除,剩下的点云简单聚类之后就是障碍物,再对行人和车辆这样的分类做一下轨迹追踪和预测即可。

后来深度学习的兴起对于摄像头感知的影响是巨大的,首先语义分割可以不需要借助双目或者前后帧直接得到深度信息,其次对于不同光照情况下的物体分类泛化效果也远远好于传统方法。基于 LiDAR 的感知更多的时候是起一个保底的作用的,实际上路效果主要还是靠摄像头。

所以可以通过传感器的配置反推感知算法。例如 Subaru eyesight 前视是一组双目,那大概就是传统算法,新加一个广角单目有可能是深度学习然后后融合;而 Tesla 是三个不同焦距摄像头组合,那大概一开始就是深度学习端到端。

而随着测试场景越来越丰富,大家也开始发现 LiDAR 并不能始终保底,例如雨天车轮卷起的水雾、地面反射以及车辆玻璃的反射(大巴尤其明显)都会造成假阳性,而且对于固态 LiDAR 来说还有点云粘连的问题。在算法上强行融合 LiDAR 和摄像头的信号,除了增加算力负担以外,似乎对于实际效果提升帮助并不大。

在 Transformer 出现以后,感知的理念更进一步,不再是拘泥于分割+分类+追踪预测,而是万物皆预测,而实际效果大家也可以在 Tesla FSD 上面看到。以至于现在使用 BEV Transformer 和不使用的,看起来都不是一个自动驾驶等级的产品。

那么 LiDAR 是否就真的没有用了呢?

让我们回归本源,摄像头是否能够保证足够高的检出率从而保证安全?在实践中,检出率和假阳性抑制往往都需要做取舍。Demo 的时候可以为了短时间的效果调高检出率,而到了量产阶段,假阳性特别是前方的假阳性是需要严格避免的。毕竟 AEB 需要触发的机会还是少,而且真算是没触发,用户观感上来说也比对着空气急刹要好得多。所以就算是 FSD,检出率也依然无法满足高阶自动驾驶的需求。

举一些例子。

  • 对于车道的检测比较依赖光照和车道线特征,如果是一侧车道有护栏/挡墙而无车道线,同时有车道线并入汇出/光线变化/另一侧车道线磨损/弯道等情况时,车道线检测往往会出错。
  • 对于前车是小车的情况,由于摄像头安装位置一般都较高,从后面图像预测位姿和行进路线是比较容易的,甚至相对于人眼的高度还有额外优势;但是对于前车是大车的情况,通过尾部图像预测位姿往往不够精确,有的时候大车已经偏离车道了都没有反应。这对人类来说是有些反直觉的,因为人类可以通过大车的侧面投影来比较轻松地判断前进角度,但是对于深度学习来说,一个是训练数据样本的问题,看正后方和侧后方的数据比较多,稍微露出侧面的那种很少;另外一个原因,也是比较核心的原因,则是摄像头图像本质上是从 Ego View 投影到 BEV(Bird Eye Vew),这个 BEV 是伪 BEV,所以对于这种三维的相关性信息天然是比较困难的。前面说的车道检测的场景也是一个道理。
  • 另外对于光照条件的泛化能力也受到传感器本身性能的制约。传统对于车用摄像头的 HDR 合成是通过长短帧来解决的,但是往往会有偏色的问题,这在红绿灯识别上比较致命,实际效果在光照快速变化(例如通过桥下阴影或者隧道出入口)或者过强过弱光照时也并不可控;一些比较复杂的方法,例如类似 RED 的一次曝光多次读出,然后 DSP 合成,对于 CMOS 的读出速度要求比较高,也要求相对强力的 DSP 前处理器,成本上来说可能不太划算,目前我还没有看到量产车上使用类似的技术。当然如果能做到的话,在 DSP 里面还可以加入降噪、运动补偿以及 NPU 直接做一部分感知,或许也是一种不同于当前主要在控制器上做多传感器感知融合的思路。

相比之下,LiDAR 的主要优势有两个,一个是信号天然是 BEV,可以直接拿来做可行驶区域的预测和线路规划,而不光是基于车道识别,而后者的效果是有上限的,就是 ACC+换道+Nudge,这也决定了基于后者做出来的只能是 L2+(或者学习 Intel,L2++++),而不可能是 L3L4;第二是主动光源,不受光照条件泛化能力的约束。

所以从稍微长一些的时间来看,LiDAR 的上限是要高于纯视觉方案的,而水雾假阳性问题,随着各家慢慢开始转为 1550nm 光源,应该可以通过提升功率的方式解决。而反射抑制则有两种思路,一种是使用更复杂的编码方案,例如鬼成像;另一种是算法抑制,相比于各种光照条件泛化来说,反射抑制要更容易达成一些,带有几何约束的追踪算法应该可以抑制此类飘忽不定的信号源。