2024年4月17日星期三

无图 其二

随着 Transformer 的普及,车端感知也进入了万物皆预测的时代,以前对于其他车辆的轨迹和行为大多使用传统的滤波方式,稍微激进一些也就是 RNN,现在全部都在一个模型里面搞定。车道线也是如此,以前是靠边缘特征做实时提取,车道线磨损或者光照阴影干扰的情况下识别效果就比较差了。而用了 Transformer 预测了之后,有些车道就算不能实时提取特征,也可以依靠模型本身的时间序列上的泛化能力进行短暂过渡。

不过现在的玩法又更进了一步,直接把之前的 HD Map,也就是彩色点云当作训练数据喂进去,这样模型就有了 HD Map 的“记忆”。所以国内大把号称 无图 NOA 的厂家却有“开城”的前置步骤,因为需要预先采图然后训练模型。

不得不说,这种做法多少有些鸡贼,打着无图的旗号干着有图的事情。在为数不多放开感知结果的几次 无图 NOA 演示里面,都看到了本来地上没有车道线,感知却识别出了车道线的现象。因为 HD Map 是人工标注的车道线,然后作为训练数据集成为了模型的一部分,模型就算是实际上看不到车道线,但却可以把人工标注的结果重放出来。

这样过拟合训练的好处也不是没有,比如在一定程度上规避了测绘资质的要求,上车的模型和地图本来就是一体的,没有独立的地图文件,监管部门对此无能为力,而相对于量产车来说少量的 HD Map 采集需求,也完全可以通过打游击的方式规避监管。

当然,这样做的隐患还是有的,前段时间一批甲级资质图商被取消资质(名义上是年审不通过)的原因是地图标注众包,违反了原始地图数据不上互联网的要求。小企业可以举公司之力在局部地区比如小的市县级别采图然后训练到过拟合,但是卖车是要全国跑的,在核心区域以外的地方模型泛化效果就很难说了。

而且模型和地图融合的方式,对于后续模型升级来说无疑是噩梦。独立地图可以分区升级,不影响主模型也不影响其他地区,但是对于整体端到端模型来说,只有模型升级一条路,而且要验证有没有对之前的区域和模型行为有负面影响,需要重跑所有的已知场景和测试案例。随着地图区域的扩大和测试场景的不断累积,升级的成本会迅速到达就算是大厂也无法接受的程度。在长尾端,会不断遇到按下葫芦浮起瓢的问题,就是这个区域这个场景优化了,但是 Regression 测试其他某个场景又劣化的情况。FSD 很明显也遇到了这样的问题。

本质上来说,这就是前面几篇提到过的,不管是 NN 还是 LLM 模型,初始阶段模型的泛化能力是一种捷径,但是到了一定阶段都必然会遇到泛化能力的瓶颈。诚然,暴力堆算力和参数数量是有可能可以跨越这个瓶颈的,就像现在很多人都在讨论的 AGI 或者大模型的 Eureka 时刻一样,但是车载平台毕竟对于功耗有相对硬性的要求,而每瓦算力的提升早已过了指数甚至线性提升的阶段。

我相信解决之道并不在于无脑堆数据或是算力,而在于更好的工程设计,而一个好的工程设计中解耦是必不可少的。这也算是我对于自动驾驶端到端唱的反调吧。There is no silver bullet.

2024年2月21日星期三

Vision

马一龙在解释 Tesla 的 FSD 为什么要使用纯视觉方案时,理由之一就是人眼也是如此,既然人可以做到,那摄像头理应也可以做到。

果真如此么?

人眼是有立体视觉的,立体视觉的来源有三个方面:

  1. 双目视像差。事实上传统 CV 使用双目感知是非常常见的,例如 Kinect 就是双目+红外深度传感器。已经量产的 L2 方案里面,斯巴鲁的 EyeSight 也是双目(新款又加了基于 DL 的第三个摄像头)。
  2. 运动视像差。包括目标运动产生的视像差,以及自身运动产生的视像差。这个方案需要配合高精度 IMU 一起使用。传统 CV 上主要是 SLAM 方向用得比较多,感知的话光流法也可以认为属于此类。一些 SLAM 论文认为,IMU 精度足够高的情况下,单目感知效果是不输于双目的。而现在最流行的 Transformer 在时间维度上有一定的“记忆”,也可以认为有利用到运动视像差。
  3. 先验知识。多数监督学习的单目感知都属于这个类别。

人类对阵人工智能其实有天然的劣势,例如专注能力,例如反应速度。即使是顶级的 FPS 游戏玩家,实际反应速度也在 200ms 附近,操作的迅捷更多来自于预判,以及不需要反应的连续操作精度。人工智能在相同输入的前提下,上限自然是高于人类的。

而 FSD 的视觉方案在我看来,对于第 3 类三位信息的利用和人类互有胜负,人眼对于 HDR 的处理目前来看好于现有的成像技术,对于未分类物体的识别能力也更好;而弱点则是覆盖范围和对焦速度。对于第 2 类视像差更多是隐式依赖 Transformer 自身的时序关联性。而对于第 1 类视像差则完全没有使用。即使是在纯视觉方案里面,也是天然残疾,上限不高。

一个比较理想的纯视觉方案需要具备以下特征:

  1. 结合目标跟踪和 SLAM,也就是 ego perception 和 object perception 统一。SLAM 里面的 Mapping 部分可以认为是 environment perception 的记忆。
  2. 使用全部三种立体视觉来源,而不是只依赖先验知识(训练数据集)。
  3. 时间同步、高精度 IMU。


[离题]

关于 Sora 的原理,如果这位大佬的猜测靠谱的话,确实和目前自动驾驶的视觉方案类似,通过网络的先验知识从 2D RGB 位图反推回伪 3D。在自动驾驶上是 BEV,而 Sora 反推的结果应该是类似于红外深度传感器那种相对稀疏的伪 3D 点云。

既然能拿到伪 3D 点云,那理论上来说也可以使用骨架进行物理约束。这个技术在 Kinect 时代就有了,不是什么天顶星科技。这是一个“应该比较简单”的改进方向。

如果有足够的训练数据的话,从 2D 反推到稠密 3D 顶点网格也不是不可能。在有了网格和物理约束的情况下再做光追渲染,恐怕整个影视行业都要被颠覆了。多媒体生产过剩这件事对人类社会形态的重塑会比文字生成来得更大,毕竟互联网时代,文字信息就是过剩的,但多媒体资源是相对稀缺。