2024年4月17日星期三

无图 其二

随着 Transformer 的普及,车端感知也进入了万物皆预测的时代,以前对于其他车辆的轨迹和行为大多使用传统的滤波方式,稍微激进一些也就是 RNN,现在全部都在一个模型里面搞定。车道线也是如此,以前是靠边缘特征做实时提取,车道线磨损或者光照阴影干扰的情况下识别效果就比较差了。而用了 Transformer 预测了之后,有些车道就算不能实时提取特征,也可以依靠模型本身的时间序列上的泛化能力进行短暂过渡。

不过现在的玩法又更进了一步,直接把之前的 HD Map,也就是彩色点云当作训练数据喂进去,这样模型就有了 HD Map 的“记忆”。所以国内大把号称 无图 NOA 的厂家却有“开城”的前置步骤,因为需要预先采图然后训练模型。

不得不说,这种做法多少有些鸡贼,打着无图的旗号干着有图的事情。在为数不多放开感知结果的几次 无图 NOA 演示里面,都看到了本来地上没有车道线,感知却识别出了车道线的现象。因为 HD Map 是人工标注的车道线,然后作为训练数据集成为了模型的一部分,模型就算是实际上看不到车道线,但却可以把人工标注的结果重放出来。

这样过拟合训练的好处也不是没有,比如在一定程度上规避了测绘资质的要求,上车的模型和地图本来就是一体的,没有独立的地图文件,监管部门对此无能为力,而相对于量产车来说少量的 HD Map 采集需求,也完全可以通过打游击的方式规避监管。

当然,这样做的隐患还是有的,前段时间一批甲级资质图商被取消资质(名义上是年审不通过)的原因是地图标注众包,违反了原始地图数据不上互联网的要求。小企业可以举公司之力在局部地区比如小的市县级别采图然后训练到过拟合,但是卖车是要全国跑的,在核心区域以外的地方模型泛化效果就很难说了。

而且模型和地图融合的方式,对于后续模型升级来说无疑是噩梦。独立地图可以分区升级,不影响主模型也不影响其他地区,但是对于整体端到端模型来说,只有模型升级一条路,而且要验证有没有对之前的区域和模型行为有负面影响,需要重跑所有的已知场景和测试案例。随着地图区域的扩大和测试场景的不断累积,升级的成本会迅速到达就算是大厂也无法接受的程度。在长尾端,会不断遇到按下葫芦浮起瓢的问题,就是这个区域这个场景优化了,但是 Regression 测试其他某个场景又劣化的情况。FSD 很明显也遇到了这样的问题。

本质上来说,这就是前面几篇提到过的,不管是 NN 还是 LLM 模型,初始阶段模型的泛化能力是一种捷径,但是到了一定阶段都必然会遇到泛化能力的瓶颈。诚然,暴力堆算力和参数数量是有可能可以跨越这个瓶颈的,就像现在很多人都在讨论的 AGI 或者大模型的 Eureka 时刻一样,但是车载平台毕竟对于功耗有相对硬性的要求,而每瓦算力的提升早已过了指数甚至线性提升的阶段。

我相信解决之道并不在于无脑堆数据或是算力,而在于更好的工程设计,而一个好的工程设计中解耦是必不可少的。这也算是我对于自动驾驶端到端唱的反调吧。There is no silver bullet.