马一龙在解释 Tesla 的 FSD 为什么要使用纯视觉方案时,理由之一就是人眼也是如此,既然人可以做到,那摄像头理应也可以做到。
果真如此么?
人眼是有立体视觉的,立体视觉的来源有三个方面:
- 双目视像差。事实上传统 CV 使用双目感知是非常常见的,例如 Kinect 就是双目+红外深度传感器。已经量产的 L2 方案里面,斯巴鲁的 EyeSight 也是双目(新款又加了基于 DL 的第三个摄像头)。
- 运动视像差。包括目标运动产生的视像差,以及自身运动产生的视像差。这个方案需要配合高精度 IMU 一起使用。传统 CV 上主要是 SLAM 方向用得比较多,感知的话光流法也可以认为属于此类。一些 SLAM 论文认为,IMU 精度足够高的情况下,单目感知效果是不输于双目的。而现在最流行的 Transformer 在时间维度上有一定的“记忆”,也可以认为有利用到运动视像差。
- 先验知识。多数监督学习的单目感知都属于这个类别。
人类对阵人工智能其实有天然的劣势,例如专注能力,例如反应速度。即使是顶级的 FPS 游戏玩家,实际反应速度也在 200ms 附近,操作的迅捷更多来自于预判,以及不需要反应的连续操作精度。人工智能在相同输入的前提下,上限自然是高于人类的。
而 FSD 的视觉方案在我看来,对于第 3 类三位信息的利用和人类互有胜负,人眼对于 HDR 的处理目前来看好于现有的成像技术,对于未分类物体的识别能力也更好;而弱点则是覆盖范围和对焦速度。对于第 2 类视像差更多是隐式依赖 Transformer 自身的时序关联性。而对于第 1 类视像差则完全没有使用。即使是在纯视觉方案里面,也是天然残疾,上限不高。一个比较理想的纯视觉方案需要具备以下特征:
- 结合目标跟踪和 SLAM,也就是 ego perception 和 object perception 统一。SLAM 里面的 Mapping 部分可以认为是 environment perception 的记忆。
- 使用全部三种立体视觉来源,而不是只依赖先验知识(训练数据集)。
- 时间同步、高精度 IMU。
关于 Sora 的原理,如果这位大佬的猜测靠谱的话,确实和目前自动驾驶的视觉方案类似,通过网络的先验知识从 2D RGB 位图反推回伪 3D。在自动驾驶上是 BEV,而 Sora 反推的结果应该是类似于红外深度传感器那种相对稀疏的伪 3D 点云。
既然能拿到伪 3D 点云,那理论上来说也可以使用骨架进行物理约束。这个技术在 Kinect 时代就有了,不是什么天顶星科技。这是一个“应该比较简单”的改进方向。
如果有足够的训练数据的话,从 2D 反推到稠密 3D 顶点网格也不是不可能。在有了网格和物理约束的情况下再做光追渲染,恐怕整个影视行业都要被颠覆了。多媒体生产过剩这件事对人类社会形态的重塑会比文字生成来得更大,毕竟互联网时代,文字信息就是过剩的,但多媒体资源是相对稀缺。