下午看到有自动驾驶从业者吴双发了一篇文章反对VLA路线。
核心理由就是VLA的卖点经不起推敲。
第一是语言交互的能力。
(1)与用户产生驾驶上的交互不等于驾驶能力。所以能用语音设置导航、让车“开稳点”或者向你解释它为什么刹车,这些功能只是改善了用户体验,让车显得更智能、更友好。但这和车本身的核心驾驶能力是两码事。
(2)Language的“可解释性”可能是个幻觉。比如系统用自然语言向你解释它的行为(比如“我刹车是因为前面有只猫”),但无法验证这个解释是不是它真正决策的原因。
第二,思维链推理能力。
语言模型擅长的是基于文本的逻辑推理和常识判断,但驾驶更需要的是对物理空间、速度和运动的直觉性感知和反应,两者没有必然联系。而且VLA推理过程耗时太长,慢思考更适合在事后的模型训练中使用。
第三,现在很多人借用机器人领域去证明VLA可用性。
实际上人形机器人需要VLA是因为它们数据少,但自动驾驶的任务很单纯,只是为了安全高效地完成A到B的移动,不需要照搬VLA这种复杂的架构。
VLA架构挪到自动驾驶,是过度设计。