自动驾驶技术路线之争日益激烈,主要围绕WA(世界行为模型)和VLA(视觉-语言-动作模型)两大路径展开。关于WA和VLA,《中国汽车报》的深度分析是不是可以让大家理解:
技术特性对比
WA模型强调整合感知、预测、决策与规划到统一框架,响应速度更快(高速场景下约100毫秒,比VLA快近一倍),且能直接融合雷达与视频数据,细节保留更完整。例如,雨雾天气中WA对150米外静止车辆的识别准确率比VLA高37%。
VLA则擅长语言交互与推理,可通过文本描述实现知识导入与导出,降低对专业驾驶数据的依赖(初期数据成本仅为WA的1/3),并支持自然语言指令,更适配用户交互需求。
发展上限差异
WA的目标是构建“数字孪生式”驾驶系统,追求99.999%的场景覆盖率和千公里0.1次的接管率,远期可能减少对激光雷达的依赖。
VLA受限于语言描述的抽象性,在三维环境转化为一维语言时可能丢失细节,缺乏物理因果理解(如急刹时重心转移对抓地力的影响),导致冰雪路面事故率较高。(这点存疑)
阵营与成本格局
WA阵营以华为为代表,研发投入高昂(2024年超100亿元),车端硬件成本比VLA高40%以上,中小车企难以承担。
VLA阵营包括理想、小鹏等,依托现有数据与算力资源,开发周期短,更适合快速落地
未来或出现融合路线:底层以WA的世界建模为核心,上层结合VLA的交互与推理能力,实现可解释性与适应性的平衡,但最终都会被验证