最近我们跟华为智能汽车解决方案 BU CEO 靳玉志聊了聊即将推送的 ADS 4,谈到了对 VLA 路线的看法。
靳玉志说华为明确不会走 VLA 的路径。他说,VLA 试图在做的事情是,它把视频也转化成语言的 token 来进行训练,最后变成 action(动作),控制车的运动轨迹。
「这和我们的判断是不一样的,我们不会走 VLA 的路径。我们认为这样看似取巧的路径,并不是最终走向真正自动驾驶的路径,我们更看重 WA(world action),省掉了 language 这个环节。」
「我们愿意直接走向这个目前看起来非常难,但是最终直接要到达的路径,就是直接通过行为端,直接通过 vision,vision 只是一个代表,它可能来自于声音,可能来自于 vision,也可能来自于触觉,通过这样一个信息输入直接控车,而不是把各种各样的信息转成语言,通过语言大模型再来控制车。我们是这么理解的,未来技术发展是这样的,当然这是不同的选择而已,我们这个可能难度更大,更有挑战,但它是终极的方案。」
你们怎么看,同意他的观点吗?