![]()
英国AI创业公司Wayve披露了GAIA-1生成式模型的最新进展,在今年6月的时候,Wayve创建了将生成式模型用于自动驾驶的慨念性验证,而在这几个月,Wayve持续扩展GAIA-1,使其拥有90亿个参数,能够生成逼真的驾驶场景视频,呈现自动驾驶在各种场景的反应,并且更好的预测未来事件。
GAIA-1是一个可以利用不同类型输入数据,包括视频、文本和动作,创建逼真驾驶场景视频的世界模型(World Model)。GAIA-1可学习环境以及未来动态表示,向自动驾驶模型提供一个结构化的环境理解,协助驾驶模型做出明智的决策。
官方提到,预测未来事件是自动驾驶系统一个基本且关键的能力,对未来的准确预测,可以让自动驾驶车辆预先知道即将发生的事件,并且规划其相对应的动作,增加上路时的安全性和效率。因此将世界模型集成到驾驶模型中,有助于自动驾驶系统更好地理解人类决策,并具备应对真实世界各种场景的能力。
GAIA-1可对自动驾驶车辆的行为和场景特征进行细致的控制,且由于GAIA-1多模态的性质,能够从多种提示模式和组合中生成视频。首先,GAIA-1会先运用专门的编码器,将视频或文本等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地集成和理解不同类型的输入。
而GAIA-1的核心也就是世界模型,是一个自回归Transformer,能够预测串行中下一组图像token,世界模型不只考虑过去的图像token,还参照文本和动作token的上下文资讯,运用这个方法所生成的图像token,不仅会在视觉上连贯,而且也和预期的文本和动作指引保持一致。
接着,视频解码器这个阶段被启动,主要功能是将这些图像token转换回像素空间,视频解码器作为一个视频扩散模型,其强大之处在于可保证生成的视频,具语义意义、视觉准确且时间序一致性。GAIA-1的世界模型经过64个Nvidia A100 GPU上长达15天的训练,包含了高达65亿个参数,而视频解码器则在32个Nvidia A100 GPU上训练15天,总共拥有26亿个参数。
经过数个月的发展,GAIA-1从原本的10亿参数,增长到超过90亿参数的模型,整个训练数据集涵盖2019年到2023年间,在英国伦敦所收集的4,700小时专用驾驶数据。参数规模的扩展,使得GAIA-1能力大幅提升,无论是视频生成、事件预测能力都更好,也更能理解基于文本和动作的控制。
GAIA-1的主要价值,便是在自动驾驶中引入生成式世界模型的概念,通过集成视频、文本和动作输入,展示多模态学习在创建多样化驾驶场景的潜力,而且通过集成世界模型与驾驶模型,使驾驶模型能够更好地理解自己的决策,并且泛化至真实世界的场景中,进而提升自动驾驶汽车系统的能力。

发表回复