2023-10-10 90亿参数的生成式AI模型GAIA-1，辅助自动驾驶模型“看见未来”

2023-10-11

–

admin

–

英国AI创业公司Wayve披露了GAIA-1生成式模型的最新进展，在今年6月的时候，Wayve创建了将生成式模型用于自动驾驶的慨念性验证，而在这几个月，Wayve持续扩展GAIA-1，使其拥有90亿个参数，能够生成逼真的驾驶场景视频，呈现自动驾驶在各种场景的反应，并且更好的预测未来事件。

GAIA-1是一个可以利用不同类型输入数据，包括视频、文本和动作，创建逼真驾驶场景视频的世界模型（World Model）。GAIA-1可学习环境以及未来动态表示，向自动驾驶模型提供一个结构化的环境理解，协助驾驶模型做出明智的决策。

官方提到，预测未来事件是自动驾驶系统一个基本且关键的能力，对未来的准确预测，可以让自动驾驶车辆预先知道即将发生的事件，并且规划其相对应的动作，增加上路时的安全性和效率。因此将世界模型集成到驾驶模型中，有助于自动驾驶系统更好地理解人类决策，并具备应对真实世界各种场景的能力。

GAIA-1可对自动驾驶车辆的行为和场景特征进行细致的控制，且由于GAIA-1多模态的性质，能够从多种提示模式和组合中生成视频。首先，GAIA-1会先运用专门的编码器，将视频或文本等各种形式的输入，编码成一个共享的表示形式，进而在模型中实现统一的时序对齐和上下文理解，这种编码方法，让模型能够更好地集成和理解不同类型的输入。

而GAIA-1的核心也就是世界模型，是一个自回归Transformer，能够预测串行中下一组图像token，世界模型不只考虑过去的图像token，还参照文本和动作token的上下文资讯，运用这个方法所生成的图像token，不仅会在视觉上连贯，而且也和预期的文本和动作指引保持一致。

接着，视频解码器这个阶段被启动，主要功能是将这些图像token转换回像素空间，视频解码器作为一个视频扩散模型，其强大之处在于可保证生成的视频，具语义意义、视觉准确且时间序一致性。GAIA-1的世界模型经过64个Nvidia A100 GPU上长达15天的训练，包含了高达65亿个参数，而视频解码器则在32个Nvidia A100 GPU上训练15天，总共拥有26亿个参数。

经过数个月的发展，GAIA-1从原本的10亿参数，增长到超过90亿参数的模型，整个训练数据集涵盖2019年到2023年间，在英国伦敦所收集的4,700小时专用驾驶数据。参数规模的扩展，使得GAIA-1能力大幅提升，无论是视频生成、事件预测能力都更好，也更能理解基于文本和动作的控制。

GAIA-1的主要价值，便是在自动驾驶中引入生成式世界模型的概念，通过集成视频、文本和动作输入，展示多模态学习在创建多样化驾驶场景的潜力，而且通过集成世界模型与驾驶模型，使驾驶模型能够更好地理解自己的决策，并且泛化至真实世界的场景中，进而提升自动驾驶汽车系统的能力。

发表回复取消回复

往期评论

2023-10-10 90亿参数的生成式AI模型GAIA-1，辅助自动驾驶模型“看见未来”

发表回复取消回复

Categories

Archives

2023-10-10 90亿参数的生成式AI模型GAIA-1，辅助自动驾驶模型“看见未来”

发表回复 取消回复

Categories

Archives

发表回复取消回复