2024-01-05 研究表明：马斯克纯视觉方案，确实可以让自动驾驶超越人类！

苏黎世大学在基于视觉的自主系统方面的突破表明，通过使用先进的神经网络和机器学习算法，基于视觉的自主系统确实可以超越人类。

大部分车企自动辅助驾驶的解决方案，通常是使用雷达与摄像头相结合，让感知更精准。不过，这种方案存在很多缺点。工程师在工作中发现，在摄像头的基础上添加雷达等额外的传感器，反而会影响最后的分析速率和结果，冗长的程序代码也会让行车系统表现得不够“聪明”。

此外，搭载激光雷达的车越来越多，它们彼此之间会互相干扰，影响探测精度;雷达的观测值会不定时地发生一些跳变，带来一定误差;除此之外，当摄像头和激光雷达传回的信息冲突时，车机又该选择相信谁呢?“如果雷达与摄像头分析的信息相互矛盾，智能驾驶系统反而会难以抉择。不如只选其一，做到极致。

”马斯克坚持摆脱惯性思维，从第一性原理出发:道路是为生物神经网络和眼睛设计的，人没有类似于雷达的器官，只靠眼睛依然能够识别道路上的交通情况，那么车也可以做到。前特斯拉AI高级总监Andrej说:“希望能够打造一个类似动物视觉皮层的神经网络连接，模拟大脑信息输入和输出的过程。

就像光线进入到视网膜当中，我们希望通过摄像头来模拟这个过程。”可见，特斯拉正在致力于研发一个纯视觉的自动驾驶系统，通过模拟人眼和大脑的结构与功能，实现比人类还要高的驾驶性能。

事实上，早在2020年，特斯拉就宣布抛弃雷达，全面拥抱基于摄像头的自动驾驶系统。当时业内还有很多质疑的声音，但随着算法与算力的进一步提升，纯视觉自动驾驶方案正在快速实现突破，苏黎世大学的研究只是进一步证实了这点。

研究显示，通过模仿人眼视网膜以及大脑视觉皮层结构，构建出一个庞大的卷积神经网络，不仅可以在图像分类、目标检测等传统视觉任务中，达到乃至超过人类表现水平，并可以端到端地将图像输入转换为驾驶决策输出，完成整个自动驾驶感知与决策过程。

也就是说，这是一个从输入到输出都高度模仿生物视觉系统的人工智能方案。输入端模拟眼睛图像采集，中间通过类似视觉皮层结构的卷积神经网络进行特征提取与理解，最后输出端直接产生驾驶决策，无需传统的多传感器融合或者规则引擎。

研究还表明，这种纯视觉系统可以进行快速和精确的交通环境感知，实现包括目标检测、跟踪、运动估计等功能，而感知的速度与质量甚至超过人类水平。在驾驶模拟和道路测试中，它展现出强大且稳定的自动驾驶能力。

更重要的是，这种理解交通环境和决策驾驶的整套过程完全基于高效的神经网络深度学习算法，取代了过去低效繁琐的手工特征工程和规则集设计，是完全可复制、可扩展和可持续的。这意味着，利用更强大的计算能力和数据集，这种系统的驾驶性能会继续以几何级数增加。

虽然距离真正的商业化和繁忙街道的应用还有一定距离，但纯视觉自动驾驶系统显然是最具前景的方案。它高度仿生，同时也是高效的深度学习解决方案，必将成为这一领域发展的主流和趋势。特斯拉顺势而为，正在全力推进这一战略，相信也将会率先获得成功。

而苏黎世大学的研究，正是在这一过程中迸发出的关键性突破技术。无论从系统设计思路还是实际效果而言，它都展现出令人惊喜的能力，证实了纯视觉系统可以让自动驾驶超越人类的巨大潜力。相信在不远的未来，这样的系统必将改变交通和出行的面貌，造福人类社会。

Categories