文 | HiEV大蒜粒车研所,作者 | 肖恩,编辑 | 德新
两年一度的计算机视觉顶会ICCV 10月在美国檀香山闭幕,今年的最佳论文颁给了卡内基梅隆大学团队的BrickGPT,一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机构模型,这个成果展示了生成式AI在物理世界应用的潜力。
对自动驾驶从业者而言,这次会议上还有一个更令人瞩目的消息——特斯拉AI部门副总裁Ashok Elluswamy在“基础模型蒸馏与自动驾驶”论坛中,分享了FSD的最新进展。
自2022年在AI Day上分享了占用格栅网络之后,特斯拉几乎没有在任何公开场合透露过FSD的内幕,特别是进入到端到端架构之后,FSD的表现进步神速,但是特斯拉对背后的技术始终讳莫如深。
Elluswamy此次分享给出了关键信息:系统以视频为主的多模态输入进入端到端模型,直接输出控制指令,感知 - 预测 - 决策 - 控制在同一神经网络中耦合回传;这一整体框架与近期热议的“世界模型”思想高度相似。同时,在仿真侧,世界模型被用于生成对抗性场景,以实现闭环评测与迭代。
在此之前,围绕VLA与世界模型的路线分歧已争论不休,特斯拉的最新表态无疑又添一把火。无论最终范式如何定型,能够“想象未来”的世界模型,几乎注定将成为当下自动驾驶技术演进的关键支点。
一、特斯拉FSD:端到端基础模型与世界模型的融合Elluswamy以“构建未来的自动化”为主题,首先阐述了FSD最近的一些进展,包括Robotaxi的上线以及实现了从工厂到交付中心的全程自动驾驶。
随后,他介绍了特斯拉的端到端架构,多摄像头图像、导航地图、车辆运动信息和音频信号等输入到一个端到端的神经网络内,这个模型经过海量的数据训练,支持长序列的输入,最后直接输出控制信号。
这部分和国内的技术方向基本一致,唯一的区别是增加了音频信号的输入。
为什么要使用端到端的架构,他给出了几点理由:
人类的驾驶行为很难用函数去描述,规则算法很容易顾此失彼;
传统的感知 - 规划 - 控制的结构会有大量的信息损失;
端到端的扩展性更强,更适合解决长尾问题;
时延稳定;
不需要依赖人类的经验,而是依靠算力和数据;
如果要构建一套出色的端到端系统,会遇到什么困难?Elluswamy提到了三大难题:
维度灾难FSD需要处理高帧率、高分辨率、长时上下文的多模态输入:在以“5×5 像素块”为输入token的假设下,仅视觉就相当于7个摄像头×36 FPS×500万像素×30秒;同时还要结合未来数英里的导航地图与路径、100 Hz的速度/IMU/里程计等运动学数据,以及48kHz的音频数据。综合起来约有20亿个token,如果直接输入到Transformer,token数量会在时间窗内爆炸,无法满足车端的时延要求。
特斯拉的做法是利用海量的车队数据,从中总结出“关键token”,通过稀疏化和聚合保留最有用的信息,可在不显著影响精度的情况下大幅降低推理的时延。
同时,特斯拉利用数据引擎从中抽取高质量的数据样本用于训练,让系统能在各种极端或罕见场景中实现出色的泛化能力。
可解释性与安全验证为了避免“黑箱”AI,特斯拉在车端模型中加入了可解释的中间输出,既有全景分割和3D占据网络,也有基于三维高斯渲染的场景重建和语言化输出,从而辅助工程师审视推理过程。

图片来源:特斯拉
其中Elluswamy重点介绍了特斯拉的生成式高斯喷溅(Generative Gaussian Splatting),和传统的高斯喷溅相比,特斯拉GGS具有更强的泛化能力,生成场景仅需要220毫秒,无需初始化,可建模动态物体,并能与端到端AI模型联合训练。
闭环评测与仿真最后、也是最具挑战性的一步,是模型评估。
即使拥有高质量的数据集,开环预测的损失函数下降,也未必意味着在真实世界中能有良好表现。评估体系必须多样化且覆盖不同模式,以支持快速的开发迭代。
为此,特斯拉开发了一个神经世界模拟器(Neural World Simulator)。该模拟器基于特斯拉自建的海量数据集进行训练,但与常规模型不同,它不是预测动作,而是根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环,做真实效果的评估。

图片来源:蔚来
蔚来在云端开发了NSim作为生成式神经模拟器,NWM基于真实视频进行三维重建后,进入NSim进行可编辑的场景分解、深度与法向量检查、视角任意切换,并把NWM的推演轨迹与NSim的仿真结果对齐比对,从“唯一真实轨迹的回放评测”升级为“海量平行世界的对照评测”,以此形成数据闭环和针对性对抗场景的生成。再结合蔚来的“群体智能”源源不断的收集真实世界中的长尾场景,形成双轮驱动,加速模型迭代。
NWM的首个版本已于今年6月推送,在主动安全方面新增3大功能:
驾驶员失能处置
在高速/快速路场景,监测到驾驶员无意识后,车辆缓慢减速并变道至最右侧应急车道,开启双闪 SOS主动介入,由“车道内安全停车”升级为“自主安全靠边”,显著降低在车道内停车带来的追尾风险。
追尾预防与保护(首次将大模型用于被追尾场景)
在0–150km/h 范围内对后向潜在碰撞进行警示;当碰撞不可避免时,系统在500ms内完成从感知决策到制动建压,最大可将被动前移距离降低93%,减少二次事故风险。
通用障碍物预警增强
在转弯、变道靠边等动作中,对抬杆/护墙/隔离栅/路沿等多类型障碍均可响应,减少低速靠边剐蹭、车库盘楼剐蹭等常见事故。
高速领航新增了ETC场景智能通行和“智能驾享模式”(行车风格更稳健,跟车/变道更平顺、更强的防御性驾驶,必要时可自主闪灯/鸣笛提醒周边车辆)。
城区点到点领航新增2大功能:
车位收藏:停车后可收藏画线车位,下次出发或驶入时实现无间断全域领航;若被占用,系统自动寻找临近空位临时泊入。
停车场自主寻路:无需地图/导航/记忆路线,可听懂自然语义指令、识别标识与文字,实现跨区/跨楼层寻找出口或楼栋门口。这是NWM认知—理解—推理能力在复杂微结构空间里的标志性落地。
智能泊车更新为全模型化泊车辅助,360°全向车位识别、车位显示范围×4,可在任意位置发起泊入指令并长距离漫游泊车,在不同车位间自动腾挪切换;只要不被墙体完全阻隔,就能实现“可见即可选、可选即可泊”。
NWM的成功量产以及对智驾功能的全面升级,体现了世界模型在车端巨大的潜力。
华为WEWA 架构在围绕世界模型的技术路线争论中,作为国内智驾领域的”带头大哥“,华为给出的答案是“WA(World‑Action)”——一种强调直接感知到控制的世界模型路线。

图片来源:商汤绝影
与蔚来的车端世界模型不同,绝影的“开悟”主要用于生成高保真仿真数据。开悟可在仿真场景中生成11个摄像头视角的时空一致视频,时长可达150秒,分辨率达到专业级1080p。用户可以在平台上自由编辑场景的道路布局、参与体、天气和光照等元素,一键生成风险极高的场景或多样化组合。当前,绝影正与上汽旗下的智己汽车合作,利用这个平台构建端到端数据工厂,针对加塞、追尾等高价值场景批量生成训练数据,并计划推出覆盖数百万合成片段的场景库。
在数据规模和效率方面,WorldSim‑Drive数据集包含超过100万段生成式驾驶片段,覆盖50多种天气与光照条件、200类交通标识和300种道路连接场景,是迄今最大的自动驾驶生成数据集之一。这些合成数据保持多视角时空一致性,时长可达数分钟,画质与真实数据一致。开悟的日生产能力仅用一块A100 GPU就相当于10辆真实车辆或100台道路测试车辆的数据采集能力。目前,绝影已有20%的训练数据来自世界模型生成。
商汤绝影通过“开悟”世界模型搭建了数字世界到真实世界的桥梁:一方面在仿真平台上支持文本或图像提示,快速生成特定场景;另一方面与车企合作打造闭环数据工厂,用合成数据弥补长尾场景不足。
开悟的成功展示了世界模型在仿真数据生成中的力量,不仅降低数据采集成本,还能针对高风险场景进行定制化训练,为自动驾驶提供可靠、安全的测试和训练环境。
四、世界模型 VS VLA:自动驾驶终局路线之争随着大模型时代的到来,以语言大模型LLM为核心的视觉-语言-行动(VLA)模型开始在自动驾驶领域崭露头角,理想、小米和元戎都是坚定的VLA路线拥护者,在今年7月理想已经开始率先推送量产的VLA版本。
VLA倡导将视觉输入、自然语言理解与行动生成融为一个大模型,通过语言增强情境理解和推理能力。和世界模型相比存在显著差异:
结构与表示
世界模型采用潜在时空表示,核心是一个可以随时间演化的物理世界模拟器。它通过自监督压缩器将感知数据编码为潜在状态,并依靠生成式预测模块在该状态上演化未来
VLA模型则以 视觉—语言—行动统一架构为特征。它引入大型语言模型为大脑,将高维视觉感知映射为自然语言表述,并利用语言链式推理来生成决策或动作指令。VLA模型能够在车辆控制前进行语言层面的推理和解释,使系统兼具快速反射和慢速思考的双系统。
推理路径
世界模型的推理依赖动作条件的内在仿真:模型将候选动作注入潜在世界,生成不同未来场景,再用代价函数或风险评价选择最佳动作。这种推理方式像是在脑海中做实验,因此非常适合物理世界中的对抗和长期评估。
VLA的推理则依赖语言链路:VLA利用大型语言模型的常识和逻辑推理能力,通过自然语言对观察到的场景进行解释、制定规则,然后输出控制信号。这赋予系统更强的可解释性,但其物理推理通常依赖外部模块。。
能力与应用
世界模型着重于长时域、多主体和物理一致性。它可以生成复杂环境的长期演化,捕捉稀有事件、他车互动和路况变化,并在潜在空间中形成真实动作反馈。由于这种闭环特性,世界模型成为评估和优化自动驾驶策略的核心,如特斯拉的神经世界模拟器通过闭环仿真生成对抗场景、进行强化学习训练。
VLA模型更强调语义推理与高层交互。它通过语言接口理解自然语言指令、交通规则和场景描述,具备链式思考能力。VLA可以利用互联网规模的语言数据注入常识,支持复杂推理和解释。
“世界模型VS VLA”的路线之争仍将持续。世界模型更贴近自动驾驶的物理本质,VLA则凭借通识能力在长尾场景上具优势。最终的产业答案,很可能来自两者的互补与融合。
最近AI领域的先驱李飞飞发表长文讨论空间智能,她认为今天的大语言模型擅长抽象知识处理,但在物理世界上仍像“黑暗中的文字匠”,缺乏对三维环境、因果与动力学的扎实理解,难以安全地在现实世界中行动。通过想象、推理、创造与互动来理解世界,而非仅仅依赖语言描述,这正是空间智能的力量。
实现空间智能的答案是“世界模型”,能够在语义、物理、几何与动态等多重复杂世界(无论虚拟还是现实)中进行理解、推理、生成与交互。
她的观点再次将世界模型推向AI领域的前沿,无论最终实现自动驾驶的技术路径是什么,在通往终点的路上,世界模型一定会留下浓墨重彩的一笔。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516