业界
小马智行发布PonyWorld世界模型2.0:可自主进化的物理AI引擎
4月10日,小马智行正式发布其在物理AI领域的最新技术成果——PonyWorld世界模型2.0。
这是自动驾驶核心训练体系的一次重大升级。与1.0相比,2.0最本质的变化在于世界模型具备了自我诊断与定向进化的能力:AI不再依赖工程师花大量精力判断模型哪里有问题、需要采集什么样的数据来迭代,而是能够自主诊断自身短板,自我定向进化,并主动“指导”人类团队的研发和数据采集工作。这一变化标志着小马智行的自动驾驶技术进入全新的研发训练范式。
目前,世界模型2.0已经应用在小马智行L4级无人驾驶车队和研发体系中,来确保车辆不断提升安全性、舒适性和通行效率,从而带动更快的扩张速度和商业变现能力。当无人驾驶车队规模从百辆跃升至千辆乃至万辆,要确保安全性等各项指标整体上稳步提升,自动驾驶技术亦需要不断迭代进化,世界模型2.0是目前技术的最优解。PonyWorld不局限于优化自动驾驶场景,也具有探索其他物理AI场景和应用的可能。
作为物理AI的第一个成熟商业化落地的应用,L4级自动驾驶和Robotaxi对安全性的要求极高,只有远超人类的安全性,才能大规模上路运营并被公众接受。正因如此,小马智行认为自动驾驶模型的训练目标不应是“像人开得一样”,而是“比人开得好”,这意味着一种范式的变化——从模仿学习到强化学习。小马智行从2020年起,通过数年时间逐步打造并完善了一套贯穿云端与车端的完整体系,让AI通过强化学习增强模型开车能力,使AI可以在“虚拟驾校”中反复开车、训练车端模型的驾驶能力,这也就是“世界模型”。世界模型不是简单生成虚拟数据的仿真环境,而是一套完整的强化学习训练系统以及开发范式,帮助AI提升驾驶中最重要的博弈交互能力。
只有世界模型的精度足够高,AI司机才可以在这个环境中取得正向训练结果,否则AI模型的驾驶能力可能越学越错,甚至还不如引入海量人类驾驶数据的模仿学习。通过世界模型,小马智行提升自动驾驶能力的过程,本质上也是提升世界模型精度的过程。
而随着AI司机的能力尤其是安全性已经远超人类,小马智行世界模型的精度也达到了很高的高度,如何进一步高效率提升世界模型精度的迭代效率便成为核心目标。小马智行为此打造了一套更进化的世界模型系统——由AI驱动,可以主动找到自己精度不足的场景,主动寻求人类帮助去提升——也就是PonyWolrd世界模型2.0。
PonyWorld 2.0结合小马智行车端模型的Intention语义层,实现了对每一次驾驶决策的自动化回溯与归因分析。系统能够自动区分问题根源,并将诊断结果精准反馈至模型训练流程。
基于自我诊断结果,PonyWorld 2.0能够自动识别世界模型精度不足的具体场景,并主动生成定向数据采集任务。例如,系统可自动推送指令:“请于特定时段在指定路口重点采集逆光条件下非机动车与行人混行场景数据。”研发与测试团队由此围绕世界模型的“精度需求”高效协作,实现AI引导下的定向数据采集与模型迭代。
PonyWorld 2.0可根据车端模型的薄弱环节,在世界模型中自动生成针对性训练场景,大幅减少无效训练数据的存储与计算开销,显著提升每一轮迭代的效率和效果。
小马智行强调,世界模型精度的持续提升依赖于一个自我强化的精度飞轮:大规模L4无人车队商业运营 → 产生真实世界高价值数据 → 世界模型提升精度 → 车端模型持续增强 → 支撑更大规模L4部署 → 产生更多高精度数据
当AI驾驶能力已远超人类司机水平后,普通人类驾驶数据对世界模型精度的提升价值趋近于零。只有L4级全无人车队在真实交通环境中独立运营所产生的数据——包含AI与其他交通参与者之间独特的交互模式——才能持续推动世界模型进化。小马智行已积累千万公里级多城市复杂场景的纯无人驾驶数据,覆盖城区、高速、园区、停车场等多元场景,形成了难以的结构性优势。
从更广义的视角看,小马智行此次发布的世界模型2.0,是自动驾驶研发范式的一次深层转变。
在行业发展早期阶段,AI能力弱于人或者与人接近,所以研发高度依赖人类工程师的经验——由人来设计规则、标注数据、判断训练重点。这种由人类驱动的研发模式,效率天花板受限于团队规模和工程师的认知带宽。
PonyWorld世界模型2.0所展现的方向是,当AI在一项任务的水平远超人类水平后,人类不一定能很好地评估其能力和继续帮助AI进化,AI系统开始接管自身进化过程中越来越多的环节,甚至整个公司的研发环节都主要由AI驱动。人类工程师的角色从“驾校教练”逐渐转变为“定向数据采集员” ,成为AI大脑自我进化的物理执行者。这让研发节奏不再依赖人类经验判断,而是由AI系统根据自身进化需求自动生成,也显著的提高了世界模型的持续迭代效率。为后续物理AI的更多应用场景提供进化能力的基础。