0
| 本文作者: 鄭佳美 | 2025-12-26 12:15 |
在自動駕駛研究不斷向世界模型演進的過程中,一個長期被回避卻無法忽視的問題正逐漸凸顯:模型在論文中的性能提升,是否真的對應(yīng)著系統(tǒng)在真實駕駛環(huán)境中的魯棒性提升?
過去數(shù)年中,大量工作通過更復(fù)雜的生成結(jié)構(gòu)、更精細的預(yù)測目標和更先進的訓(xùn)練策略,使世界模型在視覺預(yù)測與場景生成指標上取得了顯著進展。然而,在工程實踐中,這些看起來 reminder 的模型,往往并不能穩(wěn)定支撐長期決策、復(fù)雜交互和安全約束并存的真實駕駛系統(tǒng)。
問題并不完全出在模型本身,而更深層地指向了實驗范式與評測目標的錯位:我們究竟在通過實驗驗證什么?是模型是否預(yù)測得更像,還是系統(tǒng)是否運行得更穩(wěn)?在缺乏統(tǒng)一任務(wù)定義、系統(tǒng)級閉環(huán)驗證和可信評測標準的前提下,世界模型的能力邊界正在被系統(tǒng)性高估。
正是在這一背景下,北京交通大學(xué)研究團隊聯(lián)合小米汽車自動駕駛與具身智能算法團隊,在論文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中,對自動駕駛世界模型進行了不同于傳統(tǒng)綜述的系統(tǒng)性審視。
這項工作并未提出新的模型或算法,而是基于大量已有實驗結(jié)果,重構(gòu)了一套以魯棒性為核心變量的分析框架,從生成評測、結(jié)構(gòu)化空間建模、規(guī)劃驗證到系統(tǒng)級閉環(huán)行為,逐層揭示了當(dāng)前世界模型研究中被忽視的關(guān)鍵斷層,并明確指出哪些結(jié)論是被實驗真正支持的,哪些則仍停留在指標幻覺之中。

論文地址:https://doi.org/10.36227/techrxiv.176523308.84756413/v1
如果將這篇論文視作一次嚴格意義上的實驗研究,那么它的實驗結(jié)果并不是某個模型在某個指標上的提升,而是一組關(guān)于整個自動駕駛世界模型研究方向有效性與局限性的實證性結(jié)論。這些結(jié)論來自對大量已有實驗結(jié)果的系統(tǒng)重組,而非主觀推斷。

首先,在最基礎(chǔ)的層面,論文通過對近年來生成式世界模型實驗結(jié)果的系統(tǒng)梳理,確認了一個表面上樂觀、但內(nèi)在矛盾的事實:自動駕駛世界模型在視覺預(yù)測、場景生成等任務(wù)上的定量指標確實在持續(xù)進步,但這種進步并未線性轉(zhuǎn)化為對駕駛安全或系統(tǒng)穩(wěn)定性的可靠提升。
具體來說,圖像與視頻預(yù)測類實驗顯示,多數(shù)方法在諸如 FID、FVD 這類統(tǒng)計分布相似性指標上已經(jīng)達到了相當(dāng)成熟的水平。一些模型生成的未來幀在視覺質(zhì)量上甚至難以與真實數(shù)據(jù)區(qū)分。這一實驗現(xiàn)象在不同論文、不同數(shù)據(jù)集上反復(fù)出現(xiàn),因此并非偶然。然而,當(dāng)這些結(jié)果被進一步放置到時間序列維度進行審視時,問題開始顯現(xiàn)。
實驗結(jié)果顯示,許多模型在短期預(yù)測窗口內(nèi)表現(xiàn)穩(wěn)定,但隨著預(yù)測時間延長,場景結(jié)構(gòu)、目標位置和運動軌跡逐漸偏離合理范圍。這種偏離往往不會在傳統(tǒng)生成指標中被顯式懲罰,卻在真實駕駛中對應(yīng)著潛在的碰撞風(fēng)險、規(guī)則違反或不可恢復(fù)的系統(tǒng)失效。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
這一實驗現(xiàn)象本身構(gòu)成了論文的第一個關(guān)鍵結(jié)論:當(dāng)前主流生成評測體系無法充分刻畫自動駕駛所需的魯棒性維度。

其次,當(dāng)論文將分析重心轉(zhuǎn)向點云與 Occupancy 表征相關(guān)實驗結(jié)果時,出現(xiàn)了明顯不同的趨勢?;谌S或四維空間表征的世界模型,在多個實驗設(shè)置中表現(xiàn)出更強的一致性和穩(wěn)定性。

無論是在空間重建精度,還是在為規(guī)劃模塊提供狀態(tài)輸入時,這類方法在多項公開基準上都展現(xiàn)出相對更可靠的性能。這種優(yōu)勢并非來源于單一指標的極致優(yōu)化,而是體現(xiàn)在多指標、多任務(wù)條件下的整體穩(wěn)定性。

通過對比這些實驗結(jié)果,論文實際上確認了第二個重要事實:魯棒性更容易從結(jié)構(gòu)化空間建模中涌現(xiàn),而非從純粹的感知級生成中涌現(xiàn)。

在規(guī)劃相關(guān)實驗中,論文進一步通過區(qū)分開環(huán)與閉環(huán)評測,揭示了世界模型能力評估中的一個長期混淆點。在開環(huán)規(guī)劃實驗中,即僅評估模型在給定歷史條件下預(yù)測未來狀態(tài)的能力時,多項實驗結(jié)果顯示,世界模型在軌跡預(yù)測質(zhì)量、環(huán)境理解一致性等方面已經(jīng)接近甚至匹配部分強端到端系統(tǒng)。這說明,從世界演化建模的角度看,世界模型已經(jīng)具備相當(dāng)程度的表達能力。

然而,當(dāng)這些模型被嵌入閉環(huán)系統(tǒng),在真實的決策鏈條中承擔(dān)連續(xù)規(guī)劃與控制職責(zé)時,它的能力邊界便開始暴露。
系統(tǒng)不同于更為理想化的開環(huán)評測,它引入了反饋機制,模型的輸出會直接影響環(huán)境狀態(tài),并作為新的輸入重新回到系統(tǒng)之中,小幅的感知與預(yù)測偏差會在這種反饋中逐步累積與放大。
例如在 Bench2Drive 等閉環(huán)測評中,只有依賴專家信息的 Think2Drive 能夠?qū)⒕C合駕駛得分提升至 92 分左右,而不使用專家信息的 Raw2Drive 得分僅為 71 分,多數(shù)使用世界模型方法的駕駛得分集中在 40-60 分之間,并伴隨成功率與碰撞率的顯著差異。
也正因如此,可以觀察到一種穩(wěn)定存在的能力斷層:在開環(huán)指標上表現(xiàn)優(yōu)秀的模型,并不必然在閉環(huán)仿真乃至真實系統(tǒng)中展現(xiàn)出同等水平的安全性與穩(wěn)定性。
由此可見,開環(huán)和閉環(huán)系統(tǒng)并非簡單的替代關(guān)系,而應(yīng)被視作是互補的兩個層級,即開環(huán)主要用于驗證表示與預(yù)測的認知正確性,而閉環(huán)則用于檢驗長期交互中的行為穩(wěn)健性。
或許未來的關(guān)鍵方向,不僅在于繼續(xù)提升開環(huán)的預(yù)測精度,更在于能夠構(gòu)建一個能夠有效銜接開環(huán)和閉環(huán)系統(tǒng)的訓(xùn)練體系,進而真正支撐系統(tǒng)及魯棒性自動駕駛的實現(xiàn)。雷峰網(wǎng)
由此,論文在實驗層面確認了第三個關(guān)鍵結(jié)論:開環(huán)性能并不能可靠預(yù)測閉環(huán)系統(tǒng)的安全性與穩(wěn)定性。

在更高層級的實驗歸納中,論文還總結(jié)了一系列系統(tǒng)性證據(jù),表明世界模型在某些條件下確實能夠為自動駕駛系統(tǒng)帶來實質(zhì)性收益。這些證據(jù)并不集中于單一指標,而體現(xiàn)在可控生成、零樣本泛化、跨任務(wù)遷移以及人類主觀評估等多個實驗維度上。
這些實驗結(jié)果共同指向一個結(jié)論:當(dāng)世界模型被用于增強系統(tǒng)整體能力,而非單一任務(wù)性能時,其價值才開始顯現(xiàn)。

理解這篇論文的實驗過程,關(guān)鍵在于認識到它采用的并非傳統(tǒng)意義上的“訓(xùn)練—測試”實驗范式,而是一種跨研究工作的實驗重構(gòu)方法。作者并沒有新增模型或數(shù)據(jù),而是通過重新組織已有實驗結(jié)果,構(gòu)建了一套用于檢驗研究方向本身的實驗邏輯。
在實驗的第一階段,作者關(guān)注的并不是模型能力,而是評測工具本身。他們系統(tǒng)梳理了自動駕駛世界模型領(lǐng)域常用的數(shù)據(jù)集、仿真平臺與評價指標,并分析這些工具在多大程度上能夠反映真實駕駛需求。通過對比不同論文的實驗設(shè)置,作者發(fā)現(xiàn):即使研究目標相似,不同工作之間的評測方式也往往高度異質(zhì)。這種異質(zhì)性使得實驗結(jié)果難以直接比較,也使得“性能提升”這一結(jié)論本身變得不穩(wěn)定。
這一階段的實驗分析實際上是在對整個領(lǐng)域的實驗基礎(chǔ)設(shè)施進行審視,其隱含問題是:如果評測方式本身存在系統(tǒng)性盲區(qū),那么基于這些評測得出的結(jié)論是否可靠?
在第二階段,作者將實驗分析的重點從評測工具轉(zhuǎn)向系統(tǒng)行為。他們不再試圖回答“哪個模型更好”,而是試圖回答“哪些實驗結(jié)果在系統(tǒng)層面仍然成立”。為此,論文系統(tǒng)整理了涉及可控生成、零樣本泛化和跨任務(wù)遷移的實驗工作。這些實驗往往難以嚴格控制變量,但正因如此,更接近真實工程環(huán)境。
通過比較這些實驗結(jié)果,作者發(fā)現(xiàn):某些在單一任務(wù)中并不占優(yōu)的方法,在系統(tǒng)級實驗中反而表現(xiàn)出更高的穩(wěn)定性;而一些在生成指標上表現(xiàn)突出的模型,在系統(tǒng)集成后卻難以維持性能。這種反差本身構(gòu)成了一種實驗發(fā)現(xiàn),迫使研究者重新思考性能評估的目標。
至于第三階段,論文并未給出完整實驗結(jié)果,而是明確指出當(dāng)前實驗體系的缺失。這并非實驗不足,而是作者基于前兩階段實驗分析后得出的理性判斷:在缺乏統(tǒng)一任務(wù)定義、可解釋性評測和可信閉環(huán)仿真之前,任何關(guān)于“開放世界魯棒性”的結(jié)論都缺乏實驗支撐。

從實驗意義上看,這篇論文的價值并不在于它總結(jié)了多少工作,而在于它通過實驗性分析改變了“什么值得被實驗驗證”的標準。
首先,它在實驗層面否定了一種隱含但普遍存在的假設(shè),即認為只要生成或預(yù)測性能不斷提升,系統(tǒng)魯棒性就會自然改善。通過對大量實驗結(jié)果的系統(tǒng)分析,論文清楚地表明,這種假設(shè)在自動駕駛場景下并不成立。魯棒性并不會自動從局部性能優(yōu)化中涌現(xiàn)。
其次,這篇論文通過實驗拆解,強調(diào)了系統(tǒng)級評測的重要性。它表明,真正有意義的實驗不應(yīng)只關(guān)注模型在孤立任務(wù)中的表現(xiàn),而應(yīng)關(guān)注模型在復(fù)雜系統(tǒng)中的行為。這一觀點對研究范式具有直接約束力:它要求研究者在設(shè)計實驗時,必須明確自己所驗證的魯棒性層級。
更深層的意義在于,這篇論文將自動駕駛世界模型的研究問題,從“模型是否足夠強”轉(zhuǎn)變?yōu)椤皩嶒炇欠褡銐蛘鎸崱?。這意味著,未來的關(guān)鍵突破不一定來自更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),而可能來自更合理的實驗設(shè)計與評測體系。
賈飛陽為本文第一作者,現(xiàn)為北京交通大學(xué)計算機科學(xué)與技術(shù)專業(yè)博士研究生,研究方向包括自動駕駛?cè)S目標檢測、端到端自動駕駛以及自動駕駛世界模型等。
賈彩燕為本文通訊作者之一,現(xiàn)任北京交通大學(xué)計算機與信息技術(shù)學(xué)院教授,并擔(dān)任交通數(shù)據(jù)分析與挖掘北京市重點實驗室副主任。其主要研究方向包括機器學(xué)習(xí)模型(尤其是圖神經(jīng)網(wǎng)絡(luò))、虛假信息檢測、大模型生成內(nèi)容檢測與可信計算、推薦算法,以及自動駕駛場景下的多模態(tài)融合目標檢測與大模型泛化研究等。
近年來已在國內(nèi)外學(xué)術(shù)期刊和國際會議上發(fā)表論文80余篇,主持國家自然科學(xué)基金面上項目兩項、國家自然科學(xué)基金青年基金項目一項,并主持國家重點研發(fā)計劃“新一代人工智能”專項子課題一項。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。