近日,AAAI 2026公布了論文錄用結(jié)果,該會(huì)議是人工智能領(lǐng)域的國(guó)際頂級(jí)會(huì)議之一。據(jù)介紹,AAAI 2026共收到23,680份論文投稿,其中4,167篇論文被錄用,錄用率僅為17.6%。由小鵬汽車和北京大學(xué)計(jì)算機(jī)學(xué)院多媒體信息處理全國(guó)重點(diǎn)實(shí)驗(yàn)室聯(lián)合完成的論文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》成功入選。
這一論文有四大創(chuàng)新:
1、提出了FastDriveVLA,一種新穎的基于重建的Token剪枝框架,它不同于現(xiàn)有的基于注意力的和基于相似性的剪枝方法。
2、設(shè)計(jì)了ReconPruner,這是一種通過(guò)MAE風(fēng)格像素重建訓(xùn)練的、即插即用的剪枝器,并引入了一種新穎的對(duì)抗性前景-背景重建策略,以增強(qiáng)其識(shí)別有價(jià)值Token的能力。
3、構(gòu)建了nuScenes-FG數(shù)據(jù)集,包含針對(duì)自動(dòng)駕駛場(chǎng)景的前景分割標(biāo)注,總計(jì)包含24.1萬(wàn)個(gè)圖像-掩碼對(duì)。
4、這一方法專為端到端自動(dòng)駕駛VLA模型定制,并在nuScenes開(kāi)環(huán)規(guī)劃基準(zhǔn)測(cè)試中實(shí)現(xiàn)了SOTA性能(即當(dāng)前最優(yōu)的效果)。
當(dāng)然,這篇論文最大的貢獻(xiàn)在于第一項(xiàng)創(chuàng)新,它提出了一種專門(mén)為端到端自動(dòng)駕駛VLA模型定制的、高效的視覺(jué)Token剪枝框架——FastDriveVLA。
隨著AI大模型技術(shù)的加速演進(jìn),VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型由于在復(fù)雜場(chǎng)景理解與動(dòng)作推理方面展示出巨大潛力,正在被廣泛地應(yīng)用于端到端自動(dòng)駕駛系統(tǒng)中。
VLA模型在處理視覺(jué)信息時(shí),會(huì)將圖像編碼為海量視覺(jué)Token(詞元)。視覺(jué)Token是VLA模型“看懂世界”,并“做出決策”的基石,其質(zhì)量、數(shù)量與選擇策略直接決定模型的性能、效率與可信度。
然而,直接轉(zhuǎn)換的處理方式會(huì)導(dǎo)致車端計(jì)算負(fù)荷變大,同時(shí)還會(huì)影響模型的推理效率和決策執(zhí)行。
此前,視覺(jué)Token剪枝已被證實(shí)了是加速VLA模型推理的可行方法之一。
但傳統(tǒng)的視覺(jué)Token剪枝方法或依賴文本-視覺(jué)注意力關(guān)聯(lián),或基于Token相似度去重,在駕駛場(chǎng)景中均存在明顯局限。
為了解決這一問(wèn)題,小鵬汽車聯(lián)合北大共同提出了FastDriveVLA——一種專門(mén)為自動(dòng)駕駛設(shè)計(jì)的、基于重建視覺(jué)Token剪枝框架。
該框架的提出受到了人類駕駛員在駕駛時(shí)會(huì)專注于相關(guān)前景信息(如行人、道路、車輛、交通標(biāo)志、交通信號(hào)燈、交通障礙物)的啟發(fā),引入了一種新穎的對(duì)抗性前景-背景重建策略,以增強(qiáng)VLA模型識(shí)別有價(jià)值Token的能力,從而教會(huì)AI“像人一樣開(kāi)車”,自動(dòng)過(guò)濾無(wú)關(guān)緊要的視覺(jué)信息,只關(guān)注有用的核心信息。

▲FastDriveVLA 框架
在訓(xùn)練階段,論文中提出了一種新穎的“前景-背景對(duì)抗重建”策略,以增強(qiáng) ReconPruner 對(duì)前景視覺(jué) Token 的感知能力;在推理階段,ReconPruner可直接嵌入自動(dòng)駕駛VLA模型,用于 Token 剪枝。
FastDriveVLA包含一個(gè)即插即用的視覺(jué)Token剪枝器ReconPruner。
在車端模型的推理階段, ReconPruner可直接嵌入自動(dòng)駕駛VLA模型用于視覺(jué)Token的剪枝,即插即用,無(wú)需重新訓(xùn)練整個(gè)模型。
為了輔助該剪枝器的訓(xùn)練,還專門(mén)構(gòu)建了包含來(lái)自6個(gè)攝像頭視角的24.1萬(wàn)個(gè)圖像-掩碼對(duì)的nuScenes-FG數(shù)據(jù)集。這一大規(guī)模的自動(dòng)駕駛前景分割標(biāo)注數(shù)據(jù)集,可廣泛用于未來(lái)自動(dòng)駕駛的研究。

▲nuScenes-FG。該數(shù)據(jù)集為 nuScenes 場(chǎng)景提供了 24.1 萬(wàn)個(gè)前景分割標(biāo)注。
這種“去繁從簡(jiǎn)”只關(guān)注核心駕駛信息的思路,讓FastDriveVLA取得了驚艷的效果。最終,nuScenes自動(dòng)駕駛數(shù)據(jù)集上的測(cè)試顯示,采用這一剪枝框架,在不同剪枝率下均取得當(dāng)前最優(yōu)即SOTA效果:
l 剪枝比例達(dá)25%視覺(jué)Token時(shí),駕駛性能幾乎不下降,其L2軌跡誤差與碰撞率指標(biāo)甚至超越未剪枝的基準(zhǔn)模型;
l 剪枝比例達(dá)50%Token時(shí),在所有指標(biāo)上表現(xiàn)更平衡;
l 與此同時(shí),VLA模型的推理效率得到了顯著提升。當(dāng)視覺(jué)Token數(shù)量從 3249減少到 812時(shí),F(xiàn)astDriveVLA 實(shí)現(xiàn)了近7.5倍的計(jì)算量(FLOPs)減少。在 CUDA (指從GPU啟動(dòng)一個(gè)計(jì)算任務(wù)到真正拿到該任務(wù)的計(jì)算結(jié)果之間所經(jīng)歷的時(shí)間)延遲方面,F(xiàn)astDriveVLA 將預(yù)填充時(shí)間(prefill)與解碼時(shí)間(decode)分別減少了 3.7倍與1.3倍。
小鵬汽車聯(lián)合北大提出的FastDriveVLA,建立了自動(dòng)駕駛VLA模型的高效視覺(jué)Token剪枝的新范式,同時(shí)樹(shù)立了車端大模型高效部署上車的新標(biāo)桿。
此次論文入選AAAI 2026,是小鵬汽車今年第二次參與人工智能領(lǐng)域的國(guó)際頂級(jí)會(huì)議。早在今年6月,小鵬汽車曾作為CVPR WAD唯一邀請(qǐng)演講中國(guó)車企,分享自動(dòng)駕駛基座模型研發(fā)進(jìn)展。在今年11月的科技日上,小鵬汽車正式推出第二代VLA,創(chuàng)新性地去掉了“語(yǔ)言轉(zhuǎn)譯”環(huán)節(jié),首次實(shí)現(xiàn)從視覺(jué)信號(hào)到動(dòng)作指令的端到端直接生成,顛覆了行業(yè)傳統(tǒng)的「V-L-A」架構(gòu),探索全新物理AI模型范式。這些成果都為全球自動(dòng)駕駛的研究和實(shí)踐注入了全新的動(dòng)力。
這一系列成果也彰顯了小鵬汽車從模型架構(gòu)設(shè)計(jì)、模型訓(xùn)練到模型蒸餾、部署上車的全棧自研能力。
未來(lái),小鵬汽車將繼續(xù)以L4為目標(biāo),在AI大模型領(lǐng)域加大投入,加速物理AI大模型上車,讓更安全、高效、舒適的智駕體驗(yàn)惠及全球用戶。
x
-
韓三楚:大眾已在華建立了完整本地研發(fā)體系,今年將推20款新能源車型 2026-04-11 21:45 -
武漢「蘿卜快跑」事件考:Robotaxi還需要一點(diǎn)「犯錯(cuò)冗余」 2026-04-03 15:33
-
8萬(wàn)塊的小車也要帶著激光雷達(dá)跑世界模型了 2026-04-03 14:55
-
2026廣汽科技日重磅發(fā)布五大核心技術(shù),以“科技向心”引領(lǐng)智能出行時(shí)代 2026-04-13 00:29 -
智能電動(dòng)汽車發(fā)展高層論壇首日大咖云集,共話“十五五”汽車產(chǎn)業(yè)發(fā)展新趨勢(shì) 2026-04-12 11:28 -
卓馭科技沈劭劼:未來(lái)存活下來(lái)的智駕公司都將轉(zhuǎn)型為移動(dòng)物理AI公司 2026-04-12 10:41


京公網(wǎng)安備 11010502038466號(hào)
關(guān)注官方微信