· 8 min read
特斯拉 AI 副總裁 Ashok 演講解讀, 端到端自動駕駛揭秘,如何推動 Robotaxi 與 FSD
特斯拉的端到端 AI 架構:顛覆傳統的自動駕駛理念
眾所周知,特斯拉自動駕駛採用了所謂端到端的 AI 架構,這與傳統的模塊化系統有著本質的區別。特斯拉為何敢將整個決策鏈交給一個大模型?這種做法在安全性和可控性上是否真的更勝一籌?在這篇文章中,我們將深入探討特斯拉自動駕駛軟件總監 Ashok Elluswamy 在國際計算機視覺大會(ICCV)上的重要演講,解讀其背後的技術理念和實踐成果。
真實場景中的 Robotaxi 服務
今年 6 至 7 月,特斯拉在奧斯汀與灣區南部部分區域上線了 Robotaxi 服務。整程完全依靠攝像頭與神經網絡來感知與決策,即時適應路面與交通變化。這不是演示用樣車,而是量產配置在跑真實業務。在低速城區路況下,系統穩定完成起停、讓行、繞行等動作,標誌著“無人值守”的可用性已經跨過了第一道門檻。
此外,特斯拉還用量產車完成了“自駕交付”實驗,從奧斯汀工廠直接把首位客戶購買的車輛自主開到客戶家,覆蓋 20 到 30 分鐘的高速、城市道路與停車場。這些例子表明,特斯拉的目標不僅是展示技術,而是將無人化融入真實流程與用戶體驗。
端到端大模型的核心路徑
特斯拉的核心技術路徑是端到端的大模型。該模型直接將像素等傳感器原始數據作為輸入,輸出下一步控制動作。與傳統的模塊化系統不同,特斯拉的系統不再顯式先做檢測再規劃,而是將感知與控制耦合在同一網絡中完成。這種方法更能適應複雜的駕駛場景,尤其是在處理人類駕駛偏好時。
例如,在雙向單車道遇到大水坑時,最佳策略是借對向車道繞行。傳統的顯式代價函數難以準確描述“濺水的不適”與“借道的風險”的權衡,而人類駕駛者卻能輕鬆判斷何時借道是合適的。通過端到端的學習,特斯拉的模型能夠更好地模擬人類的直覺行為。
數據的量與質:應對維度災難
要將端到端模型落到實處,特斯拉麵臨的第一個難點是“維度災難”。特斯拉的車配備了 7 到 8 路攝像頭,每路 5 百萬像素,若用 30 秒上下文,原始輸入的 token 量可以輕鬆超過 20 億。如何將這些數據有效處理是一個巨大的挑戰。
特斯拉的優勢在於其龐大的數據供給,每天能收到相當於 500 年駕駛里程的數據。通過觸發器、小模型篩查或在線對比“模型預測與實際發生”,特斯拉能夠精煉出覆蓋全面、質量過硬的訓練集,確保模型學習到真正決定動作的關鍵信息。
可解釋性與開發工具的結合
在 Ashok 的演講中,他強調了可解釋性的重要性。特斯拉的模型可以被提示去預測任意中間量,如三維佔用、交通參與者、紅綠燈與標誌等。這不僅幫助開發者理解模型的決策過程,還能作為訓練時的輔助任務,提升主任務的正確率與穩定性。
此外,特斯拉還開發了高效的高斯點雲渲染技術,能夠在有限視角下生成穩定的結構,並快速更新場景。這種方法不僅提高了調試效率,還能在複雜情況下支持“按需推理”,確保即時性與決策的深度。
評估的挑戰與世界模型的應用
評估被 Ashok 稱為“三個難點”中最難的一環。開放環指標在離線數據上可能表現良好,但未必能轉化為車上的閉環駕駛質量。為此,特斯拉構建了“世界模型”,讓 AI 學會用過去的畫面和動作去“想象”接下來會發生什麼。這種方法不僅降低了評估成本,還能生成覆蓋全面的測試集。
通過將模擬器與車輛的策略網絡連接,特斯拉能夠在閉環中生成多路攝像頭的視頻流,進行批量對比與重評。這種方法使得歷史問題可以在相同初始條件下被新模型重評,從而不斷優化駕駛策略。
未來展望:擴展服務與技術生態
特斯拉的下一步是提升服務體驗,並解鎖整個車隊的全自動駕駛能力。全新兩座的 Cybercab 專為 Robotaxi 設計,目標是將出行成本壓到比公共交通還低。特斯拉希望將同一技術棧外推到其他機器人形態,尤其是人形機器人 Optimus。
總的來說,Ashok 的演講清晰地傳達了特斯拉在自動駕駛領域的技術主線:端到端學習、數據引擎、世界模型評測與可解釋工具。通過這些技術,特斯拉不僅希望在自動駕駛領域取得突破,更希望將其應用於更廣泛的機器人生態中。
結論
這場分享的主線非常明確:通過真實落地證明端到端的可行性,解釋其相較於模塊化的優勢,利用海量而精選的數據與世界模型閉環評測確保安全與舒適,最後通過高效表徵與按需推理兼顧可解釋與即時性。特斯拉的成功在於其對數據的深刻理解與應用,以及對未來技術生態的清晰願景。




