· 36 min read
人形機器人2026關鍵一役:特斯拉 Optimus 已經落後了?Figure客廳影片深度拆解
開場:兩分鐘客廳視頻,背後到底有多“真”?
Figure 最近放出的那段兩分鐘機器人做家務視頻,熱度非常高。大家看完的第一反應通常是驚豔,但如果我們想看懂人形機器人這個賽道,就必須得問一個更尖銳的底層問題:這到底是 AI 的“完全自治”,還是有人在鏡頭外偷偷“遙控代打”?
如果現在分辨不出這種差別,未來一兩年,你可能很難看清哪家公司是真的有技術護城河,哪家只是個優秀的“視頻製作公司”。
我是小梗。Figure 放出這段視頻已經好幾天了,我估計當時馬斯克也有點被驚到,特意跟帖質問,然後 Figure 的 CEO 回覆說完全是自主的,這就有點意思了:難道 Figure 已經遙遙領先?
剛好咱們的老朋友 Herbert Ong 最近做了一期訪談,我們今天就來拆解一下。
嘉賓 Scott Walter 是一位在工業機器人領域幹了幾十年的老兵。這期內容很有參考價值,因為他沒有停留在點評視頻有多酷,而是從控制、感知和商業模式的最底層出發,把 Figure、特斯拉 Optimus 以及傳統巨頭,放在了同一張座標系裡進行對比。
在各家都在瘋狂發 Demo 的今天,我們需要這種撥開迷霧的內行視角。節目一開場,Scott 就點出了 Figure 這條“一鏡到底”視頻裡真正厲害的細節:重點根本不是機器人學會了走路,而是它在一個沒有經過特殊改造的真實客廳裡,連續幾分鐘僅僅依賴同一個“AI 大腦”,就能把擦桌子、收玩具、拿遙控器這一連串的人類家務邏輯給走通。
接下來,我們就順著這位老兵的視角,看看這場演示到底透露了多少硬核的真東西。
客廳突破:為什麼 Figure 的新演示意義重大?
特斯拉準備下個月亮出第三代 Optimus,還要點亮一半的 Cortex-2 超級計算機;NVIDIA 則宣佈與 ABB Robotics 合作,聲稱能做到 99% 的抓取準確率;Rhoda AI 在視頻生成領域號稱解決了數據稀缺問題。幾條新聞疊在一起,Figure 這段客廳視頻就不只是炫技,而是直接把“通用家務機器人”擺到檯面上比高下。
Scott 拆解視頻時,重點放在幾個能力上:
全身控制
機器人不是一隻機械臂在那戳,而是身體會前傾、調整重心去夠桌面和沙發。處理柔軟物體
它能處理毛巾、枕頭這種柔軟物體,而不是隻會抓硬盒子。短到中等時間尺度的“記憶”
比如它手上已經拿了兩樣東西,還多一個,就先甩到肩上,過一會兒又記得回到那張桌子把東西收走。初級語義理解
它能區分“沙發上哪些該在那、哪些是亂放的”:知道枕頭要擺好、雜物要進籃子,這已經有一點語義理解的味道了。
關於大家最關心的“是不是在幕後有人遙控”,Scott 提醒說,Figure 一直公開表示自己的視頻是 1 倍速、自治執行,這次只是忘了在片頭打字幕。按他的經驗,遠程操控通常動作會有點抖、有點遲疑,尤其是複雜抓取,很難做到這麼順暢。再加上現在這些系統用上了視覺,物體位置差幾釐米也能找得到,不像傳統工業機器人要求一切對齊到毫米級。
我個人也傾向於相信這條是自治的,但肯定是在高度佈置好的環境裡跑出的最佳一條。
Herbert 後面引用了 Figure AI 總監 Corey Lynch 的話,說他看到同一個“本地操控策略”在這 2.5 分鐘裡,同時搞定走路、用噴壺、手裡轉動物體、精確按遙控器,就覺得方向對了,接下來就是繼續放大規模。Herbert 自己也強調,這種連續多任務比機器人做跑酷、打拳更有含金量,因為它看起來像在“想下一步要幹嘛”,而不是隻在跑一個花哨的動作庫。
Scott 對 Figure 的技術路線總體是看好的。他提到 Helix 這個“骨幹”系統現在看起來挺穩,Figure 3 這代機體也夠用,尤其是新上的那隻堪稱 3.5 版本的手,加入了手指外展,所以才能比較自然地捏起遙控器這種扁平物體。不過他也潑了點冷水,說整個行業現在還只是“春訓剛結束”,離真正看出誰能跑完全賽季還早得很。
Herbert 最後總結說,Figure 絕對是接下來值得盯緊的一家,連馬斯克都跑來問這視頻到底是不是自治,這本身就說明它戳到同行的神經了。至於現在還有多少公司在背後大量依賴遠程操控來撐場面,Scott 也只能說“很難講”,因為大家都不太願意把這部分攤開來說。
自主性的內部機制:Figure 可能如何“思考”整理客廳?
接著兩人就開始琢磨,這段兩分半到底是機器人提前規劃好了整套流程,還是做完一步再臨時決定下一步。
Herbert 拿自己打比方,說人站在那兒會先在腦子裡排個大概順序。Scott 就吐槽,現在最大的問題是,我們根本不知道給它的提示詞是什麼——是“把客廳收拾乾淨”,還是“把玩具撿起來”這種非常具體的指令。
Scott 還提到一個細節:機器人一進門手上就拿著噴壺,這其實像是給它加了個“第一步”的先驗——你都把清潔工具帶進來了,那肯定得先找地方噴一噴。不過他也說了,視頻開始之前發生了什麼,我們完全不知道。
還有一個現實問題:視頻裡的客廳起點已經挺整齊了,很多人吐槽說自己家根本達不到那個“起跑線”。但演示的重點是證明它能完成不同類型的操作,而不是還原真實的災難現場。
然後話題轉到那些細小但難度很高的動作。Scott 舉例說,行業裡讓機器人從桌上撿手機,經常要靠“把手機推到桌邊再滑下來”這種小技巧,而 Figure 直接用右手捏起來,還能準確找到遙控器的按鍵。
他馬上追問一個關鍵點:遙控器這東西形狀、按鈕佈局差別特別大,那 Figure 到底是隻在這一隻遙控器上反覆練,還是有更通用的識別辦法?他自己猜,應該還是針對這隻遙控器做了不少訓練,但就算這樣,能在接近人類的時間裡完成,也已經很能說明問題了。
Herbert 後面就推演他們可能的訓練方式。他覺得,更大概率是先把一堆“小步驟”都教會了,比如看到沙發墊歪了就擺回某個位置,看到桌上有玩具就丟進籃子。
Scott 順著說,這其實就是給每個物體定義一個“家”,一個偏好的終態。問題來了:對一個東西應該放哪兒,人類之間都很難統一——你去 Airbnb 幫忙收拾,房東回來可能第一件事就是把你擺好的抱枕全換個方向。
靈巧度與物理感知:為什麼遙控器和枕頭的動作如此突出?
看遙控器那一段,其實信息量特別大。Herbert 最喜歡的就是這裡:機器人先抓起遙控器,讓它稍微滑落一下,再用手心接住,用拇指壓住邊緣,另一根手指去按鍵。
這裡至少說明兩點:
- 有比較細膩的手指協調,不是死抓;
- 它“預判”到,如果不壓住,按鍵的時候遙控器會被頂飛。
這種對重力、摩擦的小感覺,多半是在大量示範裡學出來的“類物理直覺”。
Scott 就補充,說這些完全可以靠模仿學習堆出來:反覆看人怎麼拿不同的遙控器、怎麼按開關,最後學會一個比較穩的套路。
真正有意思的點在於決策邏輯:它是“看到電視是亮的所以去關掉”,還是“腳本里寫了拿起遙控器就按關”?如果電視本來就是關的,它還會不會做同樣動作?這個現在視頻裡看不出來。
Scott 更看重的是,Figure 算是第一個公開展示這種多步驟、人形機器人家務流程的公司,不是隻放渲染圖,而是讓你看到一整串動作接在一起。
然後是扔抱枕。Herbert 直言,這個動作肯定是針對性訓練了很多遍。但他也拋出一個挺現實的問題:機器人得學會“我可以扔抱枕,但不能照樣扔花瓶”。
Scott 順著往下拆解,說如果它只在固定距離練同一種拋法,換成更遠的沙發角,很可能就傻掉了。要想擁有靠譜的“世界模型”,訓練裡必須涵蓋不同距離、不同物體、不同重量。
他還糾正了一個常見誤解:大家總說在給模型建“世界模型”,聽起來好像裡面真的內置了一套牛頓力學。其實更準確的說法是“很好用的物理近似”,而且是被經驗塑造出來的。
Scott 還提到一個我個人也挺在意的點:所謂“湧現行為”到底是真聰明,還是人類遙操作習慣的混合產物。
訓練數據裡有大量人類遠程操控的片段,每個人都有自己的小習慣——有人甩毛巾特別誇張,有人扔東西喜歡帶點旋轉。模型學久了,可能會把某個操作員的怪癖當成“最優策略”。表面上看像是機器人突然學會了新花樣,實際上只是把幾個人類動作攪在一起,變成一道“重口味”的菜。
所以,看到它會扔抱枕、會順手借重力省力,我們接下來就得追問一句:這些走位和偷懶,是它在主動優化效率,還是在復刻某個工程師的日常動作?
運動、空間與“機器人懶惰”:行走行為透露了什麼?
接著看客廳這個段落,Herbert 就開始逐幀吐槽了:一進門手裡拿著噴霧,本來要擦桌子,先把咖啡杯挪一下,然後只噴白色那塊桌面。咖啡杯最後也沒進水槽,而是被暫時放桌上,結尾才把三個物件一起拿走。
兩個人一邊吐槽,一邊又承認,這些都算小問題,更關鍵的是結果:你出門買菜,回來客廳是整潔的就行,速度沒那麼重要。
Scott 還提醒,現在這些人形機器人離“在人旁邊安全工作”差得遠,那就乾脆讓它單獨在客廳幹活,人當成天然安全圍欄,誰進來它就停或換任務。這裡他順帶強調了一句,在家這種空間裡,兩條腿真的很重要。
他指著茶几和沙發中間那條窄縫說,這距離太小了,輪式底盤根本轉不開,這正是雙足的優勢所在。
然後 Herbert 注意到一個細節:機器人收玩具時,並非老老實實一個個撿,而是把一堆一起滑進籃子,藉助重力幫忙,最後只剩兩三個才彎腰撿起。兩人開始猜測,這究竟是機械地模仿示教動作,還是模型真的學會了“滑一下更省事”的竅門。
Scott 笑著說,人類本來就很懶,他自己也會一把全推下去,能少彎幾次腰就少彎幾次。
Scott 接著把這段清理視頻與上個月的洗碗機視頻做了對比。他說當時看洗碗機那段時,有種“第六感”,會提前猜到下一步——比如機器人抬腳去頂洗碗機門,他腦子裡剛冒出“現在應該用腳”,畫面裡就真的發生了,整個人都愣住了。
這次也一樣,很多觀眾看到機器人撿起遙控器,下意識以為它要坐沙發看電視,這說明大家已經開始對這類行為形成直覺預期,覺得它不是在執行一串死板腳本,而更像一個懂得偷懶的同事。
然後 Herbert 點名一個動作:機器人往右挪半步的時候,沒有停下、轉身、走兩步再轉回來,而是側向小碎步“蹭”過去。
Scott 的解釋挺有意思,他說這背後其實是個決策問題:當目標位移很小,模型會覺得側向挪一挪更划算;如果要從沙發一頭走到另一頭,那就會選擇完整轉身、正常行走。
在他看來,這就是大量訓練數據加上獎勵函數的結果,模型在不同場景裡反覆試,慢慢學出一個規則:什麼距離用小碎步,什麼距離該轉身走路。
對我來說,這種“偷懶感”反而是智能的信號,因為它說明機器人開始在意效率,而不是隻顧動作好看。
家庭 vs 工廠:人形機器人最先會真正在哪兒工作?
順著這個“偷懶感”,Herbert 就把視角拉回這些公司的定位。
Figure 發 2.5 分鐘視頻是在家裡修遙控器,1X 直接打標籤說自己是做家庭場景的公司,特斯拉官網上 Optimus 的介紹也幾乎全是幫你在家裡幹活的畫面。
但他話鋒一轉,說真實情況可能完全相反:未來 5 年你在客廳裡見到人形機器人,概率其實挺低。
他給了兩個核心理由:
安全問題
家裡有小孩、老人、殘障人士,還有狗狗貓貓,這些在安全評估裡都算“脆弱人群”。一臺沒完全成熟的 200 斤機器人在這種環境裡出事,誰都扛不住。付費能力
普通家庭一年願意為一個機器人付的,大概也就車的級別,2 萬到 3 萬美元,差不多 20 萬到 30 萬人民幣。
但工廠呢,同樣一臺機器人,一年付 10 萬到 20 萬美元也能算得過賬,而且可賣的崗位是“幾十萬、幾百萬”個,遠沒到天花板。
所以在 Herbert 眼裡,這些公司現在拼命拍家庭場景視頻,其實更像是兩件事:
- 給大眾和投資人看,營造一種“未來就在你家客廳”的想象;
- 拿家庭這種高度多樣的環境當訓練場,先不急著真賣給你,而是用來採集各種亂七八糟的長尾數據,讓機器人在工廠裡上崗時更快、更聰明。
Scott 基本全盤同意。他也直接算賬:既然有工廠願意一年掏 10 萬、20 萬美元租一臺機器人,那企業沒理由先去賣給只出得起 2 萬、3 萬的家庭。
只有當機器人的產能多到有點“供過於求”,才會慢慢往家裡走。而且就算進家,也很可能是那種“房間裡沒人它才動”的模式,離大家想象中端茶倒水的“機器人管家”,還得好幾年。
兩個人最後達成一個挺有意思的共識:從商業邏輯看,早期最合理的落地一定是工廠、倉庫這種商業場景。所以大家嘴上都在講“家庭助手”,心裡想的卻是“工業勞動力”。
在這種反差下,Figure 現在能在視頻裡展示的那些能力,其實已經是一個不小的里程碑。
那接下來問題就來了:如果真正的大頭在工廠,誰在背後搭這套“人形機器人經濟”的基礎設施?特斯拉現在押注的 Optimus、還有叫 Cortex 的那塊“超級大腦”,到底想把盤子鋪多大?
特斯拉的規模賭注:Optimus、Cortex 與“機器人經濟”
Herbert 這段講得很直白:Gen 3 Optimus 最快這個月、最慢下個月亮相,目標是能量產“幾萬臺”,後面還有 Gen 4。可他反覆強調,真正關鍵不是外面的那層鐵皮,而是 Cortex-2 這個“腦子”。
他引用 Peter Diamandis 的說法,說現在看不起人形機器人經濟,就像 1993 年說互聯網沒用一樣。基礎設施正在你眼前搭起來,只是很多投資人只盯著有沒有酷炫演示,忽略了背後的算力和數據中心。
Herbert 的判斷是,特斯拉這波最值得盯的就是 Cortex-2。FSD 那套大腦已經有了,但要讓 Optimus 聰明一個數量級,需要一個超大的超級計算機,再加上“幾萬臺人形機器人”的數字遊樂場去訓練。
他提到 Joe Tegtmeyer 拍到的現場,機房樓已經起來,6 個冷卻裝置就位,馬斯克說大概 1 個月能先點亮一半機櫃,剩下邊建邊擴容,一直拉到夏天。
更狠的是產能佈局。Fremont 那邊準備停掉 Model S 和 Model X 產線,改成第一條人形機器人生產線,目標是每年 100 萬臺。德州 Giga 旁邊又開新工地,規劃是每年 1000 萬臺。
我自己聽到這個數字的感覺是:這不是做個小眾高端玩具,而是直接按“未來勞動力”在規劃供應鏈和工廠。
Scott 接著把現在的人形機器人,類比成當年的 General Magic。那家公司在 1980 年代末就想做“智能手機”,有觸摸屏、有表情符號、有移動郵件,但當時還在模擬電話時代,網絡、芯片、運營商合作都沒到位,結果願景太超前,商業上失敗了。
他認同 Peter Diamandis 的觀點:1993 年大家剛聽說互聯網時,只能想象“家裡有臺上網電腦”,根本想不到會變成口袋裡的手機。人形機器人現在也在類似階段,很多人只看到幾段笨拙的視頻,就下結論說不行。
但從基礎設施角度看,像 Cortex 這樣的算力、推理能力、數據採集,再加上傳感器、零部件供應鏈,都在很快補齊。
他還說,人形機器人領域的“General Magic 時刻”其實已經出現過了,比如本田的 Asimo、早期 Boston Dynamics,那時候幾乎只有他們在做,大家覺得有點酷,但沒啥用。而現在是很多家公司一起衝,同步啃供應鏈和規模化的問題。
當 Herbert 問到“特斯拉是不是落後了”時,Scott 的回答挺冷靜:不同公司走的路不一樣,如果基礎沒打好,後面就容易塌。特斯拉現在看起來節奏慢、曝光少,有可能是在把底層打厚,等到機器人、神經網絡、超級計算機都到一定規模,反而能突然加速。
我個人也偏向這個判斷,真正的勝負手不在一兩段炫酷視頻,而在誰能把算力、數據和產能拉到那個量級。
仿真 vs 真實世界:為什麼僅靠模擬還不夠?
順著這個“量級”的事,Herbert 就搬出了馬斯克那套“仿真加機器人操場”的說法:光有大算力和虛擬環境不夠,他要的是幾臺超級計算機,再加上 2 萬到 3 萬臺 Optimus,在真實的“遊樂場”裡摸索、擺弄東西,把帶真實物理的經驗喂回仿真,仿真再反哺現實,這樣滾雪球。
然後他就拋出了一個問題:Figure 現在既沒 Colossus 那種超算,也沒上萬臺機器人,怎麼還能推進得這麼快?
Scott 的態度挺剋制,他說自己一輩子都在做仿真,但仿真永遠只是工具,核心是幫你加快設計迭代、提前踩坑,而不是替代現實。你可以用 CAD、數字孿生去看可達性、碰撞、節拍,大量問題能提前發現,但最後一定要在真實機器人和產線裡跑一遍,才知道哪些假設是錯的。
接著他舉了 ABB 和 NVIDIA Omniverse 的例子,現在大家都在把 CAD 模型搬進這種高保真虛擬世界,看起來特別真,光影、材質都像工廠實拍。但他提醒說,這種只是“皮相”,真正難的是把機器人和機構在現實裡的運動方式、關節極限、柔性這些都建進去。
仿真畫面再像照片,如果機器人從 A 點走到 B 點的軌跡、加減速跟真機不一樣,那對工程決策意義就很有限。
Scott 還專門強調,工業機器人運動根本不是“聽物理引擎的”,而是聽控制器裡工程師寫的啟發式規則。所以想要高保真,你得把真實控制器的軟件整個塞進 Omniverse,變成“虛擬控制器”。
ABB 這次就是把自家控制器抽出來接進仿真,讓虛擬機器人在 Omniverse 裡的節拍、路徑選擇,和真機能做到大概 99% 的吻合。不過他也說了,這個 99% 只侷限在“機器人本體怎麼動”,旁邊的輸送線、夾具、工藝過程,差距還很大。
比如噴漆、鑽孔、打磨這種工藝,現在根本做不到 99% 仿真,你在軟件裡調一堆參數,最後還是得上線試,發現噴塗不均、孔位偏差,再回頭改。
所以他認同馬斯克那種思路:仿真適合做預訓練,把策略、路徑先練個七七八八,但要真正變得成熟可靠,還是得進現實世界的“健身房”,讓機器人去抓真的瓶子、摸真的物料,把仿真和實機來回對齊。
Herbert 這時又把尺度拉滿,說馬斯克要的是全球最大級別的超算集群,什麼 Cortex-1、Cortex-2,還有 Colossus-1、2、3,再配 2 萬到 3 萬臺人形機器人一起訓練。然後他提到 ABB 和 NVIDIA 說“sim-to-real 差距已經彌合到 99%”,問這是不是意味著規模不再重要。
Scott 立刻潑了個冷水,說這個 99% 只是指 ABB 機器人在 Omniverse 裡的動作和真機很像,不代表整個工廠、所有工藝都被完美還原。鑽孔在仿真裡可能就是“畫面一黑,洞就出現了”,真正的力、材料去除這些沒人算。
他還翻出自己 30 年前做的“Robot Realistic Simulation”,當時 ABB、FANUC、KUKA 都不肯公開控制器細節,他們最後只能讓廠商把控制器代碼封成黑盒,插進仿真軟件裡,這樣虛擬 ABB 就像 ABB,虛擬 FANUC 就像 FANUC,因為不同品牌機構不一樣,路徑規劃的“小心思”也不一樣,這些都得靠真實控制器來還原。
以視頻為策略:Rhoda AI 和機器人學習的新路徑
接著他就把鏡頭拉回現實,說你看仿真再真,落地還得靠數據,但機器人最大的問題就是數據不夠。
然後他提到一個剛從隱身狀態出來的公司,叫 Rhoda AI,在帕洛阿爾託,說自己通過一個“direct video action model”,把機器人控制整個換成“生成視頻”:先用上千萬小時人類視頻做預訓練,再用大概 10 小時針對某個任務的演示,就能搞定很難的工業任務,比如從供應商來的零件箱裡,把零件一件件倒出來上線。
這個思路其實挺直白:
- 預訓練階段,全吃人類視頻,看人手怎麼抓、怎麼擰、怎麼挪;
- 微調階段,只給它看具體產線怎麼倒這個型號的零件。
因為前面已經學了各種人類操作模式,後面那 10 小時更像是在告訴它“在這個場景裡,哪些動作組合是對的”。
Scott 就說,這跟 NVIDIA、1X 最近講的東西很像,有點像給 Sora 一幀畫面,讓它想象接下來幾秒會發生什麼。Rhoda 現在就是讓機器人看到當前畫面和目標,然後預測接下來幾幀應該長什麼樣,再按這個“預告片”去執行動作。
關鍵難點在於中間那塊逆動力學模型,把人手的軌跡翻譯成機器人關節角度和力,這個 IDM 是整套系統的“翻譯官”。
他還挺欣賞 Rhoda 的一點,是官網放了好幾個連續幾小時的原始視頻,不剪輯那種。你能看到機器人反覆搬箱子、拿零件,也能看到各種翻車現場。比如有一段是兩臺機器人抬箱子,綁帶突然滑掉了,本來按傳統方案,這種就要人來救場,但視頻裡能看到它倆自己重新調整抓取姿勢,把局面救回來。
所以 Rhoda 的野心,就是用這種視頻預測加 IDM,把互聯網上已經存在的海量人類視頻變成機器人訓練集,而不是每個新任務都去錄成百上千小時示教數據。
Herbert 馬上聯想到特斯拉 FSD,說這不就跟 Ashok Elluswamy 之前做的那個演示很像嗎。
當時他放了一段車在城市街道開車的視頻,看起來就是正常行車記錄,結果最後才揭曉,其實那整段畫面都是網絡自己生成的,是車載電腦在預測“接下來我會看到什麼”。特斯拉就是先把海量行車視頻餵給神經網絡,讓它學會往未來幾幀去推,然後再在這些“想象出來的未來”裡做規劃。
Scott 說他管這個叫“奇異博士模式”,系統在腦子裡同時跑很多條未來時間線,試不同的路徑,再選一個最好的來執行。
結語:從“看視頻”到“動手”,鋼鐵身體裡的時間線
一個人形機器人,在普通客廳裡,笨拙但完整地把一件事做到底。它不是跑酷、不是跳舞,而是像個實習生一樣,把桌子擦完、把東西收好、把電視關掉。
這一幕背後,是好幾層東西疊在一起:
- 有“把房間變成某個目標狀態”的任務理解能力;
- 有靠海量視頻和示教學出來的手部操作;
- 有在狹窄空間裡怎麼走、什麼時候偷懶用滑的而不是搬的那種效率判斷;
- 還有現實世界和仿真世界來回迭代的訓練路徑。
對我來說,更重要的不是今天誰的 demo 更順、更像樣,而是一個趨勢:從 Figure、特斯拉,到 Rhoda AI,這些團隊都在同一條時間線上,把“看視頻、想未來、再動手”的能力,一點點塞進鋼鐵身體裡。
現在看還很幼稚、很貴、很不安全,但如果把時間軸拉長到 5 年、10 年,再回頭看今天的客廳視頻,它大概率會像當年的撥號上網、磚頭手機一樣:土是很土,但方向沒錯。




