人形機器人2026關鍵一役：特斯拉 Optimus 已經落後了？Figure客廳影片深度拆解

開場：兩分鐘客廳視頻，背後到底有多“真”？

Figure 最近放出的那段兩分鐘機器人做家務視頻，熱度非常高。大家看完的第一反應通常是驚豔，但如果我們想看懂人形機器人這個賽道，就必須得問一個更尖銳的底層問題：這到底是 AI 的“完全自治”，還是有人在鏡頭外偷偷“遙控代打”？

如果現在分辨不出這種差別，未來一兩年，你可能很難看清哪家公司是真的有技術護城河，哪家只是個優秀的“視頻製作公司”。

我是小梗。Figure 放出這段視頻已經好幾天了，我估計當時馬斯克也有點被驚到，特意跟帖質問，然後 Figure 的 CEO 回覆說完全是自主的，這就有點意思了：難道 Figure 已經遙遙領先？

剛好咱們的老朋友 Herbert Ong 最近做了一期訪談，我們今天就來拆解一下。

嘉賓 Scott Walter 是一位在工業機器人領域幹了幾十年的老兵。這期內容很有參考價值，因為他沒有停留在點評視頻有多酷，而是從控制、感知和商業模式的最底層出發，把 Figure、特斯拉 Optimus 以及傳統巨頭，放在了同一張座標系裡進行對比。

在各家都在瘋狂發 Demo 的今天，我們需要這種撥開迷霧的內行視角。節目一開場，Scott 就點出了 Figure 這條“一鏡到底”視頻裡真正厲害的細節：重點根本不是機器人學會了走路，而是它在一個沒有經過特殊改造的真實客廳裡，連續幾分鐘僅僅依賴同一個“AI 大腦”，就能把擦桌子、收玩具、拿遙控器這一連串的人類家務邏輯給走通。

接下來，我們就順著這位老兵的視角，看看這場演示到底透露了多少硬核的真東西。

客廳突破：為什麼 Figure 的新演示意義重大？

特斯拉準備下個月亮出第三代 Optimus，還要點亮一半的 Cortex-2 超級計算機；NVIDIA 則宣佈與 ABB Robotics 合作，聲稱能做到 99% 的抓取準確率；Rhoda AI 在視頻生成領域號稱解決了數據稀缺問題。幾條新聞疊在一起，Figure 這段客廳視頻就不只是炫技，而是直接把“通用家務機器人”擺到檯面上比高下。

Scott 拆解視頻時，重點放在幾個能力上：

全身控制
機器人不是一隻機械臂在那戳，而是身體會前傾、調整重心去夠桌面和沙發。
處理柔軟物體
它能處理毛巾、枕頭這種柔軟物體，而不是隻會抓硬盒子。
短到中等時間尺度的“記憶”
比如它手上已經拿了兩樣東西，還多一個，就先甩到肩上，過一會兒又記得回到那張桌子把東西收走。
初級語義理解
它能區分“沙發上哪些該在那、哪些是亂放的”：知道枕頭要擺好、雜物要進籃子，這已經有一點語義理解的味道了。

關於大家最關心的“是不是在幕後有人遙控”，Scott 提醒說，Figure 一直公開表示自己的視頻是 1 倍速、自治執行，這次只是忘了在片頭打字幕。按他的經驗，遠程操控通常動作會有點抖、有點遲疑，尤其是複雜抓取，很難做到這麼順暢。再加上現在這些系統用上了視覺，物體位置差幾釐米也能找得到，不像傳統工業機器人要求一切對齊到毫米級。

我個人也傾向於相信這條是自治的，但肯定是在高度佈置好的環境裡跑出的最佳一條。

Herbert 後面引用了 Figure AI 總監 Corey Lynch 的話，說他看到同一個“本地操控策略”在這 2.5 分鐘裡，同時搞定走路、用噴壺、手裡轉動物體、精確按遙控器，就覺得方向對了，接下來就是繼續放大規模。Herbert 自己也強調，這種連續多任務比機器人做跑酷、打拳更有含金量，因為它看起來像在“想下一步要幹嘛”，而不是隻在跑一個花哨的動作庫。

Scott 對 Figure 的技術路線總體是看好的。他提到 Helix 這個“骨幹”系統現在看起來挺穩，Figure 3 這代機體也夠用，尤其是新上的那隻堪稱 3.5 版本的手，加入了手指外展，所以才能比較自然地捏起遙控器這種扁平物體。不過他也潑了點冷水，說整個行業現在還只是“春訓剛結束”，離真正看出誰能跑完全賽季還早得很。

Herbert 最後總結說，Figure 絕對是接下來值得盯緊的一家，連馬斯克都跑來問這視頻到底是不是自治，這本身就說明它戳到同行的神經了。至於現在還有多少公司在背後大量依賴遠程操控來撐場面，Scott 也只能說“很難講”，因為大家都不太願意把這部分攤開來說。

自主性的內部機制：Figure 可能如何“思考”整理客廳？

接著兩人就開始琢磨，這段兩分半到底是機器人提前規劃好了整套流程，還是做完一步再臨時決定下一步。

Herbert 拿自己打比方，說人站在那兒會先在腦子裡排個大概順序。Scott 就吐槽，現在最大的問題是，我們根本不知道給它的提示詞是什麼——是“把客廳收拾乾淨”，還是“把玩具撿起來”這種非常具體的指令。

Scott 還提到一個細節：機器人一進門手上就拿著噴壺，這其實像是給它加了個“第一步”的先驗——你都把清潔工具帶進來了，那肯定得先找地方噴一噴。不過他也說了，視頻開始之前發生了什麼，我們完全不知道。

還有一個現實問題：視頻裡的客廳起點已經挺整齊了，很多人吐槽說自己家根本達不到那個“起跑線”。但演示的重點是證明它能完成不同類型的操作，而不是還原真實的災難現場。

然後話題轉到那些細小但難度很高的動作。Scott 舉例說，行業裡讓機器人從桌上撿手機，經常要靠“把手機推到桌邊再滑下來”這種小技巧，而 Figure 直接用右手捏起來，還能準確找到遙控器的按鍵。

他馬上追問一個關鍵點：遙控器這東西形狀、按鈕佈局差別特別大，那 Figure 到底是隻在這一隻遙控器上反覆練，還是有更通用的識別辦法？他自己猜，應該還是針對這隻遙控器做了不少訓練，但就算這樣，能在接近人類的時間裡完成，也已經很能說明問題了。

Herbert 後面就推演他們可能的訓練方式。他覺得，更大概率是先把一堆“小步驟”都教會了，比如看到沙發墊歪了就擺回某個位置，看到桌上有玩具就丟進籃子。

Scott 順著說，這其實就是給每個物體定義一個“家”，一個偏好的終態。問題來了：對一個東西應該放哪兒，人類之間都很難統一——你去 Airbnb 幫忙收拾，房東回來可能第一件事就是把你擺好的抱枕全換個方向。

靈巧度與物理感知：為什麼遙控器和枕頭的動作如此突出？

看遙控器那一段，其實信息量特別大。Herbert 最喜歡的就是這裡：機器人先抓起遙控器，讓它稍微滑落一下，再用手心接住，用拇指壓住邊緣，另一根手指去按鍵。

這裡至少說明兩點：

有比較細膩的手指協調，不是死抓；
它“預判”到，如果不壓住，按鍵的時候遙控器會被頂飛。

這種對重力、摩擦的小感覺，多半是在大量示範裡學出來的“類物理直覺”。

Scott 就補充，說這些完全可以靠模仿學習堆出來：反覆看人怎麼拿不同的遙控器、怎麼按開關，最後學會一個比較穩的套路。

真正有意思的點在於決策邏輯：它是“看到電視是亮的所以去關掉”，還是“腳本里寫了拿起遙控器就按關”？如果電視本來就是關的，它還會不會做同樣動作？這個現在視頻裡看不出來。

Scott 更看重的是，Figure 算是第一個公開展示這種多步驟、人形機器人家務流程的公司，不是隻放渲染圖，而是讓你看到一整串動作接在一起。

然後是扔抱枕。Herbert 直言，這個動作肯定是針對性訓練了很多遍。但他也拋出一個挺現實的問題：機器人得學會“我可以扔抱枕，但不能照樣扔花瓶”。

Scott 順著往下拆解，說如果它只在固定距離練同一種拋法，換成更遠的沙發角，很可能就傻掉了。要想擁有靠譜的“世界模型”，訓練裡必須涵蓋不同距離、不同物體、不同重量。

他還糾正了一個常見誤解：大家總說在給模型建“世界模型”，聽起來好像裡面真的內置了一套牛頓力學。其實更準確的說法是“很好用的物理近似”，而且是被經驗塑造出來的。

Scott 還提到一個我個人也挺在意的點：所謂“湧現行為”到底是真聰明，還是人類遙操作習慣的混合產物。

訓練數據裡有大量人類遠程操控的片段，每個人都有自己的小習慣——有人甩毛巾特別誇張，有人扔東西喜歡帶點旋轉。模型學久了，可能會把某個操作員的怪癖當成“最優策略”。表面上看像是機器人突然學會了新花樣，實際上只是把幾個人類動作攪在一起，變成一道“重口味”的菜。

所以，看到它會扔抱枕、會順手借重力省力，我們接下來就得追問一句：這些走位和偷懶，是它在主動優化效率，還是在復刻某個工程師的日常動作？

運動、空間與“機器人懶惰”：行走行為透露了什麼？

接著看客廳這個段落，Herbert 就開始逐幀吐槽了：一進門手裡拿著噴霧，本來要擦桌子，先把咖啡杯挪一下，然後只噴白色那塊桌面。咖啡杯最後也沒進水槽，而是被暫時放桌上，結尾才把三個物件一起拿走。

兩個人一邊吐槽，一邊又承認，這些都算小問題，更關鍵的是結果：你出門買菜，回來客廳是整潔的就行，速度沒那麼重要。

Scott 還提醒，現在這些人形機器人離“在人旁邊安全工作”差得遠，那就乾脆讓它單獨在客廳幹活，人當成天然安全圍欄，誰進來它就停或換任務。這裡他順帶強調了一句，在家這種空間裡，兩條腿真的很重要。

他指著茶几和沙發中間那條窄縫說，這距離太小了，輪式底盤根本轉不開，這正是雙足的優勢所在。

然後 Herbert 注意到一個細節：機器人收玩具時，並非老老實實一個個撿，而是把一堆一起滑進籃子，藉助重力幫忙，最後只剩兩三個才彎腰撿起。兩人開始猜測，這究竟是機械地模仿示教動作，還是模型真的學會了“滑一下更省事”的竅門。

Scott 笑著說，人類本來就很懶，他自己也會一把全推下去，能少彎幾次腰就少彎幾次。

Scott 接著把這段清理視頻與上個月的洗碗機視頻做了對比。他說當時看洗碗機那段時，有種“第六感”，會提前猜到下一步——比如機器人抬腳去頂洗碗機門，他腦子裡剛冒出“現在應該用腳”，畫面裡就真的發生了，整個人都愣住了。

這次也一樣，很多觀眾看到機器人撿起遙控器，下意識以為它要坐沙發看電視，這說明大家已經開始對這類行為形成直覺預期，覺得它不是在執行一串死板腳本，而更像一個懂得偷懶的同事。

然後 Herbert 點名一個動作：機器人往右挪半步的時候，沒有停下、轉身、走兩步再轉回來，而是側向小碎步“蹭”過去。

Scott 的解釋挺有意思，他說這背後其實是個決策問題：當目標位移很小，模型會覺得側向挪一挪更划算；如果要從沙發一頭走到另一頭，那就會選擇完整轉身、正常行走。

在他看來，這就是大量訓練數據加上獎勵函數的結果，模型在不同場景裡反覆試，慢慢學出一個規則：什麼距離用小碎步，什麼距離該轉身走路。

對我來說，這種“偷懶感”反而是智能的信號，因為它說明機器人開始在意效率，而不是隻顧動作好看。

家庭 vs 工廠：人形機器人最先會真正在哪兒工作？

順著這個“偷懶感”，Herbert 就把視角拉回這些公司的定位。

Figure 發 2.5 分鐘視頻是在家裡修遙控器，1X 直接打標籤說自己是做家庭場景的公司，特斯拉官網上 Optimus 的介紹也幾乎全是幫你在家裡幹活的畫面。

但他話鋒一轉，說真實情況可能完全相反：未來 5 年你在客廳裡見到人形機器人，概率其實挺低。

他給了兩個核心理由：

安全問題
家裡有小孩、老人、殘障人士，還有狗狗貓貓，這些在安全評估裡都算“脆弱人群”。一臺沒完全成熟的 200 斤機器人在這種環境裡出事，誰都扛不住。
付費能力
普通家庭一年願意為一個機器人付的，大概也就車的級別，2 萬到 3 萬美元，差不多 20 萬到 30 萬人民幣。
但工廠呢，同樣一臺機器人，一年付 10 萬到 20 萬美元也能算得過賬，而且可賣的崗位是“幾十萬、幾百萬”個，遠沒到天花板。

所以在 Herbert 眼裡，這些公司現在拼命拍家庭場景視頻，其實更像是兩件事：

給大眾和投資人看，營造一種“未來就在你家客廳”的想象；
拿家庭這種高度多樣的環境當訓練場，先不急著真賣給你，而是用來採集各種亂七八糟的長尾數據，讓機器人在工廠裡上崗時更快、更聰明。

Scott 基本全盤同意。他也直接算賬：既然有工廠願意一年掏 10 萬、20 萬美元租一臺機器人，那企業沒理由先去賣給只出得起 2 萬、3 萬的家庭。

只有當機器人的產能多到有點“供過於求”，才會慢慢往家裡走。而且就算進家，也很可能是那種“房間裡沒人它才動”的模式，離大家想象中端茶倒水的“機器人管家”，還得好幾年。

兩個人最後達成一個挺有意思的共識：從商業邏輯看，早期最合理的落地一定是工廠、倉庫這種商業場景。所以大家嘴上都在講“家庭助手”，心裡想的卻是“工業勞動力”。

在這種反差下，Figure 現在能在視頻裡展示的那些能力，其實已經是一個不小的里程碑。

那接下來問題就來了：如果真正的大頭在工廠，誰在背後搭這套“人形機器人經濟”的基礎設施？特斯拉現在押注的 Optimus、還有叫 Cortex 的那塊“超級大腦”，到底想把盤子鋪多大？

特斯拉的規模賭注：Optimus、Cortex 與“機器人經濟”

Herbert 這段講得很直白：Gen 3 Optimus 最快這個月、最慢下個月亮相，目標是能量產“幾萬臺”，後面還有 Gen 4。可他反覆強調，真正關鍵不是外面的那層鐵皮，而是 Cortex-2 這個“腦子”。

他引用 Peter Diamandis 的說法，說現在看不起人形機器人經濟，就像 1993 年說互聯網沒用一樣。基礎設施正在你眼前搭起來，只是很多投資人只盯著有沒有酷炫演示，忽略了背後的算力和數據中心。

Herbert 的判斷是，特斯拉這波最值得盯的就是 Cortex-2。FSD 那套大腦已經有了，但要讓 Optimus 聰明一個數量級，需要一個超大的超級計算機，再加上“幾萬臺人形機器人”的數字遊樂場去訓練。

他提到 Joe Tegtmeyer 拍到的現場，機房樓已經起來，6 個冷卻裝置就位，馬斯克說大概 1 個月能先點亮一半機櫃，剩下邊建邊擴容，一直拉到夏天。

更狠的是產能佈局。Fremont 那邊準備停掉 Model S 和 Model X 產線，改成第一條人形機器人生產線，目標是每年 100 萬臺。德州 Giga 旁邊又開新工地，規劃是每年 1000 萬臺。

我自己聽到這個數字的感覺是：這不是做個小眾高端玩具，而是直接按“未來勞動力”在規劃供應鏈和工廠。

Scott 接著把現在的人形機器人，類比成當年的 General Magic。那家公司在 1980 年代末就想做“智能手機”，有觸摸屏、有表情符號、有移動郵件，但當時還在模擬電話時代，網絡、芯片、運營商合作都沒到位，結果願景太超前，商業上失敗了。

他認同 Peter Diamandis 的觀點：1993 年大家剛聽說互聯網時，只能想象“家裡有臺上網電腦”，根本想不到會變成口袋裡的手機。人形機器人現在也在類似階段，很多人只看到幾段笨拙的視頻，就下結論說不行。

但從基礎設施角度看，像 Cortex 這樣的算力、推理能力、數據採集，再加上傳感器、零部件供應鏈，都在很快補齊。

他還說，人形機器人領域的“General Magic 時刻”其實已經出現過了，比如本田的 Asimo、早期 Boston Dynamics，那時候幾乎只有他們在做，大家覺得有點酷，但沒啥用。而現在是很多家公司一起衝，同步啃供應鏈和規模化的問題。

當 Herbert 問到“特斯拉是不是落後了”時，Scott 的回答挺冷靜：不同公司走的路不一樣，如果基礎沒打好，後面就容易塌。特斯拉現在看起來節奏慢、曝光少，有可能是在把底層打厚，等到機器人、神經網絡、超級計算機都到一定規模，反而能突然加速。

我個人也偏向這個判斷，真正的勝負手不在一兩段炫酷視頻，而在誰能把算力、數據和產能拉到那個量級。

仿真 vs 真實世界：為什麼僅靠模擬還不夠？

順著這個“量級”的事，Herbert 就搬出了馬斯克那套“仿真加機器人操場”的說法：光有大算力和虛擬環境不夠，他要的是幾臺超級計算機，再加上 2 萬到 3 萬臺 Optimus，在真實的“遊樂場”裡摸索、擺弄東西，把帶真實物理的經驗喂回仿真，仿真再反哺現實，這樣滾雪球。

然後他就拋出了一個問題：Figure 現在既沒 Colossus 那種超算，也沒上萬臺機器人，怎麼還能推進得這麼快？

Scott 的態度挺剋制，他說自己一輩子都在做仿真，但仿真永遠只是工具，核心是幫你加快設計迭代、提前踩坑，而不是替代現實。你可以用 CAD、數字孿生去看可達性、碰撞、節拍，大量問題能提前發現，但最後一定要在真實機器人和產線裡跑一遍，才知道哪些假設是錯的。

接著他舉了 ABB 和 NVIDIA Omniverse 的例子，現在大家都在把 CAD 模型搬進這種高保真虛擬世界，看起來特別真，光影、材質都像工廠實拍。但他提醒說，這種只是“皮相”，真正難的是把機器人和機構在現實裡的運動方式、關節極限、柔性這些都建進去。

仿真畫面再像照片，如果機器人從 A 點走到 B 點的軌跡、加減速跟真機不一樣，那對工程決策意義就很有限。

Scott 還專門強調，工業機器人運動根本不是“聽物理引擎的”，而是聽控制器裡工程師寫的啟發式規則。所以想要高保真，你得把真實控制器的軟件整個塞進 Omniverse，變成“虛擬控制器”。

ABB 這次就是把自家控制器抽出來接進仿真，讓虛擬機器人在 Omniverse 裡的節拍、路徑選擇，和真機能做到大概 99% 的吻合。不過他也說了，這個 99% 只侷限在“機器人本體怎麼動”，旁邊的輸送線、夾具、工藝過程，差距還很大。

比如噴漆、鑽孔、打磨這種工藝，現在根本做不到 99% 仿真，你在軟件裡調一堆參數，最後還是得上線試，發現噴塗不均、孔位偏差，再回頭改。

所以他認同馬斯克那種思路：仿真適合做預訓練，把策略、路徑先練個七七八八，但要真正變得成熟可靠，還是得進現實世界的“健身房”，讓機器人去抓真的瓶子、摸真的物料，把仿真和實機來回對齊。

Herbert 這時又把尺度拉滿，說馬斯克要的是全球最大級別的超算集群，什麼 Cortex-1、Cortex-2，還有 Colossus-1、2、3，再配 2 萬到 3 萬臺人形機器人一起訓練。然後他提到 ABB 和 NVIDIA 說“sim-to-real 差距已經彌合到 99%”，問這是不是意味著規模不再重要。

Scott 立刻潑了個冷水，說這個 99% 只是指 ABB 機器人在 Omniverse 裡的動作和真機很像，不代表整個工廠、所有工藝都被完美還原。鑽孔在仿真裡可能就是“畫面一黑，洞就出現了”，真正的力、材料去除這些沒人算。

他還翻出自己 30 年前做的“Robot Realistic Simulation”，當時 ABB、FANUC、KUKA 都不肯公開控制器細節，他們最後只能讓廠商把控制器代碼封成黑盒，插進仿真軟件裡，這樣虛擬 ABB 就像 ABB，虛擬 FANUC 就像 FANUC，因為不同品牌機構不一樣，路徑規劃的“小心思”也不一樣，這些都得靠真實控制器來還原。

以視頻為策略：Rhoda AI 和機器人學習的新路徑

接著他就把鏡頭拉回現實，說你看仿真再真，落地還得靠數據，但機器人最大的問題就是數據不夠。

然後他提到一個剛從隱身狀態出來的公司，叫 Rhoda AI，在帕洛阿爾託，說自己通過一個“direct video action model”，把機器人控制整個換成“生成視頻”：先用上千萬小時人類視頻做預訓練，再用大概 10 小時針對某個任務的演示，就能搞定很難的工業任務，比如從供應商來的零件箱裡，把零件一件件倒出來上線。

這個思路其實挺直白：

預訓練階段，全吃人類視頻，看人手怎麼抓、怎麼擰、怎麼挪；
微調階段，只給它看具體產線怎麼倒這個型號的零件。

因為前面已經學了各種人類操作模式，後面那 10 小時更像是在告訴它“在這個場景裡，哪些動作組合是對的”。

Scott 就說，這跟 NVIDIA、1X 最近講的東西很像，有點像給 Sora 一幀畫面，讓它想象接下來幾秒會發生什麼。Rhoda 現在就是讓機器人看到當前畫面和目標，然後預測接下來幾幀應該長什麼樣，再按這個“預告片”去執行動作。

關鍵難點在於中間那塊逆動力學模型，把人手的軌跡翻譯成機器人關節角度和力，這個 IDM 是整套系統的“翻譯官”。

他還挺欣賞 Rhoda 的一點，是官網放了好幾個連續幾小時的原始視頻，不剪輯那種。你能看到機器人反覆搬箱子、拿零件，也能看到各種翻車現場。比如有一段是兩臺機器人抬箱子，綁帶突然滑掉了，本來按傳統方案，這種就要人來救場，但視頻裡能看到它倆自己重新調整抓取姿勢，把局面救回來。

所以 Rhoda 的野心，就是用這種視頻預測加 IDM，把互聯網上已經存在的海量人類視頻變成機器人訓練集，而不是每個新任務都去錄成百上千小時示教數據。

Herbert 馬上聯想到特斯拉 FSD，說這不就跟 Ashok Elluswamy 之前做的那個演示很像嗎。

當時他放了一段車在城市街道開車的視頻，看起來就是正常行車記錄，結果最後才揭曉，其實那整段畫面都是網絡自己生成的，是車載電腦在預測“接下來我會看到什麼”。特斯拉就是先把海量行車視頻餵給神經網絡，讓它學會往未來幾幀去推，然後再在這些“想象出來的未來”裡做規劃。

Scott 說他管這個叫“奇異博士模式”，系統在腦子裡同時跑很多條未來時間線，試不同的路徑，再選一個最好的來執行。

結語：從“看視頻”到“動手”，鋼鐵身體裡的時間線

一個人形機器人，在普通客廳裡，笨拙但完整地把一件事做到底。它不是跑酷、不是跳舞，而是像個實習生一樣，把桌子擦完、把東西收好、把電視關掉。

這一幕背後，是好幾層東西疊在一起：

有“把房間變成某個目標狀態”的任務理解能力；
有靠海量視頻和示教學出來的手部操作；
有在狹窄空間裡怎麼走、什麼時候偷懶用滑的而不是搬的那種效率判斷；
還有現實世界和仿真世界來回迭代的訓練路徑。

對我來說，更重要的不是今天誰的 demo 更順、更像樣，而是一個趨勢：從 Figure、特斯拉，到 Rhoda AI，這些團隊都在同一條時間線上，把“看視頻、想未來、再動手”的能力，一點點塞進鋼鐵身體裡。

現在看還很幼稚、很貴、很不安全，但如果把時間軸拉長到 5 年、10 年，再回頭看今天的客廳視頻，它大概率會像當年的撥號上網、磚頭手機一樣：土是很土，但方向沒錯。

人形機器人2026關鍵一役：特斯拉 Optimus 已經落後了？Figure客廳影片深度拆解

開場：兩分鐘客廳視頻，背後到底有多“真”？

客廳突破：為什麼 Figure 的新演示意義重大？

自主性的內部機制：Figure 可能如何“思考”整理客廳？

靈巧度與物理感知：為什麼遙控器和枕頭的動作如此突出？

運動、空間與“機器人懶惰”：行走行為透露了什麼？

家庭 vs 工廠：人形機器人最先會真正在哪兒工作？

特斯拉的規模賭注：Optimus、Cortex 與“機器人經濟”

仿真 vs 真實世界：為什麼僅靠模擬還不夠？

以視頻為策略：Rhoda AI 和機器人學習的新路徑

結語：從“看視頻”到“動手”，鋼鐵身體裡的時間線

Related Posts

馬斯克失算？特斯拉FSD護城河被AI填平？深度拆解Robotaxi推遲真相，揭秘小鵬與奔馳的真實底牌

特斯拉2026 Q1財報解讀：燒錢 250億？ Robotaxi 延期？硬件3老車主被坑？

特斯拉 AI5 流片定型！如何用不到十分之一的成本，硬剛 NVIDIA Blackwell？

特斯拉股價暴跌21% 抄底還是割肉？Robotaxi將提前爆發還是再次跳票？FSD 14.3與SpaceX合併內幕