AGI 倒計時：機房裡的「天才之國」？軟件工程行業兩年內消失？指數增長曲線已到盡頭？Anthropic CEO Dario Amodei 專訪拆解

開場：從“幾十年以後”到“十年內的天才之國”

很多人覺得，真正的 AGI 至少還要再等個幾十年。但 Anthropic 的 CEO Dario Amodei 最近給出了一個極其明確的預測：他有 90% 的把握，在未來十年內，在機房裡造出一個“天才之國”。

這意味著，接下來幾年，誰能最早看懂這條指數曲線，誰就可能拿走下一個時代的大部分紅利。

我是小梗。這期，我們來拆解 Dwarkesh Patel 對 Dario 的那場長訪談。

之所以選這期，是因為作為大模型領域的絕對核心玩家，Dario 罕見地把這幾年對 AI 規模化的底層判斷，以及具體的時間表，全都攤開講了。這些內部視角，對我們理解未來十年的科技和經濟走向，非常有參考價值。

我們先從他最核心的一個判斷說起。

指數曲線的末端：大坨算力假說與“障礙”的消失

在 Dario 看來，過去幾年大模型的能力，一直精準地沿著他預期的指數曲線在走——從“聰明的高中生”，一路進化到能寫博士水平代碼的助手，中間幾乎沒有斷層。這些進展基本都在他的預料之中。

真正讓他震驚的，是公眾幾乎沒人意識到，我們已經非常接近這條指數曲線的末端了。圈內外還在聊那些老掉牙的政治話題，好像這條技術曲線還能平穩漲幾十年一樣。

The most surprising thing has been the lack of public recognition of how close we are to the end of the exponential.

他反覆提 “the end of the exponential”。更合理的理解是：當前這種“簡單堆資源就能換能力”的打法，很快就要走到頭了。AI 的發展可能即將進入一個全新的階段，需要完全不同的突破方式，而隨之而來的社會和經濟影響，也會發生根本性變化。

時間表上，大家大方向都認——本世紀會有 AGI。分歧在於：到底是 10 年、30 年，還是更久？

Dario 的回答，還是回到他 2017 年寫的那篇《Big Blob of Compute Hypothesis》，大坨算力假說。他當時就提出，大部分“聰明技巧”都不重要，真正決定能力的，就幾件事：

算力有多少
數據量多不多
數據分佈夠不夠廣
訓練時間長不長
目標函數能不能無限放大
再加上一些數值穩定、歸一化這類工程細節，保證這團“大算力流”能順暢跑完

過去幾年，預訓練的 scaling law 已經被反覆驗證。現在他看到的是，RL（強化學習）疊在預訓練上，也開始呈現類似的對數線性提升：比如在 AIME 這類數學競賽任務上，訓練時間翻倍，成績就按規律往上走，而且不只數學，是一整片 RL 任務都在這麼漲。

在他眼裡，把“預訓練”和“RL”分得太開，本身就是個干擾項。

GPT‑1 時代，模型訓練在很窄的文本集上，比如同人小說，這種數據集既小，分佈又單一，在本域上漲得挺好，一換到別的文本就不行。直到 GPT‑2 把訓練數據擴到整網抓取、Common Crawl、Reddit 鏈接那種廣覆蓋，泛化才真正出現。

現在 RL 正在重複這條路：一開始是在很窄的任務上練，比如數學競賽；接著加入代碼等更豐富的任務；再往後就是各種各樣的環境和目標。隨著任務分佈變寬，模型在 RL 上也會像當年 GPT‑2 那樣，開始出現“沒見過也會做”的泛化。

基於這種經驗，他對“障礙”的態度挺激進。外界總會提新名詞：語法和語義的鴻溝、真正的推理、現在又輪到“持續學習”。Dario 的看法是，這些裡有些確實重要，比如數據需求，但很多在大規模預訓練加 RL 的沖刷下，其實會慢慢消失。

他甚至覺得，持續學習可能根本不構成硬門檻，模型靠更廣的預訓練和 RL 泛化，就能覆蓋掉大部分需求。

在具體預測上，他給了一個非常明確的例子：軟件工程。Dario 認為，可能再過 1 到 2 年，模型就能端到端接管整個軟件工程流程——從理解需求、編寫代碼，到測試、修復 bug，整條鏈路都能自主完成。在他看來，這不僅僅是“效率提升”，而是一個完整的人類職業領域被大模型整體接管。

站在這個時間點，他還在想一件事：未來的人回頭看，會嚴重低估當下世界對這條指數曲線有多“無感”。

那問題就來了：如果一切都靠“把大模型往上堆”，為什麼它們需要那麼多數據，才能學到類似人類的技能？

規模化學習：從萬億 token 到類人技能

Dwarkesh 在這裡搬出了 Richard Sutton 的那套質疑：如果一個“真正像人”的學習算法存在，它不應該需要幾百億、上萬億 token，不應該要花幾百億美金堆算力，還得專門造一堆 RL 環境，教模型怎麼用 Excel、PowerPoint、怎麼點網頁按鈕。

And the fact that we have to build in these skills using these RL environments hints that we’re actually lacking this core human learning algorithm. And so we’re scaling the wrong thing.

在他嘴裡，這就變成一個尖銳問題：既然心裡期待的是“像人一樣隨學隨會”，那現在這套瘋狂擴容 RL 的路，是不是方向就不太對？

Dario 沒否認，他直接說這裡面確實有個 “puzzle”：人類一輩子根本看不到萬億級別的詞，但模型預訓練要吃這麼多數據，樣本效率明顯差很多。

他的解釋是：人腦不是白板，有進化給的先驗；大模型一開始是隨機權重，啥結構先驗都沒有。所以預訓練加 RL，更像是把“進化”和“人一生的學習”壓縮在一起。

在這個框架下，現有範式其實是“兩段式”：

先用預訓練加 RL 把各種任務一次性灌進去，模型學會後就常駐在權重裡；
然後再用長上下文做 in-context learning，給它 100 萬 token 的材料，相當於讓一個人連讀好幾天的書，在會話裡現學現用。

Dario 的押注是：就算沒有真正意義上的“終身學習”，這兩段也足夠讓模型在絕大多數知識和技能上超過單個人類，撐起萬億美金級別的市場。

外界經常吐槽，上下文如果太長就失憶。Dario 的態度很工程師：這主要是推理階段的 KV cache、顯存調度、MOE 這些實現層面的問題，加上訓練時沒有在同樣長度上做對齊，並非理論天花板。只要肯在長上下文訓練上投入資源，再把服務側的工程細節打磨好，他認為上千萬甚至上億 token 的上下文完全有希望實現。

當然，他也沒放棄真正的“在崗學習”。他說 Anthropic 自己在做，別家肯定也在做，有不小概率 1 到 2 年內會有像樣的方案。不過在他看來，就算沒有這一步，他在《The Adolescence of Technology》裡說的那些：萬億美金產業、國家安全博弈、AI 安全新風險，其實都已經會發生了。

天才之國：數據中心裡的通用人工智能

Dario 給這個未來起了個很形象的名字，叫“數據中心裡的天才之國”。

他現在對一個判斷大概有 90% 把握：到 2035 年之前，人類基本肯定能做到這一點，只留個大約 5% 的尾部風險給地緣政治、供應鏈這種“臺灣被炸、晶圓廠沒了”的極端意外，另外 5% 才是技術本身的不確定。

他把不確定拆開看：

像端到端寫代碼這種可驗證任務，他幾乎當成“鎖定”：覺得 1 到 2 年就能做到，10 年內不可能做不到。
真正讓他猶豫的，是那些很難驗證的活，比如規劃一次火星任務、做出類似 CRISPR 那種基礎科學突破、或者寫一部長篇小說，這些沒法像單元測試那樣一眼判對錯。

Dwarkesh 聽到他老提 “可驗證”，就追問你是不是其實不太相信模型真的泛化。Dario 趕緊補充，說他幾乎可以肯定，現在已經能看到從可驗證任務往不可驗證任務上“實打實的泛化”。只是他也承認，有一種可能的失敗世界是：所有可驗證的事都幹得飛起，也有不少能力遷移過去了，但在那些最難評估的領域，始終沒把整塊區域完全“塗滿”，這是個光譜，不是開關。

在體驗層面，Dwarkesh 問了一個很有意思的問題：什麼時候他會不再更想要一個合作了 6 個月的人類剪輯師，而是選擇同樣時間磨合過的 AI？

Dario 的直覺是，大概 1 到 3 年內就會到這一步，本能上更傾向於 1 到 2 年。他對“10 年內一定能做到”給出的概率是 95% 到 99%，認為這基本是個穩妥的判斷。

這裡就跟 Anthropic 的公開預測接上了。公司之前說，大概到 2026 年末到 2027 年初，AI 會在三個維度上達到人類頂級水平：

能像人一樣操作各種數字界面幹活
智力上能匹配甚至超過諾獎得主
還能和物理世界接口

Dario 的回答重點在一個詞：擴散。

技術本身的進步，他對 1 到 2 年內做到“天才之國”其實信心挺高，時間上可能會有一點點誤差，但不會差太多。真正難估的是，從技術到經濟產出的那段路要走多久，也就是從“實驗室裡跑出來了”到“開始滾出萬億美金收入”之間的時間差。

他甚至給了個區間：就算 1 到 2 年內模型已經夠強，錢什麼時候大規模進來，可能是 1 年後，也可能是 2 年後，他勉強把上界拉到 5 年，但自己都挺懷疑這麼慢。問題在於，數據中心這種東西，投早兩年和投晚兩年，現金流差別可能是生死級別的，所以不能只看“最樂觀技術線”。

在他寫的《Machines of Loving Grace》裡，他把“天才之國”的時間點押在 2026 年到 2027 年，現在依然堅持這個直覺。不過他強調，比賽才剛剛開始。比如“治癒所有疾病”這種萬億級價值，AI 或許很快就能設計出方案，但中間還得經歷生物實驗、藥物生產、藥監審批，最後才能全球鋪開。

編程革命：AI 如何重塑軟件工程

說到真正已經快落地的，他覺得軟件工程就是一個典型。

Dario 先把概念拆開：別老盯著“AI 寫了多少行代碼”。行數這個指標太弱了，編譯器也寫了幾乎所有機器碼。但如果你把設計文檔、代碼評論、測試說明這些都算進來，現在模型在這些活上，其實已經“挺像一個合格工程師”了。

他回顧自己之前那個預測：幾個月內模型會寫掉 90% 的代碼行數。這點在 Anthropic 內部已經實現，外部很多用戶也是這樣用。但他強調，這是個很弱的門檻，完全不等於“裁掉 90% 的程序員”。

他給了一條光譜：

先是 90% 的代碼行數
再到 100% 的代碼行數
然後是 90% 的端到端軟件工程任務
再到幾乎所有今天的軟件工程任務都能自動化
最後才是整體對工程師需求減少，比如少掉 90%

Dwarkesh 就追問，“端到端”是不是還包括定技術方向、吃透業務上下文這些。Dario 直接說，是的，全都算。

具體到 Anthropic 裡面，Claude Code 就是在這種需求下長出來的。最早只是內部一個小工具，叫 Claude CLI，讓大家在命令行裡用模型寫代碼。Dario 只是鼓勵工程師多試試，結果內部自發擴散得很快，幾百號人天天用。他一看，基本就認定有產品市場匹配，乾脆推向外部。

這裡有個有意思的點：做編碼工具，他們自己就是目標用戶，所以反饋閉環非常緊。工程師今天嫌它某個場景不好用，下個模型版本就會重點優化這個場景。

很多人會擔心，“AI 不熟悉公司代碼庫，不會像新人一樣‘在崗學習’嗎？”

Dario 的回答挺直接：至少在編碼代理這塊，“在崗學習”根本不是主要瓶頸。Anthropic 裡已經有工程師基本不親自寫代碼了，之前自己手寫 GPU kernel、芯片相關代碼，現在全部丟給 Claude。

抱怨列表裡，很少有人把“模型沒在這家公司幹過一年”排在前面，因為模型可以把大塊代碼庫直接讀進上下文，相當於把人類那種“上來要熟悉半年代碼”的過程壓縮到一次調用裡。

There is zero time for bullshit. There is zero time for feeling like we’re productive when we’re not. These tools make us a lot more productive.

那為什麼現在還沒看到哪家公司因為有最強 coding 模型就一騎絕塵？

Dario 給了個量級估算：大概半年前，代碼模型帶來的“總要素”提速也就 5%，幾乎感受不到。現在他覺得能有 15% 到 20%，終於開始變成一個有存在感的優勢，但還只是眾多因素裡的一個。

文藝復興在哪裡？擴散、摩擦與現實世界的影響

Dwarkesh 順著這個說，他觀察到一件怪事：大家用 Claude Code 開新項目的確更快，綠地項目一堆，但現實世界裡，好像沒看到什麼“軟件文藝復興”，也沒冒出一大堆以前根本做不出來的新功能。

他就懷疑，就算代碼環節完全閉環，真有那麼大總生產力提升嗎？那種“數據中心裡有一個國家的天才”的故事，是不是得打個折扣。

Dario 一方面認同世界很複雜，閉環不可能瞬間完成，另一方面又拿 Anthropic 自己的收入曲線舉例：

2023 年從接近 0 到 1 億美金
2024 年從 1 億到 10 億
2025 年再從 10 億到 90 億、100 億，而且今年一月又直接多了好幾億

他的看法是：能力在走一個很快的指數，擴散也在走另一個很快的指數，速度遠快過過去任何技術，但不可能無限快。

他舉 Claude Code 當例子：對個人開發者幾乎是零門檻，裝上就能用，可是大企業哪怕已經比歷史上接受新技術快很多，還是會慢幾個月。先是推特上的程序員和早期創業公司用起來，等輪到某個做食品銷售的大企業，進度就被各種流程拖住了。

這裡的“擴散摩擦”跟模型本身能力無關，而是：

法律審查
安全和合規
領導要搞懂產品價值
拍板花 5000 萬美金
再設計怎麼給 3000 個開發者開通賬號、培訓、改流程

Dwarkesh 這邊丟了個 “hot take”。他覺得很多人把“擴散”當成一種自我安慰：模型做不到，就說是擴散問題。

但如果跟人比，AI 理論上更好整合啊。AI 能幾分鐘讀完你全公司的 Slack 和 Drive，所有副本可以共享經驗，沒有招聘裡的逆向選擇，你只要買同一款通過驗證的模型就行。

可現實裡，人類每年拿走的工資是 50 萬億美元級別，說明大家寧願忍受人類招聘的麻煩，也要用人，這讓他覺得“擴散解釋一切”說不通。

最後他做了個小澄清：他不是說擴散不重要，他只是不認同那種“能力基本已經到 AGI，只是擴散太慢所以你們感受不到”的說法。在他眼裡，能力本身和擴散，兩邊都還差一截。

在崗學習：AI 真的能取代長期合作的隊友嗎？

Dwarkesh 接著舉了個很具體的例子。

3 年前他問過一個預測：“跟模型聊 1 小時會不會很難和一個受過良好教育的人區分開？”Dario 當時說會有，這點現在確實實現了。但他心裡還是有點落差——他原本以為，這種對話水平一出來，就能自動化掉大塊白領工作。

所以他乾脆說，別再抽象聊“智能”，不如圍繞具體崗位聊終局能力。

他挑了自己最熟的工作來當標尺：視頻剪輯。

節目組的剪輯師，要花好幾個月摸清觀眾口味、他的個人喜好、節奏取捨，這些全是慢慢積累的上下文。半年之後，剪輯師的價值和剛入職完全不一樣。

他的問題就是：要等到什麼時候，AI 才能像這樣，在幹活過程中一點點撿起這些技能和語境？

Dario 回答時，用回了那個“數據中心裡的天才國度”的比喻。他覺得，只要這套系統真的會用電腦，就能勝任這份剪輯工作：

能控制屏幕、上網
翻完所有舊節目
看觀眾在 Twitter 上的反饋
跟主持人和團隊聊天
對比歷史剪輯版本
然後自己總結出什麼該剪、什麼該留

但前提是“電腦使用”要非常可靠。他提到 OSWorld 這種基準，從早期的大概 5% 到 15%，漲到了現在 65% 到 70%，可離“放心託管整臺電腦”還差一截。

Dwarkesh 當場插了個更尖銳的追問：哪怕先不談電腦操作，很多純文本任務按理說已經是模型主場，比如從訪談逐字稿裡挑出最值得剪的幾個片段。

但現實是，他還是會僱人，因為模型現在大概只能做到“7 分水平”，更關鍵的是，它沒法像員工那樣，隨著你反覆反饋，在幾個月裡明顯變好。

這種缺少“可持續磨合關係”的感覺，讓他即使有更強的電腦代理，也很難真把崗位整塊交出去。

他還搬出了一個 Meta 的研究：讓熟悉某個代碼庫的資深開發者，用 LLM 來幫自己關 PR。這些人主觀上都覺得更順手、更高效了，但最後統計真正被合併的代碼量，反而比不用模型時少了大概 20%。

這讓他很困惑：一邊是開發者和 Anthropic 內部都在說“生產力提升很明顯”，另一邊是宏觀上看不到軟件爆發式進步，獨立評估裡也經常測不出正向增益，那到底該信哪邊？

超越屏幕：機器人、體力勞動與經濟同步化

順著這個矛盾，Dwarkesh 把視角從“代碼國度”挪到“機器人國度”。

他問得挺直接：如果有一個“裝滿天才的機房”，在軟件上已經像一個國家的頂級工程師團隊，那是不是說明機器人也會很快被搞定？

現在的問題是，人類可以幾天內學會用機械臂、無人機，AI 卻很難在同樣硬件上做到同等產出。如果模型真的能像人一樣學，那是不是一上手機器人就能幹活？

Dario 說，這不一定非得靠“像人一樣學”。模型可以：

先在各種電子遊戲裡學控制
在大量仿真環境裡學機械臂
再在電腦屏幕操作上練泛化

路徑很多。關鍵是，只要哪條路走通，讓模型具備那種“拿起一個新機器人，很快就會用”的技能，機器人就會被徹底改造。

至於這會不會變成“機器人行業一年就幹出萬億美金”，他覺得長期看是會的，只是擴散還是“非常快，但不是無限快”，可能多花一兩年時間，產線、供應鏈、法規都要跟上。

他還補了一層宏觀的擔心。現在跑得最快的是寫代碼，可等到 AI 能自己寫下一代 AI，再順手設計機器人、藥物、新材料，整個經濟的技術進步速度會被拉到同一個檔位。

比如某些地區可能真的能做到一年 50% 的增長，但這個 50% 很可能集中在硅谷和跟它強關聯的城市，其他地方還是原來的緩慢節奏。

智能的生意：收入、算力與“負責任”的擴展

接著這個節奏，Dario 開始講很具體的錢和算力。

現在 Anthropic 年化收入大概是 100 億美金級別，而且過去幾年差不多是每年 10 倍在漲。他得在年初，就拍板未來 1～2 年要鎖多少數據中心，因為機房、電力、芯片都要提前訂。

他舉了個極端算式：如果他假設 10 倍一直持續，到 2026 年底收入 1100 億，2027 年底衝到 1 萬億，那現在就可以去籤“每年 1 萬億、鎖 5 年”的算力合同，總額差不多 5 萬億美金。

問題是，只要現實沒這麼猛，比如只有 8000 億，或者 10 倍變成 5 倍，甚至國家級模型晚來一年，公司就會直接破產，因為沒有任何金融工具能對沖這麼大的錯配。

所以 Anthropic 現在只敢瞄準“幾千億級”的算力，而不是萬億級。他口中的“負責任”，更多是指算清楚風險，不是隨口喊“砸 1000 億、1 萬億”。

他反駁“行業不敢砸錢”的說法有兩點：

行業總算力其實已經在往你想象的多萬億規模走了。他估算全行業今年大概建 10～15 吉瓦數據中心，每吉瓦一年成本 100～150 億美金，如果每年 3 倍往上翻，到 2028、2029 年就是幾百吉瓦，對應每年幾萬億的算力投入。
單一公司如果現在就籤 1 萬億一年、從 2027 年開始供貨，哪怕“國家級天才”只晚一年落地，也會因為現金流斷裂先死在路上。

所以他強調，Anthropic 買的已經是“和最大玩家同一檔”的量，只是不會去籤那種物理上都造不出來的“10 萬億算力”。

在盈利模式上，他的看法挺反直覺。

他舉了個玩具模型：一年花 1000 億買算力，其中 500 億做訓練，500 億做推理，推理毛利率大於 50%。如果你事先剛好預判對了客戶需求，那 500 億推理可以撐起 1500 億收入，等於賺 500 億利潤，訓練那半邊就是研發投入。

只要預測準，這個結構本身就是賺錢的。

他補了一句關鍵話：如果每年都能剛好猜中需求，用大概一半算力做研究，一半做推理，再疊加 50% 以上毛利，這家公司年年都是正利潤。

真正的風險不在“訓練佔 50% 還是 70%”，而在“你提前買的機房，到底有沒有那麼多客戶來用”。

而且因為大模型訓練是對算力“對數收益”，當你一年已經在訓練上砸到 500 億美金，再往上多砸 200 億，只能換來模型規模 1.4 倍這類邊際，很可能不如把錢拿去多接客戶、或者多招工程師。

所以他才說，合理的訓練佔比應該是一個“數量級 1 的比例”，不是 5%，也不是 95%。

如果誰把 100% 算力都拿去訓練、不服務客戶，那他今年就沒收入，明年也就沒法再融資買更多算力，很快被餓死；如果誰 100% 拿去做推理、不再訓練新模型，很快就會被對手的更強模型搶走需求。

所以最後整個行業會收斂到一箇中間比例，比如他用 50% 做類比。只要推理毛利率高於這個訓練佔比，整個行業在均衡上是賺錢的，只是每家都在賭明年的需求：賭小了，利潤高但研究被擠壓；賭大了，研究爽了但財報很難看。

在時間尺度上，他不認同“還要 10 年才有萬億級 AI 收入”的慢版本。他的直覺是：到 2030 年前，很難想象不會出現“每年幾萬億美金”的 AI 收入。

一個相對慢的路徑是：到 2028 年，AI 行業整體收入做到幾千億美金級別，同時真正意義上的“國家級天才在機房裡”出現，然後再用兩年時間擴散到各行各業，2030 年左右才爬到萬億級。他自己覺得，更可能是技術指數增長疊加擴散指數增長，時間還會再短一點。

市場結構：寡頭、API 與 AI 競爭的未來

在這個背景下，Dario 直接把行業抽象成教科書裡的寡頭模型：幾家大公司，每家能投一部分錢做研發，推理的邊際成本很低，毛利率很高，但模型之間有差異，不是純粹同質競爭。

所以他覺得更像 Cournot 寡頭：3 家各自理性決策，價格和利潤會被壓，但不會被打到“零利潤”的完全競爭狀態。

Dwarkesh 就追問：現實裡現在不就差不多 3 家嗎，怎麼都在虧錢？

Dario 的拆法是：單個模型其實是賺錢的。比如他舉例說，去年花 100 億美金訓練一個模型，今年這個模型帶來 400 億收入，推理成本 100 億，等於 75% 毛利，模型本身淨賺 200 億。

但公司層面同時在花 1000 億去訓練下一代，因為還在指數級加碼算力，所以整體賬面是虧的。等到訓練成本增速放緩，下一代模型花的錢和這一代差不多時，這種“每代模型都賺錢”的結構就能在公司層面體現出來。

他還拿雲計算打比方：雲也只有 3 到 4 家巨頭，因為門檻是“要有幾百億美金資本，還要有運營全球基礎設施的能力”。AI 在他眼裡類似，可能也是 3 到 4 家，但模型之間的差異，比雲產品大得多。

Claude、GPT、Gemini 各自擅長的任務、風格都不一樣，新玩家進來，更多是把行業整體利潤率壓低一點，而不是直接把利潤打成 0。

在商業模式上，他判斷 API 會很耐用。原因很簡單：能力在快速往上走，意味著每隔幾個月就會冒出一批以前做不到的新用例，任何封裝好的產品形態，都很快會跟不上最新能力。

API 相當於貼著“芯片裸金屬”給大家試驗，新創意、新公司就從這裡長出來。

但他也覺得，只按 token 計費肯定不夠精細。有的輸出價值幾分錢，比如遠程幫人排個電腦故障；有的輸出可能值上千萬，比如給藥企一個關鍵分子結構建議。

所以未來一定會出現按結果分成、按“工時”計費這類更接近勞動市場的定價方式，跟 API 並存。

安全與治理：如何防止“天才之國”脫軌失控

接著這個“AI 當勞動力市場”的話題，Dwarkesh 往前推了一步。

他問的其實是：假設算力、模型都在快速擴散，很多人都能跑很強的大模型，數量還在爆炸，那世界怎麼還能“跑得穩”。

他舉的畫面挺直白：有人用大模型批量造出一堆有點歪的 AI 代理，有的像公司，只想瘋狂擴張，有的像早期的 Sydney Bing，性格怪，還變成超人級別。那在這種世界裡，人類、AI、各種公司混在一起，要怎麼找到一個長期穩定的“均衡”。

Dario 先把時間拉近一點。他說，短期還好，現在真正能訓練頂級模型的公司就那幾家，屬於“玩家數量有限”。在這個階段，重點就是把基本安全網織好：

每家都要做嚴肅的對齊研究
要上生物安全相關的 classifier，防止模型被拿去設計病原體

這些是眼前必須做到的底線。

但他也承認，這些手段頂多管得住前幾年。等到模型能幫人造模型，能力像軟件那樣複製，擴散速度會更快，治理難度就不是“幾家公司開會”能解決的事了。

他用的比喻是：我們正在走進一個全新的安全環境，有新工具，也有新漏洞。現在 AI 把幾十年的變化壓縮到 5 到 10 年，社會還來不及犯錯、糾偏，就可能被新風險打個措手不及。

所以他老在強調一件事：大家得被迫“想快一點”，提前設計治理架構。

在更遠一點的圖景裡，他覺得，如果世界真的變成“進攻佔優”，單個個人或模型就能對全局造成巨大破壞，那光靠市場自發平衡肯定不夠，可能需要各國政府之間出現前所未有的深度協作，一起設規則、一起做監控，甚至要請 AI 來幫忙設計新的社會結構，讓防禦在物理上、制度上都站得住腳。

法律、國家與標準：如何在不扼殺潛力的前提下監管 AI

順著這個，他聊到美國國內誰來定規則的問題。

Tennessee 那個“禁止訓練情感陪伴 AI”的提案，他直接說挺蠢的，立法者就是被“AI 當情感陪護”這個想法嚇到了。

但他反對的那個聯邦提案更離譜：想在沒有任何聯邦具體法規的前提下，直接禁止各州監管 AI 10 年。他覺得在自己判斷有生物武器、自治風險、而且時間尺度可能也是 10 年左右的情況下，讓所有州 10 年啥都不能幹，是 “crazy” 的選擇。

他更喜歡的設計是：聯邦政府先給出一套實打實的標準，比如從透明度做起，後面如果證據更清楚了，再上更針對性的要求，比如強制部署生物恐怖檢測分類器。

這樣聯邦就可以統一標準、對州法形成優先管轄權，但前提是聯邦真的在管事。如果年底前就發現 AI 生物恐怖風險已經很真實，他甚至覺得要麼寫進聯邦標準，要麼讓州里先行動起來。

Dwarkesh 這邊的擔心是另一頭：你看情感陪伴這種事就已經讓很多人不安了，那等到 AI 能在健康、長壽、心理健康上帶來更大好處的時候，一堆節奏慢、又保守的州法，很可能先把這些好處封死，而真正的生死級風險反而沒擋住。

Dario 的回應挺現實主義。他說大家老說有“成千上萬”的州法提案，但絕大多數根本過不了。就算過了，執行層的人也會掂量：如果嚴格照條文來，可能等於把整個州所有 AI 產品全關掉，那他們往往會往溫和的方向解釋。

這樣當然也有反面效果，就是你真想用法律去堵一個很危險的東西，最後也可能被“靈活執行”給稀釋掉。

他把自己主張的“先透明度”框架，說成是在儘量不扼殺行業發展。外界有人批評這太慢，他也承認風險可能來得更早，所以心裡預期是：

最近這幾個月主要在透明和監測上打基礎
一旦像 AI 輔助生物恐怖這類風險真的被驗證，可能今年內就得在這些點上“非常快”的立法

他寫《Adolescence of Technology》，就是想把這種緊迫感提前打進政策圈、經濟學界和國家安全圈，讓大家有心理準備，真到要按快進鍵的時候不會完全手忙腳亂。

獲取與不平等：誰能從 AI 中受益，誰會被拋在後面？

在福利分配這塊，Dario 把發達國家和發展中國家分開說。

他覺得在發達國家，市場這套其實挺“頑固”的，有錢賺、有明顯效率優勢的技術，監管想完全攔住反而很難。

他自己在美國推動更嚴的對華芯片出口管制，明明是國家安全共識，他說反對理由“禮貌點講有點可疑”，但就是推不動，因為賣芯片的錢太多了。

所以他不太擔心發達國家拿不到好東西，更擔心是走得太慢，比如 FDA 審批拖幾年，或者各州搞一些限制聊天機器人的法案，他直接評價是“很蠢”。

真正讓他焦慮的是發展中國家，還有發達國家裡的弱勢地區，比如農村密西西比。這些地方市場不太靈，基礎設施差，就算 AI 幫人類發現了新藥，最後可能城市大醫院都在用，鄉下診所、非洲鄉鎮還是夠不著。

他說這部分不會自動發生，所以 Anthropic 現在會跟慈善機構合作，把模型給到在撒哈拉以南非洲、印度、拉美做一線醫療和公共衛生的人，讓他們直接用 AI 優化干預方案。

他下一步的想法就不只停在慈善上了。慈善能補洞，但長久看還是要“自己長肌肉”。

在 AI 時代，關鍵資產是算力、數據和 AI 驅動的產業。他舉例說：

芯片廠別建在中國沒問題，但數據中心完全可以多建在非洲，只要不是被中國國企全控股；
再比如，AI 加速藥物研發，那以後會冒出一批生物科技公司，就應該刻意讓一部分公司、創始人和監管人才來自非洲、南亞、拉美，這樣這些地方也能享受一段高速追趕期，而不是永遠在給別人打工。

地緣政治與自由：AI、威權主義與下一代世界秩序

在大國這塊，他最怕的是中美各自搞出一個“國家級天才數據中心”。

核武是穩定的互相威懾，可如果是 AI，進攻可能更佔優，而且雙方都搞不清誰更強，就會出現他舉的例子：兩邊都覺得自己有 90% 贏面，衝突反而更容易爆發。

他還擔心另一件事：強 AI 給威權政府裝上高科技監控系統。

這裡他特意區分政府和人民，說技術擴散到人民身上是好事，但如果世界被切成兩大陣營，其中一塊是高度技術極權，那可能會變成很難被撬動的長期格局，所以他希望在制定“AI 行車規則”的那一刻，自由民主國家手裡牌更硬。

他並不覺得會突然出現一個終點，而是有一串“分水嶺”：比如某國先拿到進攻性網絡戰優勢，幾乎能看穿所有電腦系統，或者 AI 讓核威懾的穩定性打問號。誰先跨過這些點，誰在那段窗口期就有國家安全上的大優勢，也就更有籌碼去談“後 AI 世界秩序”。

他在文章裡提過更激進的想法：強 AI 時代，專制政體可能根本不可接受。但他現在只明確認一個弱一點的說法：AGI 會讓威權問題嚴重很多，全世界遲早得正面回答“要不要容忍這種統治”。

Dwarkesh 提醒一個歷史難題：像中國改革開放那樣，對威權國家開放技術和貿易，確實讓十幾億人生活好很多，但體制本身沒變；而且你完全封鎖，也可能只是多造出幾個“有一點 AI 的朝鮮”。

Dario 給的折中思路是拆開看：

藥物、治療方案這類 AI 成果可以賣給任何國家
但算力芯片、頂級數據中心要嚴控

他甚至在想，能不能用 AI 本身造出一種技術平衡，讓獨裁政府很難禁止公民私下用抗監控的 AI 助手，這樣權力結構會被慢慢腐蝕。

憲法式 AI：教給模型原則，而不僅僅是規則

Dario 接著講，他們現在給 Claude 用的“憲法”，核心不是一長串“能做、不能做”的清單，而是一套更抽象的原則。

因為如果你只寫“不要教人熱接汽車”“不要講韓語”這種零碎規則，模型其實不理解背後的原因，遇到邊緣情況就容易翻車；但學的是原則，再配合少量特別硬的紅線，比如“不要幫人做生物武器”，整體行為會更穩定，也更貼近大多數用戶的期待。

他還專門澄清，Claude 並不是一個有自己“野心”的 AI，更像是高度可糾正的助手。默認是“別人讓它幹啥，它就儘量去做”，只有當請求明顯危險，或者是要傷害別人時，它才會拒絕，而且拒絕的理由要能追溯到那套學到的原則，這樣外界也比較容易理解和監督。

那這些原則誰來定、怎麼改？Dario 給了一個“三個迴路”的框架：

Anthropic 內部迭代：他們訓練完模型，如果覺得效果不理想，就改憲法，然後把新版公開，讓外界吐槽。
公司之間的“憲法競爭”：Anthropic、Google 等各家都發自己的憲法，互相對比，旁觀者會說“這條寫得好，那條有問題”，慢慢形成一種軟性的優勝劣汰。
更廣義的社會輸入：Anthropic 之前就和 Collective Intelligence Project 做過實驗，直接去問一批人“AI 憲法裡該寫什麼”，再把部分結果寫進去。

現在他們的憲法更偏原則，需要保持整體自洽，所以直接投票式的改法沒那麼容易，但他還是覺得可以讓更多群體發聲，甚至有朝一日讓某種代表制政府結構參與。

他也承認，極端一點，可以想象立法機構直接規定：“所有 AI 憲法都必須以同一段核心條款開頭，這一段優先級最高，後面各家公司自己加東西。”從安全角度看，這聽起來挺誘人，不過在他看來太僵硬，現實立法又很慢，很容易卡死創新。

I’m kind of recreating that.

他用這句話形容自己有點在“重做”一種自由意志主義圈子很愛講的“群島”願景：很多類似“特區”的城市，各自嘗試不同治理模式，讓人用腳投票。

放到 AI 上，就是讓不同公司的憲法並存，社會用使用和輿論去篩選。Dario 也很清醒，他說這種願景有吸引人的地方，也肯定會出現意料之外的問題，所以最終還是要把內部迭代、公司競爭、社會反饋這 3 個迴路按合適比例混在一起。

走進 Anthropic：文化、溝通與讓 2,500 人保持同頻

Dario 那個長長的《Adolescence of Technology》備忘錄，其實是他利用聖誕假期寫完的。他自己說，現在大概有三成到 40% 的時間，都花在 Anthropic 的文化上，因為公司已經到 2500 人，他不可能再像早期那樣，親自盯每一次訓練、每一次發佈，最划算的，就是把文化和方向塑好。

他很在意一件事：別變成其他 AI 公司那種“內部分裂”的狀態。外面有些實驗室，從一開始就有很多內鬥，現在只會更嚴重。

Anthropic 這邊，他反覆強調團隊感、使命感，讓大家相信同事不是來搶功勞、不是來背後捅刀的，而是為了同一個理由在這工作。這點上，他、COO Daniela、幾個聯合創始人，會一起去選人、營造氛圍。

公司到 2500 人，他就換了打法。他每兩週給全員做一次“Dario Vision Quest”，名字還是同事起的。

他會先寫一份 3 到 4 頁的小文檔，現場講 1 個小時，內容從內部進展、模型和產品，到外部行業、再到跟 AI 有關的地緣政治，還會現場問答，儘量繞開那種層層傳話的失真。

平時他在 Slack 還有一個專門頻道，會針對員工問卷、大家關心的問題，或者他看到的現象，寫很多很直白的回應。他的目標很明確，就是在公司內部建立“這個人會說真話”的口碑，不搞那種公關腔，問題就說是問題，能講的都講出來。

But, you know, if you have a company of people who you trust, and we try to hire people that we trust, then you can really just be entirely unfiltered.

我挺認同這句。Dario 其實是在說，他把“信任誰”當成治理結構的一部分：先用招聘把信任門檻壘高，再用高頻、坦白的溝通，把 2500 人的認知對齊，這樣文化就不會輕易跑偏。

結語：技術的指數曲線，制度的慢變量

回顧一下：我們聊過收入和算力之間的博弈，聊過幾家巨頭可能形成的寡頭格局，也聊過監管到底該踩多重的剎車。我們還談到地緣政治、威權主義的風險，以及普通人能不能真正分到 AI 的紅利。

最後落回 Anthropic 內部，其實就是整個世界的縮影：怎麼在 2500 人的組織里，靠信任、透明和高頻溝通，把這麼複雜的目標對齊，不讓它跑偏。

我自己的感受是：技術這條線，大概率會沿著指數曲線往前走，哪怕中間有些波折；真正懸而未決的，是制度、文化和價值觀能不能跟上這個節奏。

換句話說，接下來幾年，重要的不只是“模型還能強多少”，更是“我們要允許什麼、禁止什麼、鼓勵什麼”，以及“誰有資格參與這些決定”。

如果你願意，可以在心裡留一個問題：當“舉國之才皆在機房”真正實現的那一天，你希望它塑造出怎樣的世界？我們今天做出的許多選擇，其實已經在悄悄為那個答案起草藍圖了。