特斯拉的 Dojo 超級計算機并非普通的硬件項目,可以說是一次“射月計劃”, 是對構建一臺專門解決 AI 問題的特殊超算的大膽嘗試。然而,據彭博社 8/7 報道,特斯拉正在解散 Dojo 項目團隊,意味著 Dojo 已徹底落下帷幕。Dojo 的設計哲學是通過復雜的編程來實現高標準的制造工藝,進而獲得理論上的 峰值性能。
然而在核心人才流失、晶圓級封裝的良率瓶頸以及外部 GPU 技 術快速迭代的三重壓力下,其高昂的研發成本與不確定的商業回報最終難以 為繼。隨著人工智能模型規模的日益龐大和計算需求的持續增長,傳統計算 架構所面臨的性能瓶頸日益凸顯。在此背景下,我們依然看好新一代芯片架 構如晶圓級集成芯片和粗粒度可重構架構,在突破制造瓶頸和良率問題后, 有望提升 AI 計算效率與靈活性。
Dojo 架構的雄心壯志是什么?
Dojo 的設計哲學是極致優化,即通過剝離一代通用計算功能,打造出一個 精簡的、大規模并行的訓練“猛獸”。其架構建立在兩個激進的 AI 內存墻 和互聯墻的破局設計之上:1) 無緩存的雙層存儲系統。Dojo 的 D1 計算芯 片完全摒棄了傳統的緩存層次結構和虛擬內存,354 個內核都能直接訪問 1.25MB 的本地 SRAM。這通過去除復雜的內存管理硬件,最大化了計算密 度和功耗效率。然而,這是典型的 NUMA(Non-Uniform Memory Access) 結構:不在本地 SRAM 中的數據必須從位于獨立的 DIP(Dojo Interface Processors)上的系統級 HBM 中獲取,跨越互連結構的回路會產生顯著延 遲,代價是將內存管理的全部復雜性轉移至軟件層面,并在本地 SRAM 與 遠端 HBM 之間形成了巨大的性能鴻溝。
2) “無膠化(Glueless)”的晶 圓級互連。Dojo 目標的真正核心是其互連設計。特斯拉利用臺積電的 InFO_SoW(晶圓上集成扇出, Integrated Fan-Out System on Wafer)技術 創建了“Training Tile”訓練單元,其并非 PCB 板,而是建立在載體晶圓上 的單一、巨大的多芯片模組,以 5x5 陣列的方式容納 25 個 D1 芯片。這些 芯片專為“無膠化”通信而設計,通過數千個高速 SerDes 鏈路直接連接到 相鄰芯片,創造了一個統一的計算平面,可達 36TB/秒片外帶寬,消除困擾 傳統超算的網絡瓶頸。
如何從 Dojo 的失敗中吸取經驗?
Dojo 的前瞻設計同時也是其弱點,Dojo 的失敗并非單一技術問題,而是三 大深層原因共同作用的結果:
1)人才流失。復雜技術需要深厚的知識儲備, 據彭博報道,2023 年 Dojo 負責人 Ganesh Venkataramanan 離開后成立了 競對初創公司 DensityAI,目前約 20 名核心工程師也離開特斯拉并加入 DensityAI。另外,現任 Dojo 負責人 Peter Bannon 據彭博報道也將離開 特斯拉,導致攻克 Dojo 高度定制化架構所需的技術積淀與 Know-how 嚴重 流失。
2) 良率缺陷。晶圓級互連理論上很“聰明”,但在產業制造過程中 卻極具挑戰性。在晶圓尺寸的模組上,任何微小的布線缺陷或 25 顆 D1 芯 片中任一的貼裝瑕疵,都可能導致高價值的 Training Tile 整體報廢。低良率 使得規模化部署的成本高昂,較難具備商業上的經濟可行性。
3) 戰略層面 轉為以實用為先。Dojo 在延期和低良率中受阻,而外部供應商英偉達和 AMD 等 GPU 性能與生態系統持續高速發展。因此對于特斯拉而言,追求高風險 內部項目的成本效益比開始衰減。特斯拉已將戰略重心轉向更為務實的方 案,即加強與英偉達、AMD、三星等產業鏈伙伴的合作。特斯拉于 7/27 宣 布,與三星簽訂了 165 億美元的合同來制造其 AI6 推理芯片,并在訓練算 力集群方面加強了對英偉達和 AMD 的依賴。
從射月到折戟:淺談特斯拉 Dojo 的隕落
馬斯克宣布中止 Dojo 超級計算機項目并非臨時決策,而是多重因素疊加的結果,其背后原 因主要來自于:技術瓶頸、成本壓力及核心人才流失,這三個原因最終促使公司選擇放棄 其內部的超級計算機研發。
原因#1:始于人才外流 Dojo
項目的首個重大沖擊來自核心團隊集體流失。據彭博社報道,2023 年 Dojo 負責人 Ganesh Venkataramanan 離開后成立了競對初創公司 DensityAI,目前約 20 名核心工程 師也離開特斯拉并加入 DensityAI。另外,現任 Dojo 負責人 Peter Bannon 據彭博報道也 將離開特斯拉。這使項目在研發與執行層面出現明顯真空。DensityAI 聚焦為機器人、AI Agent 及汽車領域的 AI 數據中心提供芯片、硬件及軟件解決方案,產品方向與 Dojo 高度重 疊,直接進入特斯拉原本擬依托 Dojo 搶占的市場賽道。公司由前特斯拉 AI 與芯片研發骨 干創立,包括 Ganesh Venkataramanan、Bill Chang、Benjamin Floerin 等 Dojo 核心負責 人及技術骨干。

原因#2:戰略轉向經濟性,并開始依靠外部合作伙伴
面對核心團隊流失帶來的執行壓力,特斯拉加快調整戰略,轉向依賴行業領先廠商的成熟 方案,以降低研發及量產風險。公司正顯著提升向英偉達與 AMD 的采購比例,因直接引入 同類最佳、經過驗證的 AI 硬件,可以避免從零開發所需的高投入與不確定性,確保完全自 動駕駛(FSD)及 Optimus 機器人等關鍵產品路線圖不受內部硬件瓶頸影響。同時特斯拉 與三星簽訂總額 165 億美元的合同,在德克薩斯州生產下一代 AI6 推理芯片,可印證公司 向實用性戰略的轉變。 馬斯克長期將 Dojo 定位為高風險、高回報的“前瞻性項目”,其可行性核心在于:定制化 架構在性能上的優勢能否足以抵消所需的巨額投入與研發難度。然而,隨著英偉達 Blackwell、 Rubin 系列及 AMD MI350、MI400 系列等高性能芯片相繼推出,Dojo 的潛在性能領先空間 明顯收窄。在內部成本持續攀升、項目進度多次延期且需從其他戰略重點轉移資源的背景 下,項目風險已部分兌現,而回報的不確定性顯著上升。在公司充分考慮成本效益平衡下, 已轉而傾向于外部成熟方案。
原因#3:架構復雜難以駕馭,產業鏈存在制造瓶頸
Dojo 項目的核心矛盾源于其顛覆性的設計理念。該架構摒棄了傳統 CPU/GPU 的通用性設 計思路,專注于將 AI 訓練負載的計算密度與能效推向極致。然而,這種對特定目標的極致 追求,導致其在內存和互連系統上引入了極高的技術復雜度。這種設計在理論上性能卓越, 但在工程實踐與量產中面臨的挑戰巨大,最終成為項目失敗的根本原因。

內存架構:無緩存的雙層系統
Dojo 的內存設計摒棄了通用計算中的標準功能,創造了一個在特定工作負載上高度優化但 在編程和管理上具有挑戰性的系統。在核心層面,Dojo 放棄了傳統的數據側緩存和虛擬內 存支持。D1 芯片上的 354 個處理核心中均沒有 L1/L2/L3 緩存層次結構,而是直接訪問本 地 1.25MB 的 SRAM 塊。通過移除高速緩沖存儲器標簽(Cache tags)、一致性狀態位(State bits)、TLB 和硬件頁表遍歷(Page-walking hardware),Dojo 節省了大量的芯片面積和功 耗,允許更密集的計算陣列。然而,這一設計的代價是將內存管理(如數據局部性、預取 等)的全部復雜性轉移至軟件與編譯器層面,極大地增加了編程難度。
在內存層面,系統呈現出典型的雙層非統一內存訪問(Non-Uniform Memory Access, NUMA)架構,包括:
1)本地內存層 (SRAM):每個核心私有的 1.25MB 高速 SRAM,作 為主要的計算工作區,訪問延遲極低;
2)遠端內存層 (HBM):由 HBM2e/HBM3 構成的大 容量系統內存。關鍵在于,該層內存無法被 D1 計算核心直接尋址,而是掛載于計算陣列邊 緣獨立 DIP(Dojo Interface Processors, Dojo 接口處理器)上。核心若要訪問 HBM,其請 求必須穿越復雜的片上網絡(NoC)抵達 DIP,延遲遠高于訪問本地 SRAM。
這種設計導致核上 SRAM 與片外 HBM 之間形成了巨大的性能鴻溝(Performance Cliff), 對軟件調度和數據排布提出了極為苛刻的要求,進一步加劇了軟件棧的開發與優化挑戰。

互連結構:“無膠化”晶圓級設計
Dojo 的互連架構是其設計的核心亮點,亦是其技術實現中最具挑戰的一環。其目標在于通 過多層級的定制化設計,構建一個具備超高帶寬的大規模統一計算平面。該架構主要包含 兩個層面:
1) 片上互連采用二維網格 (On-Chip 2D Mesh) :在單顆 D1 芯片內部,集成了 354 個計 算核心,并以二維網格結構進行排布。這種設計實現了極高帶寬和低延遲的核心間通信, 為大規模并行計算中的數據共享與同步等操作提供了高效的底層支持。
2) 晶圓級集成下的訓練單元 (Training Tile) :這是 Dojo 架構復雜性的集中體現,也是 其良率問題的核心瓶頸。Training Tile 并非傳統的 PCB 電路板,而是基于臺積電的 InFO_SoW(晶圓上集成扇出, Integrated Fan-Out System on Wafer)技術,在同一基 底晶圓上構建的超大尺寸多芯片模組。該模組以 5x5 陣列集成了 25 顆 D1 芯片。D1 芯片的邊緣設計了 576 個高速雙向 SerDes,實現了芯片間的“無膠化(Glueless)” 直接互連,即無需任何外部橋接芯片即可通信。這種設計使得每顆 D1 芯片能夠與其四 周的鄰近芯片直接通信,單顆芯片的總 I/O 帶寬高達 8TB/s。最終,單個 Training Tile 的總片外帶寬可達 36TB/秒,這一指標遠超傳統數據中心網絡交換設備的能力,是其性 能領先的關鍵。
為實現超越單個訓練單元(Training Tile)的規模化部署,Dojo 采用了多層級的物理集成方 案:通過定制化的高密度連接器,將多個訓練單元集成為一個系統托架(System Tray), 通過托架間的互連,組成完整的機柜(cabinet),并最終形成龐大的 exaPOD 計算集群。 系統的對外通信由 DIP 承擔。DIP 作為連接主機系統的“網關”,通過支持特斯拉自研傳輸 協議(TTP)的標準 PCIe 4.0 總線與服務器進行數據交換。
然而,Dojo 最具雄心的晶圓級集成方案,也構成了其最大的可制造性難題。高良率地制造 一個晶圓尺寸、包含 25 顆 D1 芯片和數千個高速互連的復雜模組,對現有工藝是巨大的考驗。基底晶圓上任何微小的布線缺陷,或是在 D1 芯片的貼裝與鍵合過程中出現任何瑕疵, 都可能導致整個價值不菲的訓練單元直接報廢,從而造成良率損失。
Dojo 的設計哲學,本質上是通過復雜的編程來實現高標準的制造工藝,進而獲得理論上的 峰值性能。精簡的內存模型需要復雜的軟件,前瞻性的晶圓級互連將半導體制造工藝難度 推到了極限,創造了一個在概念上出色但在規模化實現上極其困難的系統。
直接后果體現:極低的良率 這種架構復雜性的直接后果是極低的制造良率。由于新穎設計和芯片集成互連結構所需的 高精度,Dojo 芯片中有較高比例有缺陷且無法使用。這個制造瓶頸是最終的技術障礙,架 構層面的前瞻設計最終導向了產業鏈的剛性制約。
可以說,Dojo 項目的終止是必然結果,其核心在于特斯拉的宏大技術構想與半導體產業客 觀規律之間的尖銳矛盾。前者是特斯拉打造完美 AI 超算的“執念”,后者則是半導體制造 嚴苛的物理規律與經濟成本。當能夠平衡二者的核心技術團隊離開后,項目的失敗便無可 避免。Dojo 是一次雄心勃勃的“射月”計劃,但最終還是回到了地面。這次嘗試劃定了特 斯拉技術愿景的邊界,也為行業留下了關于技術路線與商業化可行性的深刻啟示。