RISC之父向AI晶片潑冷水：AI推理不需要更強GPU，需要另一種硬體

近日，2017 年圖靈獎得主、被稱為“RISC 之父”的David Patterson 最近與Google DeepMind 高級工程師馬曉宇在IEEE Computer 聯合發表了一篇論文——“關於大語言模型推理硬體的挑戰與研究方向”，引發了科技圈的關注與討論。

（來源：arXiv）

David Patterson，這位RISC 架構的奠基人、影響了全球99% 微處理器設計的計算機科學家，在論文開篇就拋出了一個尖銳的判斷：當前AI 芯片的設計思路，即滿載的算力、堆疊的HBM（High Bandwidth Memory，高帶寬配錯）、帶寬優先的互聯，與大語言模型的實際需求。

（圖片來源：UC Berkeley）

某種程度上，這可以說是對整個AI 晶片產業的當頭棒喝。 Patterson 在文中直言，LLM 推理正處於危機之中，不是技術上的危機，而是經濟上的。因為，越來越多的公司發現，即便擁有最先進的GPU 集群，為最先進的模型提供推理服務仍然在大把燒錢。

根據多家媒體報道，微軟、亞馬遜、Google、Meta 四大科技巨頭在2026 年AI 相關資本總支出預計達到約6,000 億美元。這一規模相較於2025 年約3,880 億美元，成長約50% 以上。

儘管具體數字可能存在分歧，但行業共識是：推理成本正在吞噬AI 公司的利潤空間。一邊是飆升的成本，一邊是爆炸性成長的需求，這個產業正經歷一場嚴峻的經濟考驗。

（資料來源：四家公司財報資料）

對於這個問題，Patterson 和馬曉宇在論文中指出，根源在於LLM 推理的兩個階段有著截然不同的計算特性。

Prefill（預填）階段處理輸入序列的所有token，類似於訓練過程，是計算密集型的，現有GPU/TPU 可以較好地應對。但Decode（解碼）階段則完全不同。它是自回歸的，每一步只產生一個輸出token，這使得它天然是記憶體頻寬受限的。

現有的AI 加速器，從設計初就是為訓練優化的，推理只是被當作訓練系統的「縮小版」來對待。結果就是，最昂貴、最強大的晶片，在跑推理任務時可能只發揮了很小一部分能力。

而且讓情況雪上加霜的是，最近湧現的一系列LLM 新趨勢正在進一步加劇推理的難度。論文列舉了6 大壓力源：

首先是MoE（Mixture of Experts，混合專家）架構的興起，以DeepSeek V3 為例，它使用了256 個路由專家，雖然每個token 只激活其中8 個，但整個模型的參數量達到了6,710 億。 MoE 雖然降低了訓練成本，卻大幅擴展了推理時的記憶體佔用和通訊開銷。

其次是推理模型（Reasoning Models）的流行，它們在輸出最終答案前會產生大量思考token，這不僅拉長了生成時間，還讓記憶體中的KV Cache（Key Value Cache，鍵值快取）承受更大壓力。

另外還有多模態的擴展：從純文字走向影像、音訊、視訊生成，資料量急劇膨脹。長上下文（Long Context）需求的增長同樣帶來計算和內存的雙重壓力；RAG（Retrieval-Augmented Generation，檢索增強生成）通過引入外部知識庫增加了推理的資源消耗；最後是Diffusion 模型，雖然它與上述趨勢不同，只增加計算需求而非內存，但也代表了推理複雜度提升的又一個方向。

面對這些挑戰，論文將問題歸結為兩面「牆」：記憶體牆與延遲牆。

記憶體牆的本質是硬體發展的不均衡。 Patterson 引用了一組數據：從2012 年到2022 年，NVIDIA GPU 的64 位元浮點運算能力提升了80 倍，但記憶體頻寬只增加了17 倍。這個差距還在持續擴大。

更麻煩的是，HBM 的成本不降反升。論文引述花旗銀行的研究數據指出，從2023 年到2025 年，HBM 的單位容量成本（/GB）和單位頻寬成本（/GB）和單位頻寬成本（/GB）和單位頻寬成本（/GBps）都上漲了約35%。這與傳統DDR DRAM 形成了鮮明對比，後者的成本在同期下降了近一半。

（資料來源：論文）

造成這種分化的原因在於製造流程：HBM 需要堆疊多層DRAM die，封裝難度隨著堆疊層數和密度的增加而上升，良率問題愈發嚴峻。

（資料來源：論文）

同時，DRAM 密度成長正在減速。從2014 年推出8Gbit DRAM die 到實現四倍增長，將耗費超過10 年時間，而之前這一周期只需3 到6 年。

有些公司曾嘗試用純SRAM 的方案繞開DRAM 和HBM 的限制，例如Cerebras 用晶圓級整合堆滿SRAM，Groq 也採用了類似策略。但LLM 的參數規模很快就超出了片上SRAM 的容量，兩家公司後來都必須加入外部DRAM 支援。

延遲牆的問題同樣棘手。與動輒數週的訓練不同，推理是即時的。使用者發出請求，期望在幾秒鐘內甚至更短時間內得到回應。這意味著端到端延遲至關重要。論文區分了兩種延遲指標：time-to-completion（完成時間）和time-to-first-token（首token 時間）。長輸出序列會拉長前者，長輸入序列和RAG 會影響後者，而推理模型因為產生大量思考token，會同時拖慢兩者。

過去，資料中心的推理通常在單晶片上完成，只有訓練需要超級電腦層級的叢集。因此，連接這些晶片的互聯網絡主要優化頻寬而非延遲。但LLM 改變了遊戲規則：模型太大，推理也需要多晶片系統；軟體層面的分片（sharding）意味著頻繁通訊；而Decode 階段的小batch size 導致網路訊息往往很小。對於這種「頻繁、小消息、大網路」的場景，延遲比頻寬更重要。

基於這些分析，Patterson 和馬曉宇提出了四個值得研究的方向，試圖重新思考LLM 推理硬體的設計邏輯。

第一個方向是高頻寬快閃記憶體（HBF，High Bandwidth Flash）。這個概念最早由SanDisk 提出，SK Hynix 後來也加入了開發。它的想法是像HBM 那樣堆疊閃存die，從而獲得接近HBM 的頻寬和10 倍於HBM 的容量。論文給出了一組對比資料：單一HBF 堆疊可以提供512GB 容量和超過1,600GB/s 的讀取頻寬，而單一HBM4 堆疊只有48GB 容量。

HBF 的弱點在於寫入耐久性有限和讀取延遲較高（微秒級），這意味著它無法取代所有HBM，但非常適合存儲推理時幾乎不更新的模型權重，或者變化緩慢的上下文數據，比如用於LLM 搜索的網頁語料庫、用於代碼助手的代碼庫，甚至研究論文庫。更重要的是，快閃記憶體容量還在以每三年翻倍的速度成長，這是DRAM 已經難以企及的節奏。

第二個方向是近記憶體計算（PNM，Processing-Near-Memory），它與歷史上的PIM（Processing-in-Memory，記憶體內計算）概念有所不同。 PIM 將運算邏輯直接整合在DRAM die 內部，雖然頻寬極高，但面臨軟體分片複雜、運算能力受限於DRAM 製程的功耗和麵積約束等問題。

DRAM 製程節點並不適合高效能邏輯電路。 PNM 則將運算邏輯放在記憶體附近但仍是獨立die，透過3D 堆疊或高速互聯與記憶體連接。

論文認為，對於資料中心LLM 推理而言，PNM 比PIM 更實際：它的分片粒度可以大1,000 倍（GB 級而非MB 級），邏輯製程可以獨立優化，且不影響記憶體密度和成本。不過論文也指出，對於行動裝置上的LLM，由於模型更小、批次更小、能耗約束更嚴格，PIM 的劣勢可能不那麼明顯，反而值得探索。

第三個方向是3D 計算-邏輯堆疊。與傳統2D 晶片透過die 邊緣連接記憶體不同，3D 堆疊使用垂直的TSV（Through Silicon Via，矽通孔）實現寬而密的記憶體接口，可以在更低功耗下獲得更高頻寬。

這個方向有兩種實現路徑：一種是在HBM 的base die 上整合運算邏輯，復用現有HBM 設計，頻寬與HBM 相當但功耗降低2 到3 倍；另一種是客製化3D 方案，透過更寬更密的介面和更先進的封裝技術，實現超越HBM 的頻寬和效率。挑戰在於散熱：3D 結構的表面積更小，散熱更難，以及需要建立記憶體-邏輯介面的業界標準。

第四個方向是低延遲互聯。論文建議重新檢視網路設計中延遲與頻寬的權衡。具體措施包括：採用高連接性拓樸（如樹形、蜻蜓、高維Torus），減少跳數從而降低延遲；引入網路內處理（Processing-in-Network），讓LLM 常用的通訊原語（如all-reduce、MoE 的disRAMpatch 和collect）在交換器中加速；優化晶片設計，讓小包資料直接存入晶片設計，讓小包資料片上加速；而非外部DRAM，或將計算引擎靠近網路介面以縮短傳輸時間；甚至在可靠性設計上做文章，部署本地備用節點減少故障遷移的延遲和吞吐影響，或者在LLM 推理對完美通信要求不高時，用假數據或歷史結果替代超時消息，而非等待掉隊者。

Patterson 在論文中仍不忘強調個人觀點：他批評了當前學術界與產業界的脫節。 1976 年他入行時，電腦架構會議上約40% 的論文來自工業界，而到2025 年的ISCA（International Symposium on Computer Architecture），這個比例已經跌破4%。

他呼籲學術研究者掌握LLM 推理這個”誘人的研究目標”，並建議開發基於Roofline 模型的性能模擬器，配合現代的性能/成本指標（如TCO、功耗、碳排放），為AI 推理硬體創新提供更實用的評估框架。

目前，全球正經歷一場因AI 引發的記憶體供應危機。由於HBM 生產擠佔了傳統DRAM 的晶圓產能，2026 年全球DRAM 價格大幅上漲。三星、SK Hynix 等廠商正將更多資源轉向高利潤的HBM 產品線，雖然滿足了AI 資料中心的需求，卻加劇了消費級記憶體的短缺。這種供應緊張可能持續到2027 年甚至更久。

在這種背景下，Patterson 提出的HBF、PNM 等替代路徑，或許不僅是技術上的探索，也是產業尋找Plan B 的現實需求。

當然，論文也承認這些方向並非可以一蹴可幾的方案。每一個都涉及複雜的工程權衡：HBF 需要解決軟體如何處理有限寫入耐久性和高延遲讀取的問題；PNM 和3D 堆疊需要新的軟體分片策略和記憶體-邏輯介面標準；低延遲互聯可能需要犧牲部分頻寬。

論文鼓勵將這些方向組合使用，因為它們在很大程度上是互補的。更高的記憶體頻寬可以縮短每次Decode 迭代的延遲，更大的單節點記憶體容量可以減少系統規模從而降低通訊開銷。

作為RISC 架構的共同發明者、RAID 儲存系統的開創者，Patterson 的職業生涯幾乎就是”挑戰現有範式”的代名詞。 40 多年前，他和John Hennessy 提出的精簡指令集思想曾被工業視為異端，如今99% 的新晶片都採用RISC 架構。

Patterson 和馬曉宇選擇發表這篇論文的方式也很有意思，它不是一篇技術細節密集的頂會論文，而是發在IEEE Computer 這本面向更廣泛讀者的雜誌上，語氣像是在發布一封公開信。值得注意的是，他們在致謝中提到了Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和Cliff Young，這串名字幾乎涵蓋了Google AI 基礎設施的核心架構師。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastruct-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

營運/排版：何晨龍

Related Posts:

相關文章

「四大花旦」大換血：劉亦菲下桌，楊紫穩坐主桌，榜首實至名歸

廣東男籃今日最新動態！老闆親自到場激勵球員，徐傑深夜發聲，焦泊喬缺席原因曝光

南方航空：擬以約213.78億美元購買137架A320NEO系列飛機