谷歌新記憶體技術炸翻傳統儲存晶片市場大廠集體受挫

美國東部時間3月26日，存儲芯片股集體重挫，閃迪跌超11%，希捷跌逾8%，超威半導體、西部數據跌逾7%，美光科技跌近7%。

業內人士分析，這一波動源自谷歌研究院即將在國際學習表徵會議（ICLR 2026）上正式亮相的學術論文，該研究推出了一種新型AI內存壓縮技術“TurboQuant”。

谷歌宣稱，該技術可將大語言模型推理中的緩存內存佔用壓縮至六分之一，並在英偉達H100 GPU上實現最高8倍的性能加速。

AI模型運行時存在一種“工作內存”，即KV緩存（Key-Value Cache）。每當模型處理信息、生成回答時，KV緩存便會迅速膨脹，且上下文窗口越長，緩存佔用的內存越大。

谷歌新內存技術炸翻傳統存儲芯片市場大廠集體受挫

TurboQuant本質上是一種極致的量化壓縮算法，傳統量化方法需要在壓縮精度和額外存儲開銷之間妥協，而谷歌團隊通過PolarQuant（極座標量化）和QJL（量化JL變換）兩項創新，實現了在“零損失”前提下將KV緩存壓縮至3-bit精度。

Cloudflare首席執行官將這一成果稱為谷歌的“DeepSeek時刻”，認為其有望像DeepSeek一樣，通過極致效率大幅拉低AI的運行成本。

不過，摩根士丹利在最新研報中指出，市場對此存在誤讀。該技術僅作用於推理階段的鍵值緩存，並不影響模型權重所佔用的高帶寬內存（HBM），也與AI訓練任務無關。

分析師強調，所謂的“6倍壓縮”並非存儲總需求的減少，而是通過效率提升增加單GPU的吞吐量。這意味著在相同硬件條件下，可以支持4倍至8倍更長的上下文，或在不觸發內存溢出的前提下顯著提升批處理規模。

目前，谷歌尚未公佈TurboQuant在Gemini等自研模型中的具體部署時間表，研究團隊計劃在下個月的ICLR 2026會議上正式發佈相關成果。

谷歌新記憶體技術炸翻傳統儲存晶片市場 大廠集體受挫