谷歌新記憶體技術炸翻傳統儲存晶片市場 大廠集體受挫

美國東部時間3月26日,存儲芯片股集體重挫,閃迪跌超11%,希捷跌逾8%,超威半導體、西部數據跌逾7%,美光科技跌近7%。

業內人士分析,這一波動源自谷歌研究院即將在國際學習表徵會議(ICLR 2026)上正式亮相的學術論文,該研究推出了一種新型AI內存壓縮技術“TurboQuant”。

谷歌宣稱,該技術可將大語言模型推理中的緩存內存佔用壓縮至六分之一,並在英偉達H100 GPU上實現最高8倍的性能加速。

AI模型運行時存在一種“工作內存”,即KV緩存(Key-Value Cache)。每當模型處理信息、生成回答時,KV緩存便會迅速膨脹,且上下文窗口越長,緩存佔用的內存越大。

谷歌新內存技術炸翻傳統存儲芯片市場 大廠集體受挫

TurboQuant本質上是一種極致的量化壓縮算法,傳統量化方法需要在壓縮精度和額外存儲開銷之間妥協,而谷歌團隊通過PolarQuant(極座標量化)和QJL(量化JL變換)兩項創新,實現了在“零損失”前提下將KV緩存壓縮至3-bit精度。

Cloudflare首席執行官將這一成果稱為谷歌的“DeepSeek時刻”,認為其有望像DeepSeek一樣,通過極致效率大幅拉低AI的運行成本。

不過,摩根士丹利在最新研報中指出,市場對此存在誤讀。該技術僅作用於推理階段的鍵值緩存,並不影響模型權重所佔用的高帶寬內存(HBM),也與AI訓練任務無關。

分析師強調,所謂的“6倍壓縮”並非存儲總需求的減少,而是通過效率提升增加單GPU的吞吐量。這意味著在相同硬件條件下,可以支持4倍至8倍更長的上下文,或在不觸發內存溢出的前提下顯著提升批處理規模。

目前,谷歌尚未公佈TurboQuant在Gemini等自研模型中的具體部署時間表,研究團隊計劃在下個月的ICLR 2026會議上正式發佈相關成果。