谷歌演算法可將AI記憶體需求壓縮6倍、美光臉綠

2026/03/26 08:18

MoneyDJ新聞 2026-03-26 08:18:55 郭妍希 發佈

谷歌(Google)公開全新的「TurboQuant」 壓縮演算法,有望大幅降低AI系統對記憶體容量的需求,消息傳來衝擊美光(Micron Technology, Inc.)等記憶體類股全面跳水。

Tom`s Hardware、Investing.com報導,Google Research 25日發布,這是一種無需訓練(training-free)的壓縮演算法,能將大型語言模型(LLM)的KV快取(KV cache)量化至僅3位元(3-bit),且完全無損模型的準確度。

在輝達(Nvidia)「H100」繪圖處理器(GPU)的基準測試中,4位元的TurboQuant在運算注意力度量值(attention logits)時,效能比未量化的32 元鍵(keys)提升了8倍,佔用的KV快取記憶體可壓縮至少6倍。

KV快取儲存了先前運算過的注意力數據,讓LLM在生成每個標記(token)時不需重複計算。隨著上下文窗口(context windows)擴大,這些快取成為記憶體的重大瓶頸。

雖然傳統的向量量化(vector quantization)方法能縮小快取體積,卻會導致額外的記憶體開銷——每個數值都必須額外儲存幾位元的「量化常數」(quantization constants)。這聽起來雖微不足道,但隨著上下文窗口大增,這些開銷會產生顯著的累加效應。

Google指出,傳統的向量量化方法會在記憶體中產生每個數值約1~2位元的額外開銷,這在某種程度上抵銷了壓縮所帶來的效益。

Google Research新發布的TurboQuant演算法可透過兩階段流程消除上述開銷。首先,利用PolarQuant方法對數據向量進行旋轉(rotating),實現高品質壓縮;接著,使用「量化詹森-林登斯特勞斯」(Quantized Johnson-Lindenstrauss)演算法消除殘餘誤差。

Google強調,TurboQuant無需訓練或微調,且運行時開銷極低,非常適合部署於正式的推論環境與大規模向量搜尋系統。該篇論文將於4月舉行的「ICLR 2026」大會上正式發表。

美光25日聞訊下挫3.4%、收382.09美元,創3月6日以來收盤新低,跌幅居費城半導體指數30支成分股之冠。電腦儲存設備領導服務商Sandisk同步下挫3.5%、收677.86美元。

其他硬碟機(HDD)類股同步走軟。硬碟製造商希捷科技(Seagate Technology)下跌2.59%、收413.22美元。威騰電子(Western Digital)下跌1.63%、收296.14美元,創歷史收盤新高。

(圖片來源:shutterstock)

*編者按:本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用 個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。

個股K線圖-
熱門推薦