DeepSeek開源全新記憶架構 料成V4核心技術基礎

2026/01/13 10:43

MoneyDJ新聞 2026-01-13 10:43:03 新聞中心 發佈

綜合陸媒報導,DeepSeek開源全新架構模組「Engram」,並同步發布技術論文,署名作者中再次出現DeepSeek創始人梁文鋒。據悉,Engram模組通過引入可擴展的查找式記憶結構,為大模型提供了區別於傳統Transformer與MoE的全新稀疏性維度。

DeepSeek在論文中指出,目前主流大模型在處理兩類任務時存在結構性低效;一類是依賴固定知識的「查表式」記憶,另一類是複雜推理與組合計算。傳統Transformer(無論Dense或MoE)均需通過多層注意力與MLP重建這些靜態模式,導致計算資源被大量消耗在「重複構造已知模式」上。Engram的核心機制是基於現代化雜湊N-Gram嵌入的O(1)查找式記憶。這種查找與模型規模無關,即便記憶表擴展至百億級參數,檢索成本仍保持穩定。與MoE的條件計算不同,Engram提供的是「條件記憶」。模組會根據當前上下文隱向量決定是否啟用查找結果,並透過門控機制與骨幹絡融合。

論文顯示,Engram通常被放置在模型早期層,用於承擔「模式重建」職責,進而釋放後續層的計算深度用於複雜推理。DeepSeek在27B參數規模的實驗中,將部分MoE專家參數重新分配給Engram記憶表,在等參數、等算力條件下,模型在知識、推理、代碼與數學任務上均取得顯著提升。

在X平台上,相關技術討論認為Engram的機制有效減少了模型早期層對靜態模式的重建需求,使模型在推理部分表現得更「深」。部分開發者指出,這種架構讓大規模靜態記憶得以脫離GPU存儲限制,通過確定性尋址實現主機記憶體預取,從而在推理階段保持低開銷。多位觀察者推測,Engram很可能成為DeepSeek下一代模型「V4」的核心技術基礎。

個股K線圖-
熱門推薦