MoneyDJ新聞 2026-01-02 10:00:28 新聞中心 發佈
綜合港媒報導,中國人工智慧(AI)企業深度求索(DeepSeek,簡稱DS)團隊於2026年元旦發布新論文,提出了一種名為mHC(流形約束超連接)的新架構,意在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。DeepSeek創始人梁文鋒也在作者名單中。
論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬體瓶頸」的方法:mHC透過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和信號爆炸問題。
論文中表示,經驗實驗表明,mHC 對於大規模訓練是有效的,可提供切實的性能改進和卓越的可擴展性;預計mHC作為HC的靈活且實用的擴展,將有助於更深入理解拓撲架構設計,並為基礎模型的演進提出有希望的方向。