騰訊混元AI Infra團隊HPC-Ops推全新開源升級

2026/06/12 11:19

MoneyDJ新聞 2026-06-12 11:19:30 新聞中心 發佈

綜合港媒報導,騰訊(0700.HK)旗下騰訊混元表示,為進一步滿足推理系統對動態業務負載的適應性、核心模組對複雜精度和高性能融合算子的需求,騰訊混元AI Infra團隊旗下HPC-Ops推出全新更新開源升級,其升級在主流推理平台上,有效緩解Attention長尾延遲、顯存搬運開銷、跨卡通訊等實際工程瓶頸,多項性能指標顯著優於現有的開源基線。

據悉,本次升級從單點算子進化為覆蓋推理全鏈路的優化能力集合,包含Attention、Router GEMM、FusedMoE、Fused AllReduce+Norm及Sampler等五大關鍵算子。其中,Attention針對真實負載下長短請求混排導致的計算不均、推理長尾問題,採用運行時動態負載調度方案,實測長文本最高加速2.95x,端到端QPM最高提升17%。

此外,Router GEMM以雙BF16 GEMM組合實現FP32級高精度計算,兼顧推理精度與GPU算力利用率;FusedMoE建構MoE全模塊流水線,整合多階段流程、消除顯存搬運與內核啟動開銷;Fused AllReduce+Norm深度融合跨GPU通信、殘差疊加與歸一化計算;Sampler則將解碼階段的採樣計算(原本需要十多個操作算子)融合為2個CUDA Kernel,大幅減少調度、讀寫與同步冗餘開銷。

個股K線圖-
熱門推薦