阿里通義推新一代語音互動模型，可感知用戶情緒

2025/12/24 13:13

MoneyDJ新聞 2025-12-24 13:13:28 新聞中心發佈

綜合陸媒報導，阿里巴巴(9988.HK)旗下通義大模型發布新一代端到端語音互動模型「Fun-Audio-Chat」，可提供「像朋友一樣的對話體驗」，能感知到用戶的情緒，若沒有直接表達情緒，也能從語氣、語速、停頓裡猜出用戶心情，然後給予回應。此外，也能完成複雜任務，用戶只需用自然語音下達指令，就能自動調用函數。

技術表現方面，新模型端到端S2S架構可以從語音輸入直接生成語音輸出，無需ASR+LLM+TTS多模組拼接，效率更高、延遲更低；Shared LLM層以5Hz幀率高效處理，SRH以25Hz幀率生成高質量語音，GPU計算開銷降低近50%；訓練內容覆蓋音訊理解、語音問答、情感識別、工具調用等真實場景。

阿里通義並開源了Fun-Audio-Chat 8B，該模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多個榜單上「同尺寸模型排名第一」，綜合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等。

個股K線圖-

陸11月用電量年增6.2%、增速明顯趨緩字節跳動推新一代數學模型，推理能力效率顯著提升

回新聞列表