阿里通義推新一代語音互動模型,可感知用戶情緒

2025/12/24 13:13

MoneyDJ新聞 2025-12-24 13:13:28 新聞中心 發佈

綜合陸媒報導,阿里巴巴(9988.HK)旗下通義大模型發布新一代端到端語音互動模型「Fun-Audio-Chat」,可提供「像朋友一樣的對話體驗」,能感知到用戶的情緒,若沒有直接表達情緒,也能從語氣、語速、停頓裡猜出用戶心情,然後給予回應。此外,也能完成複雜任務,用戶只需用自然語音下達指令,就能自動調用函數。

技術表現方面,新模型端到端S2S架構可以從語音輸入直接生成語音輸出,無需ASR+LLM+TTS多模組拼接,效率更高、延遲更低;Shared LLM層以5Hz幀率高效處理,SRH以25Hz幀率生成高質量語音,GPU計算開銷降低近50%;訓練內容覆蓋音訊理解、語音問答、情感識別、工具調用等真實場景。

阿里通義並開源了Fun-Audio-Chat 8B,該模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多個榜單上「同尺寸模型排名第一」,綜合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等。

個股K線圖-
熱門推薦