阿里千問開源語音辨識模型Qwen3-ASR 支援52語種

2026/01/30 11:46

MoneyDJ新聞 2026-01-30 11:46:26 新聞中心 發佈

綜合陸媒報導,阿里巴巴(9988.HK)旗下阿里雲通義千問正式開源Qwen3-ASR系列模型,該模型是由Qwen開發的一系列語音辨識模型,包括Qwen3-ASR-1.7B與Qwen3-ASR-0.6B,以及一個語音強制對齊模型Qwen3-ForcedAligner-0.6B。Qwen3-ASR系列的語音辨識模型支持52個語種與方言的語種識別與語音辨識。

據悉,依託創新的預訓練AuT語音編碼器與Qwen3-Omni基座模型的強大多模態能力,Qwen3-ASR實現了精準與穩定的語音辨識,其1.7B模型在中文、英文、中文口音與歌唱識別等場景下達到SOTA(State Of The Art),具有複雜文本識別能力以及強雜訊下的穩定性,而0.6B模型在性能與效率上則實現了均衡。

此外,Qwen3-ForcedAligner-0.6B是基於NAR LLM推理的時間戳預測模型,支持11個語種的任意位置的靈活精準的強制對齊,其時間戳預測精度超越傳統的WhisperX,Nemo-Forced-Aligner等模型,單併發推理RTF達到了高效的0.0089。阿里千問團隊表示,希望Qwen3-ASR系列模型的開源能夠推動語音辨識與理解的研究與發展,三個模型的結構與權重、以及一個全面易用的推理框架將一併開源。

個股K線圖-
熱門推薦