阿里千問開源語音辨識模型Qwen3-ASR 支援52語種

2026/01/30 11:46

MoneyDJ新聞 2026-01-30 11:46:26 新聞中心發佈

綜合陸媒報導，阿里巴巴(9988.HK)旗下阿里雲通義千問正式開源Qwen3-ASR系列模型，該模型是由Qwen開發的一系列語音辨識模型，包括Qwen3-ASR-1.7B與Qwen3-ASR-0.6B，以及一個語音強制對齊模型Qwen3-ForcedAligner-0.6B。Qwen3-ASR系列的語音辨識模型支持52個語種與方言的語種識別與語音辨識。

據悉，依託創新的預訓練AuT語音編碼器與Qwen3-Omni基座模型的強大多模態能力，Qwen3-ASR實現了精準與穩定的語音辨識，其1.7B模型在中文、英文、中文口音與歌唱識別等場景下達到SOTA(State Of The Art)，具有複雜文本識別能力以及強雜訊下的穩定性，而0.6B模型在性能與效率上則實現了均衡。

此外，Qwen3-ForcedAligner-0.6B是基於NAR LLM推理的時間戳預測模型，支持11個語種的任意位置的靈活精準的強制對齊，其時間戳預測精度超越傳統的WhisperX，Nemo-Forced-Aligner等模型，單併發推理RTF達到了高效的0.0089。阿里千問團隊表示，希望Qwen3-ASR系列模型的開源能夠推動語音辨識與理解的研究與發展，三個模型的結構與權重、以及一個全面易用的推理框架將一併開源。

個股K線圖-

回新聞列表