小米推MiMo系列模型，V2-Pro定位高強度Agent場景

2026/03/19 11:03

MoneyDJ新聞 2026-03-19 11:03:39 新聞中心發佈

綜合港媒及陸媒報導，小米(1810.HK)於今(19)日凌晨發布三款大模型，包括MiMo-V2-Pro、Omni、TTS。其中，MiMo-V2-Pro專為現實世界中高強度的Agent工作場景而打造，擁有超過1T的總參數量(42B激活參數)，採用創新的混合注意力架構，並支持1M超長上下文長度。

MiMo-V2-Pro模型現已正式開放API服務，支持1M上下文長度，並根據使用量分段計價，256K上下文以內，輸入價格為1美元每百萬tokens，輸出價格為3美元每百萬tokens；1M上下文以內，輸入價格翻倍為2美元每百萬tokens，輸出價格為6美元每百萬tokens。目前MiMo-V2-Pro已在多個平台同步上線。

小米(1810.HK)創辦人、董事長兼CEO雷軍於微博表示，MiMo-V2-Pro在全球大模型綜合智慧排行榜Artificial Analysis上位列全球第八、中國國內第二；依大模型品牌來排名，排在全球第五，超過了xAI Grok。雷軍指出，小米在AI領域上相對比較低調，實際進展可能比大家看到的要快很多，據其透露，小米今(2026)年在AI領域的研發和資本投入就將超過160億元人民幣。

MiMo-V2-Omni專為現實世界中複雜的多模態互動與執行場景而生。小米指出，可無縫接入各種Agent框架，實現從理解到操控的跨越，大幅降低了全模態Agent的落實門檻。音訊理解方面，支持從環境聲分類、多說話者分離、音訊-視覺聯合推理，到超過10小時連續長音訊的深度理解；綜合表現超越Gemini 3 Pro，是當前最強的音訊理解基座模型之一；圖像理解方面，展現強大的多學科視覺推理與複雜圖表分析能力，超越Claude Opus 4.6，逼近Gemini 3 Pro等頂尖閉源模型水準。

MiMo-V2-TTS則是專為Agent時代的全模態互動而生。小米指出，MiMo-V2-TTS是小米自主研發的語音合成大模型，基於自研Audio Tokenizer和多碼本語音-文本聯合建模架構，經過上億小時語音數據的大規模預訓練與多角度強化學習，實現了高度可控的多細粒度語音風格控制；支援從整體風格定調到局部情緒表達的精準調節，能在同一句話內完成語氣轉折和情感遞變；真實還原人類說話的自然韻律；在唱歌時，亦能準確表達音高和節奏，自然且富有表現力。

個股K線圖-

回新聞列表