小米推MiMo系列模型,V2-Pro定位高強度Agent場景

2026/03/19 11:03

MoneyDJ新聞 2026-03-19 11:03:39 新聞中心 發佈

綜合港媒及陸媒報導,小米(1810.HK)於今(19)日凌晨發布三款大模型,包括MiMo-V2-Pro、Omni、TTS。其中,MiMo-V2-Pro專為現實世界中高強度的Agent工作場景而打造,擁有超過1T的總參數量(42B激活參數),採用創新的混合注意力架構,並支持1M超長上下文長度。

MiMo-V2-Pro模型現已正式開放API服務,支持1M上下文長度,並根據使用量分段計價,256K上下文以內,輸入價格為1美元每百萬tokens,輸出價格為3美元每百萬tokens;1M上下文以內,輸入價格翻倍為2美元每百萬tokens,輸出價格為6美元每百萬tokens。目前MiMo-V2-Pro已在多個平台同步上線。

小米(1810.HK)創辦人、董事長兼CEO雷軍於微博表示,MiMo-V2-Pro在全球大模型綜合智慧排行榜Artificial Analysis上位列全球第八、中國國內第二;依大模型品牌來排名,排在全球第五,超過了xAI Grok。雷軍指出,小米在AI領域上相對比較低調,實際進展可能比大家看到的要快很多,據其透露,小米今(2026)年在AI領域的研發和資本投入就將超過160億元人民幣。

MiMo-V2-Omni專為現實世界中複雜的多模態互動與執行場景而生。小米指出,可無縫接入各種Agent框架,實現從理解到操控的跨越,大幅降低了全模態Agent的落實門檻。音訊理解方面,支持從環境聲分類、多說話者分離、音訊-視覺聯合推理,到超過10小時連續長音訊的深度理解;綜合表現超越Gemini 3 Pro,是當前最強的音訊理解基座模型之一;圖像理解方面, 展現強大的多學科視覺推理與複雜圖表分析能力,超越Claude Opus 4.6,逼近Gemini 3 Pro等頂尖閉源模型水準。

MiMo-V2-TTS則是專為Agent時代的全模態互動而生。小米指出,MiMo-V2-TTS是小米自主研發的語音合成大模型,基於自研Audio Tokenizer和多碼本語音-文本聯合建模架構,經過上億小時語音數據的大規模預訓練與多角度強化學習,實現了高度可控的多細粒度語音風格控制;支援從整體風格定調到局部情緒表達的精準調節,能在同一句話內完成語氣轉折和情感遞變;真實還原人類說話的自然韻律;在唱歌時,亦能準確表達音高和節奏,自然且富有表現力。
個股K線圖-
熱門推薦