2026-06-11 09:32 技术突破

小米MiMo大模型推理速度突破1000 tokens每秒创行业新纪录

时间：2026年6月9日

地点：中国北京

人物：小米公司

事件详情：小米MiMo联合TileRT发布Xiaomi MiMo-V2.5-Pro的UltraSpeed模式，首次在通用GPU环境下将万亿参数大模型生成速度突破至1000 tokens每秒，峰值速度最高可达1200 tokens每秒。该版本采用限时体验价，定价为MiMo-V2.5-Pro的3倍，申请通过的用户可限时接入API体验，时间限2026年6月9日至6月23日。据小米介绍，已有超过3000家企业及其开发者申请UltraSpeed API试用名额。

背景：MiMo是小米首个为推理而生的大模型，今年4月底正式开源。此前小米发布的MiMo-V2-Pro拥有超过1T的总参数量（42B激活参数），采用创新混合注意力架构，支持1M超长上下文长度。此次UltraSpeed模式通过模型与系统的极致协同设计，在万亿参数尺度上突破1000 tokens每秒，带来AI应用范式的底层颠覆。

影响：
- 速度转化为智能，在相同等待时间内模型可并行跑数十条推理路径，自动验证纠错，提升推理质量
- 整套运行方案不依赖定制芯片，仅使用常规8卡GPU服务器就可稳定运转，降低部署门槛
- 推动万亿参数大模型从实验室走向实际应用场景，加速大模型商业化落地
- 小米创始人雷军在社交平台亲自宣布，显示出公司对大模型业务的重视程度

总结：小米MiMo-V2.5-Pro UltraSpeed的发布标志着大模型推理速度的重大突破。在万亿参数模型上实现1000 tokens每秒的输出速度，不仅刷新行业纪录，更重要的是这种速度提升带来了智能范式的转变。通过Best-of-N和Tree Search等技术，模型可以在相同时间内并行探索多条推理路径，自动验证纠错，从根本上提升推理质量。这一突破不依赖定制芯片，使用常规GPU服务器即可实现，将大大降低企业应用大模型的门槛，推动AI技术在更多实际场景中的落地。

参考来源：
https://so.html5.qq.com/page/real/search_news?docid=70000021_2106a27af2459352
https://so.html5.qq.com/page/real/search_news?docid=70000021_8596a27893c40952

热门AI工具推荐