2026-06-10 18:05 AI模型

小米MiMo大模型新模式上线推理速度突破1000 tokens每秒

时间：2026年6月9日

地点：中国北京

人物：小米创始人雷军、小米MiMo技术团队

事件详情：小米MiMo技术团队与AI编译优化系统组TileRT联合推出MiMo-V2.5-Pro-UltraSpeed极速模式。该模式在单台标准8卡通用GPU节点上，实现万亿参数混合专家MoE模型生成速度超过1000 tokens/s，峰值接近1200 tokens/s。这是业内首次在万亿参数大模型上实现输出速度突破1000 tokens每秒。

背景：此次提速主要依赖三项创新：模型与系统协同设计优化、推理系统全链路工程能力优化、无需定制芯片支持。整套运行方案不依赖定制芯片，仅使用常规8卡GPU服务器就可稳定运转。即日起至6月23日，该模式将采取申请制限时开放。

影响：
- 创下万亿参数模型推理速度行业新纪录
- 降低AI模型部署成本，无需定制芯片
- 推动大模型在实时应用场景的落地
- 展现中国AI技术的工程化能力

总结：小米MiMo-V2.5-Pro-UltraSpeed模式的推出标志着大模型推理速度的重大突破。在万亿参数规模下实现1000 tokens每秒的生成速度，且无需依赖定制芯片，这一成果打破了行业对大模型推理速度的传统认知。该技术创新将显著降低企业部署大模型的硬件门槛，推动AI技术在更多实际场景中的应用。

参考来源：
https://so.html5.qq.com/page/real/search_news?docid=70000021_1726a277d6469652
https://so.html5.qq.com/page/real/search_news?docid=70000021_5876a27a9e353452

热门AI工具推荐