您好,欢迎访问这里是您的网站名称官网!

+86 0000 88888
当前位置: 主页 > 哈希游戏 > 哈希游戏官网

哈希娱乐- 哈希游戏平台- 游戏官方网站最高降价99%背后:小米首次公开模型推理优化技术报告

发布时间:2026-05-30  |  点击率:

  哈希官网,哈希娱乐,哈希平台,哈希游戏平台,哈希游戏玩法,哈希竞猜,哈希游戏官方网站5月27日,小米宣布旗下MiMo-V2.5系列大模型API永久降价,最高降幅达99%,引发业界广泛关注。讨论焦点集中在一个问题上:

  5月30日,小米MiMo大模型团队在官方技术博客发布题为《MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致》的长文,首次完整公开降价背后的技术路径:一篇覆盖Hybrid SWA + MoE + 多模态组合架构的推理系统全链路优化方案,系统性地将Hybrid SWA的推理效率推向极致。

  MiMo-V2.5-Pro是一个万亿参数MoE模型,采用Hybrid SWA架构:70层中60层仅计算局部窗口注意力,10层保留全局视野。理论上,这种设计能将KVCache存储和计算量压至Full Attention的1/7。

  “理论上的架构优势,并不会天然转化为真实线上系统中的效率优势。”MiMo团队在技术博客中指出,在生产环境中,分布式缓存状态不一致、前缀匹配语义失效、多级存储搬运延迟等工程挑战,会将理论收益大幅削减。以下五项突破,正是将这一差距补齐的关键。

  将Full和SWA的缓存拆为两个独立池,SWA 严格按窗口大小分配,容量效率提升约 7×。重新设计缓存命中规则,引入窗口安全长度匹配规则,解决 SWA 模式下的伪命中问题。

  直接在GPU机器上混布接管闲余内存NVMe SSD。额外存储成本为零,单进程RDMA读吞吐170 GB/s,延迟仅280μs。

  请求优先路由到已缓存其前缀的实例,L2 命中率 +25%,单机吞吐 +30%,P90 延迟 −30%。与

  视频并行解码、跨请求组Batch、GPU预处理、一致性哈希路由——1小时视频端到端处理从156秒降至23秒,Encoder吞吐提升2倍、延时不变。

  五项突破分别作用于推理链路的不同环节,存储、缓存、调度、解码、多模态。KVCache双池释放的显存空间,被GCache用于扩大缓存容量;更大的缓存容量提高了命中率;更高的命中率减少了Prefill重算量;Prefill加速又为Decode腾出了更多调度余量。

  最终,整条推理链路的成本结构被系统性地改变,这也是降价99%依然能维持收支平衡的技术底气。

  MiMo V2.5系列模型降价消息发布后,全球开发者社区迅速被点燃。在海外技术论坛和社交平台上,围绕降价99%为什么还不亏的讨论热度持续攀升,大量开发者自发分析 MiMo的推理架构和成本结构。

  不少开发者惊叹“优质模型的成本正在以惊人的速度下降,智能的发展速度快得真正无法衡量”。同时还有大量开发者点赞以MiMo为代表的中国模型性能强大、速度快,“中国AI模型比美国AI泡沫模型便宜90%到95%,不仅价格低廉、速度快,并且对于大多数现实世界用例来说足够实用,AI泡沫未来可能被成本曲线崩塌所扼杀。”

  此次技术博客的发布,也是小米MiMo对近期外界质疑的一次正面回应,不仅将一整套模型推理系统全链路优化所节省的成本通过API降价回馈给用户,同时已将这次优化的技术细节以以 PR 形式回馈 SGLang 开源社区,希望尽早让工程优化不再成为门槛,使这类兼具强度与效率的复合架构得到更广泛的探索与应用。

  除了降价和开源,MiMo对开发者生态的投入还在持续加码。4月28日推出的“百万亿Token创造者激励计划”已圆满收官:总申请人数超过54万人,覆盖科研学术、制造工业等行业,累计发放100万亿免费Token,折合人民币超6500万元。

  同期启动的「Agent生态共建计划」面向Agent框架团队提供Token扶持,首批13家合作伙伴名单已公布,小米为这些框架和合作方提供了限免Token支持。“开源的价值不止于权重公开,更在于生态共建。”小米MiMo团队表示。

  从开源模型权重、公开推理系统优化细节,到百亿Token激励、Agent生态共建,小米正在构建一条从技术底座到开发者生态的完整路径:让Token越来越便宜、越来越普惠,让AI从少数人的工具变成人人可及的基础设施。

  在小米的推动下,Token有望成为拉动存储芯片、算力芯片、电力基础设施等上游产业链的全新增长极,驱动整个AI行业进入下一个发展周期。

  1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。

  2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;

  该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测

全国统一服务电话

+86 0000 88888

电子邮箱:admin@admin.com

公司地址:广东省广州市番禺经济开发区

咨询微信

TEL:13988888888