一切就绪
点击下方按钮进入

DeepSeek V4发布前,罗福莉亮剑!小米最强大模型MiMo-V2.5深夜突袭

小米大模型时隔一月能力飙涨,比Kimi K2.6省42% Token

作者 | 程茜编辑 | 李水青智东西4月23日报道,刚刚,小米MiMo大模型一口气官宣4款新模型:旗舰推理模型MiMo-V2.5、全模态Agent模型V2.5-Pro开启公测、即将开源;V2.5-TTS Series、V2.5-ASR即将推出

小米MiMo大模型负责人正是原DeepSeek核心成员、被业内称为“天才少女”的罗福莉,这距离上次MiMo-V2系列重磅三连更仅36天。上一代模型发布时,罗福莉曾发文称“未来模型足够稳定后,他们将开源”

与上一代模型类似,MiMo-V2.5全系列同样是为智能体场景打造,MiMo-V2.5-Pro专为长难Agent任务打造,MiMo-V2.5可覆盖绝大多数通用Agent场景

小米还贴心为用户提供了官方使用指南:MiMo-V2.5支持原生全模态Agent能力,涵盖图像、音频与视频,相比Pro版模型平均推理速度更快,更适应对时延敏感的任务。除性能外,此次小米MiMo新模型还有一大升级点是更高的Token效率

根据官方信息,在拿到智能体基准榜单ClawEval相同分数的情况下:MiMo-V2.5-Pro相比Kimi本周发布的开源旗舰多模态智能体模型Kimi K2.6节省了42% Token;MiMo-V2.5相比Meta本月初发布的闭源多模态推理模型Muse Spark节省了50% Token

此外,小米还全面升级了模型订阅计划Token Plan:取消4倍的Credits计费方式、计费不区分256k和1M上下文、夜间享有专属优惠速率、新增自动续费模式。值得一提的是,其Token Plan计划刚发布时,就有不少用户吐槽价格太贵,便宜的套餐Token不够用

智东西体验了MiMo-V2.5-Pro,让其“制作一个3D横版格斗游戏”,MiMo-V2.5-Pro在几分钟内、写了1123行代码,就生成了“龙虎格斗游戏”

该游戏界面的血条、双方角色名、倒计时、对战提示清晰,还包含命中火花、格挡碎片、镜头震动+命中停顿等反馈系统,具备一定可玩性,但人物角色造型简单,除颜色和帽子几乎没差异

▲龙虎格斗游戏界面有意思的是,今年3月,小米MiMo-V2-Pro曾以匿名模型Hunter Alpha的身份现身OpenRouter平台,一度被开发者误认为是即将发布的DeepSeek V4。如今小米新一代MiMo-V2.5推出,又正值DeepSeek V4被传出将于本周发布
Xiaomi MiMo开放平台:https://platform.xiaomimimo.comXiaomi MiMo Studio体验地址:https://aistudio.xiaomimimo.com/#/c01.MiMo-V2.5-Pro:专攻长难智能体任务4.3小时搞定本科生数周项目小米官方称,MiMo-V2.5-Pro是小米MiMo迄今最强大模型,在通用智能体能力、复杂软件工程以及长程任务等维度上,能与Claude Opus 4.6、GPT-5.4等全球顶尖Agent模型相当,相较上一代模型MiMo-V2-Pro提升
根据小米内部测试,搭配合适的运行框架,MiMo-V2.5-Pro可以稳定完成单次涉及近千轮工具调用的长程任务。且在智能体场景下,该模型指令遵循能力提升,其既能捕捉上下文中的隐性要求,又能在超长周期内保持逻辑一致
基于小米MiMo团队开发的评估套件MiMo Coding Bench,MiMo-V2.5-Pro与Claude Opus 4.6的差距进一步缩小,得分分别为73.7分和77.1分,MiMo-V2-Pro是71.5分

有推特网友用此前的网红问题实测了MiMo-V2.5-Pro,其问题是“我想去洗车,洗车店离我50米远,我应该走着去还是开车去”,MiMo-V2.5-Pro不负众望,给出了正确答案。小米MiMo放出了几个MiMo-V2.5-Pro的实操案例。首先是“用Rust实现完整的SysY编译器”

这一任务的难点在于,模型需独立完成词法分析器、语法分析器、AST、Koopa IR代码生成、RISC-V汇编后端,以及性能优化。在实际操作中,该模型采用逐层搭建整个编译器的方式,其先搭完整流水线骨架再逐层攻克

在各项的具体分数中,模型在Koopa IR、RISC-V后端、性能优化上都拿到了满分,首次编译实现了59%的冷启动通过率,这意味着在跑任何测试之前,架构是对的。在第512轮,该模型一次重构令lv9/riscv回退了两个测试点;模型自行诊断、恢复、继续推进

这一任务是北京大学《编译原理》课程项目,北大本科生通常需要数周时间才能完成,MiMo-V2.5-Pro用时4.3小时、经过672次工具调用完成,在隐藏测试集上取得满分233分。第二个官方案例是开发视频编辑