MiniMax M3冲上编程榜单前列,国产AI代码大战进入深水区
过去几个月,中国大模型公司的竞争焦点正在悄悄发生变化。
如果说去年大家还在比拼参数规模、上下文长度和通用能力,那么进入2026年后,一个更务实的指标开始受到开发者和投资人的共同关注——模型到底能不能把代码写对。
最新进入DeepSWE官方榜单的MiniMax编码模型M3,就是这一趋势下的最新样本。
数据显示,M3当前通过率达到20.4%,超过小米Mimo-V2.5-Pro的19.5%以及智谱GLM-5.1的17.5%,距离月之暗面Kimi-K2.6的23.9%也只剩下几个百分点差距。单看数字,这似乎只是榜单名次的变化,但背后反映的是国内代码大模型竞争格局正在快速收敛。
一个月前,M3的通过率还只有13.3%。
短短数日内接近翻倍的提升,主要来自6月3日完成的一次推理系统升级。官方披露的信息显示,模型修复了异常Token生成问题,同时针对长上下文缓存机制进行了优化。对于普通用户而言,这些技术名词略显抽象,但在代码生成领域,它们往往决定着模型是否会在数百步推理后突然“跑偏”。
编程模型最怕的并不是不会写代码,而是写到一半开始胡说八道。
随着Agent模式和自动编程工具逐渐普及,模型处理的任务长度越来越长。一个真实的软件工程任务可能涉及数万个Token、数十个文件以及持续数百步推理。此时,长上下文记忆能力的重要性甚至超过单纯的代码生成能力。
这也是为什么DeepSWE这类榜单越来越受到行业重视。
相比传统代码基准测试,DeepSWE更接近真实开发环境。模型需要理解需求、阅读代码库、修改程序、运行测试,再根据反馈不断修正。某种意义上,它测试的不再是“会不会写代码”,而是“能不能像工程师一样完成工作”。
从这个角度看,M3此次表现提升的意义其实超过排名本身。
尤其是在允许尝试4次的条件下,M3通过率达到48.7%,与Kimi-K2.6并列。这说明模型在多轮自我纠错能力上已经进入国内第一梯队。对于未来AI Agent产品而言,这类能力往往比一次性正确率更重要。
不过,成绩单里仍然存在明显短板。
M3完成单个任务的步骤中位数达到311步,平均成本中位数约5.04美元。这个数字在实验室环境里或许可以接受,但如果未来需要支撑大规模商业化部署,成本压力会迅速放大。
原因并不复杂。
今天的大模型竞赛已经从“谁最聪明”逐渐转向“谁最便宜”。OpenAI、Anthropic、Google以及国内头部厂商都在经历类似变化。模型能力接近之后,效率开始成为新的竞争维度。
开发者并不关心模型是否能多思考100步,他们更关心的是完成任务需要多少时间、消耗多少Token,以及最终账单是多少。
因此,MiniMax眼下面临的挑战其实与许多国产模型公司相似:能力突破已经不再稀缺,规模化交付能力才是真正的考验。
从行业视角来看,国产代码模型的整体进步速度正在加快。Kimi、MiniMax、智谱、小米等厂商之间的差距已经从过去的代际差距,逐渐演变成细节优化和工程能力的竞争。榜单排名或许还会频繁变化,但有一点越来越清晰——中国AI公司的竞争已经从通用聊天场景深入到软件开发核心环节。
而代码,恰恰是最容易被量化、最容易产生商业价值,也最容易验证模型真实能力的战场。
DeepSWE榜单上的几个百分点差距,表面看是技术指标,背后争夺的却是下一代AI开发工具市场的入口。谁能在准确率、成本和效率之间找到更好的平衡,谁就更有机会成为未来开发者工作流中的基础设施。
