gate交易所全球最大的区块链首发平台

一键参与，免费领空投。累计空投 $111,868,785

2026-06-08 gate交易所

过去几个月，中国大模型公司的竞争焦点正在悄悄发生变化。

如果说去年大家还在比拼参数规模、上下文长度和通用能力，那么进入2026年后，一个更务实的指标开始受到开发者和投资人的共同关注——模型到底能不能把代码写对。

最新进入DeepSWE官方榜单的MiniMax编码模型M3，就是这一趋势下的最新样本。

数据显示，M3当前通过率达到20.4%，超过小米Mimo-V2.5-Pro的19.5%以及智谱GLM-5.1的17.5%，距离月之暗面Kimi-K2.6的23.9%也只剩下几个百分点差距。单看数字，这似乎只是榜单名次的变化，但背后反映的是国内代码大模型竞争格局正在快速收敛。

一个月前，M3的通过率还只有13.3%。

短短数日内接近翻倍的提升，主要来自6月3日完成的一次推理系统升级。官方披露的信息显示，模型修复了异常Token生成问题，同时针对长上下文缓存机制进行了优化。对于普通用户而言，这些技术名词略显抽象，但在代码生成领域，它们往往决定着模型是否会在数百步推理后突然“跑偏”。

编程模型最怕的并不是不会写代码，而是写到一半开始胡说八道。

随着Agent模式和自动编程工具逐渐普及，模型处理的任务长度越来越长。一个真实的软件工程任务可能涉及数万个Token、数十个文件以及持续数百步推理。此时，长上下文记忆能力的重要性甚至超过单纯的代码生成能力。

这也是为什么DeepSWE这类榜单越来越受到行业重视。

相比传统代码基准测试，DeepSWE更接近真实开发环境。模型需要理解需求、阅读代码库、修改程序、运行测试，再根据反馈不断修正。某种意义上，它测试的不再是“会不会写代码”，而是“能不能像工程师一样完成工作”。

从这个角度看，M3此次表现提升的意义其实超过排名本身。

尤其是在允许尝试4次的条件下，M3通过率达到48.7%，与Kimi-K2.6并列。这说明模型在多轮自我纠错能力上已经进入国内第一梯队。对于未来AI Agent产品而言，这类能力往往比一次性正确率更重要。

不过，成绩单里仍然存在明显短板。

M3完成单个任务的步骤中位数达到311步，平均成本中位数约5.04美元。这个数字在实验室环境里或许可以接受，但如果未来需要支撑大规模商业化部署，成本压力会迅速放大。

原因并不复杂。

今天的大模型竞赛已经从“谁最聪明”逐渐转向“谁最便宜”。OpenAI、Anthropic、Google以及国内头部厂商都在经历类似变化。模型能力接近之后，效率开始成为新的竞争维度。

开发者并不关心模型是否能多思考100步，他们更关心的是完成任务需要多少时间、消耗多少Token，以及最终账单是多少。

因此，MiniMax眼下面临的挑战其实与许多国产模型公司相似：能力突破已经不再稀缺，规模化交付能力才是真正的考验。

从行业视角来看，国产代码模型的整体进步速度正在加快。Kimi、MiniMax、智谱、小米等厂商之间的差距已经从过去的代际差距，逐渐演变成细节优化和工程能力的竞争。榜单排名或许还会频繁变化，但有一点越来越清晰——中国AI公司的竞争已经从通用聊天场景深入到软件开发核心环节。

而代码，恰恰是最容易被量化、最容易产生商业价值，也最容易验证模型真实能力的战场。

DeepSWE榜单上的几个百分点差距，表面看是技术指标，背后争夺的却是下一代AI开发工具市场的入口。谁能在准确率、成本和效率之间找到更好的平衡，谁就更有机会成为未来开发者工作流中的基础设施。

登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

本站为您提供gate交易所的注册地址、加密货币及区块链的科普文章以及行业资讯等内容.

gate交易所 全球最大的区块链首发平台