6月第一周MiniMax M3出来了依旧的量大管饱Token Plan定价的讨论声不少我连夜测试用M3去review pandas代码仓库这是小时级别的任务效果有点出乎意料。从M2到M3这应该是MiniMax推理模型一次很大的代际更新我记得去年10月初代M2出来当时MoE成本优势直接把token带进了白菜价也是首次开始从大语言模型转向agent生产力导致在OpenClaw模型token榜单上一度登顶。后来几乎每两个月迭代一个版本从2.1、2.5、到2.7但都是2.X系列。一直到现在M3能看到的是MiniMax一直在疯狂地去强化模型的agent能力几乎把生产力当作第一要义。这个赛道实在是强者如云GPT-5.3-Codex短短几个月得到了远超Claude Code的追捧。首先是大家一直在提的MSAMiniMax自研的稀疏注意力架构重点不在于自研而是它把1M上下文从噱头变成了实用的功能。为什么说之前一百万上下文只是挂在天上的参数用着不爽呢因为在超长上下文推理场景里很多模型会变得非常慢狂吃token而且极其容易出现胡言乱语的情况也就是AI幻觉。稀疏注意力Sparse Attention其实早就有了国内国外主流模型一直在做不过传统SA是全注意力机制读百万字小说会逐字通读虽然准确但很慢非常消耗显存长文本计算复杂度高的离谱。MiniMax这次做了产品的创新路还是老路但换了辆8缸的新车仍然采用SA但他们在计算前加了一个“预筛选”的网眼通过KV-Block键值块把不重要的废话直接过滤掉。简单点说MSA把一本百万字的书进行了分块按目录阅读抓住重点章节这样大幅降低了计算量还不容易失忆出错。我看到官方数据说在100万上下文场景下M3的token计算量只有上一代的1/20解码速度快了15倍。举个简单的例子我让M3去review Python数据处理库pandas的代码这是一个非常庞大的项目几万个文件几十万行代码而且结构复杂。这个任务看起来复杂其实一点也不简单。M3没有直接一股脑去读github的仓库文件而是先制定打法策略拉起了队伍通过数据结构、IO、GroupBy、内存管理、扩展集成这5个不同角度去解析然后汇总。这其实就是MSA在发挥作用通过长程记忆和高效注意力分配聚焦关键信息并进行任务规划。有意思的是在Agent执行过程中M3就像工程队领头一样指挥协调这5个模块干活还把施工过程记录的清清楚楚。最终跑了一个小时M3产出了6份优化报告其中5份分模块的1份汇总报告。除了MSA另一点值得讲的是M3的Agent能力比如说他们构建了一个“交互式用户模拟器”框架相当于虚拟一个技术大佬进行陪伴式开发可以进行多轮协作、改需求、给反馈。确实是这样Vibe Coding不是线形任务一条prompt跑到底需要随时修改、优化、反馈最终才能拿到像样的产品。我拿了一个比较复杂的场景去测试M3的编程Agent效果要求根据车企线索接入流程图开发接口系统并输出管理UI和接口文档由于汽车行业线索来源多达几十个渠道且存在实时清洗和高并发的情况所以这个接口系统并不好开发。提示语和流程图如下理解图中内容设计一套部署在本地服务器的API接口系统能适配不同平台/不同方式线索接入且保证API的稳定性、安全性、 鲁棒性。产出物1、API接口系统2、线索接入管理UI界面3、接口文档我是在Trae上配置的M3Claude Code、Codex也都可以在开发过程中不断的review代码过程。当然我在这个过程中发现AI有时候会陷入思维死循环验证很多次当前方案不行了却一直不肯换方向比如python依赖安装pip损坏安装很多次不行一直在尝试安装。当然最终这个bug还是修复了我拿到了三个文件完整的API接口系统、UI管理界面、API文档。其中API接口系统支持不同渠道、不同形式的数据接入且处理了高并发、错误处理等情况。后台的UI管理系统支持线索流转路径聚合分析。API接口文档非常详细。这个任务不仅依赖AI的代码Agent能力还需要有多模态的智能识别因为我只是提交了流程图它需要通过识别流程图的关键节点来进行开发。与此同时我还在测试了M3的网页生成能力当然我想要的不是那种炫酷的充满设计感但毫无实际用途的网页而是能通过搜集数据和信息解决实际问题的实用型网页。比如说买车场景在MiniMax Code中扔了一张最新的新能源车销量排名图让它给我输出选车报告必须得有真实的用户好差评作为参考。AI就会通过采集Agent努力的从各大平台采集用户声音补充信息源。最终它生成一个图文并茂的HTML网页效果不错。总的来说MiniMax M3是想要在Agent中杀出重围找到自己的一块领地但可能并不容易Opus4.7、GPT5.5两座大山在前而且有Claude Code和Codex这样的顶级框架但是这一次M3确实已经在试探着去接近我觉得是好事。