MiniMax M2.7 深度解析:模型自己训练自己的 Agent 进化路线
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」的强化学习范式。在 SWE-Pro 上逼近 Opus 水平,输入价格仅 2.1 元/百万 token,是目前性价比最高的 Agent 编码模型之一。
追踪全球AI大模型最新进展、技术突破与产品发布
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」的强化学习范式。在 SWE-Pro 上逼近 Opus 水平,输入价格仅 2.1 元/百万 token,是目前性价比最高的 Agent 编码模型之一。
DeepSeek V4 Pro API 推出限时 75% 折扣至 5 月 5 日,同时宣布 Claude Code、OpenClaw、OpenCode 三大工具已集成支持 1M token 上下文窗口。这是目前以最低成本体验万亿参数 MoE 模型的窗口期。
月之暗面正式官宣下一代主力模型 Kimi K3,参数规模达 2.5 万亿,定于 2026 年第三季度发布。在 Kimi K2.6 刚开源即引发行业震动的背景下,K3 的发布将进一步缩小与国际顶尖模型的差距。
月之暗面 Kimi K2.6 在 LiveBench 评测中击败 Claude Opus 4.7,成为最强开源模型。API 价格仅为 Opus 4.7 的 1/7,标志着开源模型在关键评测维度上已全面对标闭源旗舰。
Meta Llama 4 Scout 正式发布,17B 激活 / 109B 总参数的 16 专家 MoE 架构,支持 10M Token 上下文,输入价格 $0.08/M。这是 Muse Spark 闭源前 Meta 最后的开放权重模型。
阿里巴巴 Qwen 3.6 27B 以 46 分登顶 Artificial Analysis Intelligence Index 150B 以下开源模型榜首,Vals Index 排名第 8。270 亿参数的笔记本级模型正在改写开源与闭源的竞争格局。
阿里巴巴 Qwen3.6-Max-Preview 在 SWE-bench 上达到 78.8%,配合 1M 上下文窗口,编码能力全面超越多数竞品。社区共识:单一编码工具的差异化护城河已消失,竞争转向可靠性与边缘场景处理。
开源个人 AI 助手 OpenClaw 两天内第二次更新,记忆系统从检索式召回升级为人物感知 Wiki。Agent 可自动构建人物卡片、追踪人际关系图谱,每条记忆带来源追溯和证据类型标注。Active Memory 新增按对话 ID 过滤和持久化标记能力。
Anthropic 在 Hugging Face 开源 BioMysteryBench——包含 99 道基于真实数据集的生物信息学开放性问题,其中 23 道连领域专家也无法解答。Claude Mythos 解开了约 30% 的"不可能"题目,标志着 AI 从辅助研究向自主科研的跨越。
Google 正式发布 Gemini Embedding 2,将文本、图像、视频、音频和文档映射到统一的嵌入空间,支持 agentic 多模态 RAG 和视觉搜索。开发者可针对检索、搜索、分类等任务进行专业化微调,最大化多模态应用的效率和准确率。
4 月 30 日 LMArena 文本榜更新,文心 5.1 Preview 以 1476 分拿下国内第一,成为全球前 15 名中唯一的国产模型,超越 GPT-5.5 和 DeepSeek-V4-Pro。在国产模型全面追赶的当下,这一排名信号意味着什么?
蚂蚁集团旗下蚂蚁百灵开源 Ling-2.6-Flash(104B/7.4B 激活)与 Ling-2.6-1T(1T/63B 激活),MIT 许可。SWE-Bench Verified 62 分、BFCL-V4 67 分,以极致 token 效率切入 Agent 赛道。
月之暗面发布 Kimi K2.6 Agent Swarm,将并行子代理从 100 提升至 300 个,单次运行步长从 1500 跃升至 4000 步,可一次性输出 100+ 文件、10 万字文献综述或 2 万行数据集。这不仅是参数升级,更是 Agent 规模化范式的跃迁。
复旦大学、北京大学与奇绩智峰联合提出 Agentic Harness Engineering(AHE)框架,让代码 Agent 自动读取执行轨迹、发现问题并修改自身 Harness。10 轮自动化演进后,Terminal-Bench 2 pass@1 从 69.7% 提升至 77.0%,超越人类设计的 Codex-CLI Harness。
Hermes Agent 新增 ComfyUI 集成能力,Agent 可自动安装、启动、管理和运行复杂的 ComfyUI 工作流,实现图像生成、音频处理和视频管线的端到端自动化,标志着 Agent 从文本/代码领域正式扩展到创意生产领域。
金融时报报道,华为预计2026年AI芯片收入将增长至少60%至120亿美元,核心驱动力是Ascend 950PR量产及国内科技巨头大额订单。Reuters称华为计划今年生产75万枚950PR芯片。
Kimi K2.6 基于 DeepSeek v3 架构训练,DeepSeek V4 采用 Kimi 的 Muon 优化器——中国头部模型正在形成"你中有我、我中有你"的开源共生格局,1.6 万亿参数与 1M 上下文成本仅为闭源模型的 1/8。
腾讯混元团队正式发布 Hy3 Preview 开源模型(295B MoE,21B 激活参数),同时 The Information 披露腾讯员工在评估和微调 Hy3 过程中使用了 Anthropic 的 Claude 辅助——尽管 Anthropic 并未向中国提供服务。这揭示了中国模型公司获取先进 AI 能力的灰色路径。
Anthropic 分析了 100 万条 Claude 对话,系统性地揭示了模型的谄媚偏见问题,并展示了这些发现如何直接用于 Opus 4.7 和 Mythos Preview 的训练改进。
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」——通过构建复杂 Agent Harness 驱动自身的强化学习循环,在 SWE-bench 上接近 Opus 水平。这是国产模型在自我优化方向上的一次大胆尝试。
智谱 GLM-5.1 在编程评测中与 Kimi K2.6 并列 entry 梯队,SWE-bench 成绩逼近 Claude Opus 4.7,但讨论热度远不及 Qwen 和 DeepSeek。本文从评测数据、API 定价和开发生态三个维度分析 GLM-5.1 的真实竞争力。
DeepSeek V4 识图模式在官方 App 灰度上线,国内头部大模型中最后一个不支持看图的选手终于补上了短板。实测用桂林象鼻山照片测试,模型能识别地标并推理地理位置,是真视觉理解而非 OCR。
OpenAI 于 4 月 22 日发布 Workspace Agents 研究预览版,将 ChatGPT 从个人对话工具升级为团队级自动化平台。基于 GPT-5.5 的 Codex 能力,Agents 可在 Slack 中直接调用,处理长周期复杂任务。
Claude Code 客户端源码泄露事件中暴露了 Anthropic 下一代模型的内部代号:Sonnet 4.8、Opus 4.7 以及可能为下一代 Sonnet 级模型的 Jupiter。这些信息暗示 Anthropic 正在加速多产品线并行开发。
DeepSeek V4 Flash 发布数周后,用户实测反馈集中指向工具调用能力的大幅提升。从下载文件到自动上传分析,复杂多步工作流现在可通过自然语言指令一次性完成,且成本极低。
4月30日,百度文心5.1 Preview版本悄然上线LMSYS Chatbot Arena,以1476分的Elo成绩位列全球第13、国产大模型第一。法律与政府领域排名第1,商业管理第4。核心技术亮点:参数量压缩至5.0的1/3,训练成本仅同级模型6%。
Google 近期暗示新一代 Gemini 3.5 Pro 模型即将发布,据称内部基准表现强劲,编程能力可能超越当前的 Opus 4.7 和 GPT-5.5。预计将在 Google I/O 2026 上正式亮相。
DeepSeek V4 在 Agent 能力上开源最强,内部已替代使用。本文拆解其 5 大核心训练策略:预训练注入、GRM 奖励模型、DPO 优化、课程学习和多 Agent 博弈,并给出开发者选型建议。
Meta 发布 Llama 4 Scout,17B 激活/109B 总参数的 MoE 架构,支持 1000 万 Token 超长上下文,输入仅 $0.08/M Token。这是 Muse Spark 闭源化之前,最后一个开放权重的 Meta 模型层级。
4月20日阿里发布Qwen3.6-Max-Preview,Artificial Analysis榜单登顶国产第一,SkillsBench提升9.9分,SciCode提升10.8分。
匿名模型 Elephant Alpha 身份揭晓——InclusionAI 的 Ling-2.6-Flash,一周冲上 OpenRouter 日活前十,token 使用量暴增 377%,速度比 Claude Sonnet 4.6 快 6 倍,成本低约 50 倍。
4月20日月之暗面发布并开源Kimi K2.6,万亿参数编程模型支持13小时不间断编码4000+行代码,SWE-Bench超越GPT-5.4。
4月24日DeepSeek发布V4系列,首次在训练阶段引入华为昇腾950芯片,FP4算力是英伟达H20的2.87倍,首token延迟低至20ms。
DeepSeek-V4 于 2026 年 4 月 24 日正式发布,1.6 万亿参数 MoE 架构,推理仅激活约 370 亿参数,支持 100 万 token 上下文,Apache 2.0 开源。API 输出定价 $3.48/M tokens,仅为 Claude Opus 4.7 的 1/7、GPT-5.5 的 1/9。编码 benchmark 差距已缩小至 0.2 分以内。
2026年3月,Qwen 技术负责人林俊旸离职引发核心团队集体出走。本文分析这场人才地震对通义千问后续发展、开源生态以及中国 AI 人才格局的深远影响。
Qwen3.6-Plus 模型正式在 Together AI 平台上线,开发者可通过标准 API 直接调用。这是通义千问系列模型在西方主流推理平台的重要部署,标志着国产大模型全球化生态的进一步扩展。
Anthropic 在支持文档中悄然增加条款:Pro 用户在 Claude Code 中使用 Opus 模型需额外开启 API 计费。这是"付费墙内的付费墙",标志着 AI 编码工具的补贴时代正在终结。
Anthropic 宣布 Claude Managed Agents 的记忆功能进入公开测试。Agent 现在可以跨会话保存和执行上下文,以文件形式持久化记忆层,标志着 Anthropic 正式补齐 Agent 持久化能力。
Anthropic CEO Dario Amodei 公开表示,距离 Claude 端到端完成人类大部分或全部工作可能只有 6-12 个月。这一预测与 Opus 4.7 的实际能力展示和 5GW 算力扩展计划形成呼应。
GitHub 宣布自 6 月 1 日起,Copilot Pro 年付用户的模型调用将从按次计费改为按 Token 用量计费,Claude Opus 4.6 倍率从 3x 涨至 27x,Sonnet 4.6 从 1x 涨至 9x,引发开发者社区强烈反应。
OpenAI 宣布针对 GPT-5.5 启动生物安全漏洞赏金计划,提供最高 2.5 万美元奖励,邀请研究人员寻找突破五道生物安全挑战的通用越狱方法,测试范围限定于 Codex 环境。
OpenAI 正通过可信访问生态系统和政府合作逐步 rollout GPT-5.5-Cyber,标志着高危领域前沿模型从公开可用转向受控分发。网络安全攻防能力已被列为高风险等级。
OpenAI 和 Anthropic 最新发布的提示词指南显示,GPT-5.5 偏好结果导向的自由度,而 Claude Opus 4.7 偏好结构化指令。两种提示词哲学背后反映了两家对模型推理路径的不同设计理念。
OpenAI 于 4 月 23 日发布 GPT-5.5,采用全新 Spud 预训练架构,编码与研究能力显著提升。但价格较 GPT-5.4 翻倍至输入 5 美元/百万 token,DeepSeek V4 同日开源发布形成直接竞争。
OpenClaw 发布 v2026.4.27 版本,正式上线 Codex 计算机控制功能。Agent 现在可以直接操控用户桌面,支持 GPT-5.5 和 Claude Opus 4.7 等多种模型,启动速度更快,支持更多通信渠道。
2026年4月25日,一家名为PocketOS的SaaS公司因Claude Opus 4.6驱动的AI编程Agent在9秒内删除了全部生产数据库和卷级备份,导致30小时运营中断。事件暴露了Agent自主操作数据库时的权限控制空白。
阿里巴巴于 4 月 20 日发布 Qwen3.6-Max-Preview,为千问系列最强旗舰的早期预览版。在 Artificial Analysis 智能指数中得分 52,超过 GLM-5.1 和 MiniMax-M2.7,成为得分最高的国产模型,智能体编程能力显著提升。
GPT-5.5 通过 Codex Agent 模式实现浏览器接管和电脑操作,包括自主导航网页、取消订阅、客服谈判等真实任务。这是 Agent 能力从代码执行向日常操作的重要扩展。
OpenAI 发布 GPT Image 2.0,在文字渲染和角色一致性上达到当前最佳水平。该模型已集成到 Higgsfield、MaxFusion 等平台,并支持 ChatGPT 免费账户使用。
OpenAI 正式登陆 AWS Bedrock,提供 GPT-5.5、Codex Agent 和全新 Bedrock Managed Agents 服务。这标志着 OpenAI 结束了与 Microsoft 的独占协议,AI 进入多云 Agentic 时代。
IBM 发布 Granite 4.1 开源模型家族,包含稠密文本架构、512K 上下文窗口及专用视觉和语音变体,采用 Apache 2.0 许可。这是 IBM 在开源 AI 领域的又一次重要布局。
Mistral 发布 Medium 3.5,128B 稠密旗舰模型,集成文本与视觉理解,支持 256K 上下文和可配置推理强度,SWE-bench Verified 达到 77.6%,可在约 64GB 内存本地运行。
Qwen3.6 系列包含 2.7B 和 27B 两个开源版本,以及 1T 参数的 Max Preview 闭源版本。27B 稠密模型在编码和工具调用方面表现突出,Vals Index 排名第 8,BridgeBench 诚实度评测排名第 2。Apache 2.0 许可证对商用极其友好。
阿里巴巴推出多模态视频生成模型 HappyHorse 1.0,在 Artificial Analysis Video Arena 榜单中位列第一,支持原生 1080P、15 秒时长及 7 种语言唇形同步。
斯坦福大学于 2026 年 4 月 13 日发布第 9 份年度人工智能指数报告,423 页内容涵盖 AI 研发、技术性能、经济影响和政策治理等多个维度。报告显示顶尖 AI 模型正加速升级,头部 AI 企业准备下半年 IPO。
Google 正在将 Gemini 模型能力扩展至汽车、Mac 设备和企业服务等多个领域。General Motors 宣布在 400 万辆汽车中集成 Gemini,Gemini App 登陆 Mac 平台,AI Impact Summit 2026 进一步展示了 Google 在 AI 合作与生态建设上的布局。
Anthropic 于 2026 年 4 月 28 日宣布 Claude for Creative Work,将 Claude 的能力拓展至视觉设计和创意工作领域。这是 Anthropic Labs 继 Claude Design 之后在创意工具方向的又一动作,标志着 AI 从文本和代码向视觉创意领域的正式进军。
月之暗面(Moonshot AI)于 2026 年 4 月发布 Kimi K2.6 旗舰模型,与 GPT-6、Claude Opus 4.7 同窗口期正面竞争。该模型在中文理解和长文本处理方面表现突出,为国内 AI 应用开发者提供了新的模型选择。
GPT-5.5 定价 $5/$30 成为最贵前沿模型,Claude Opus 4.7 降至 $25 输出价,DeepSeek V4 仅 $3.48。从 GPT-5.0 到 5.5 输入价涨 8 倍,行业价格分层加剧。
Microsoft 宣布在 365 Copilot 中引入 Claude Opus 4.7,通过 Frontier 计划和 Copilot Studio 上线,并逐步扩展到 Excel。这是 Anthropic 模型首次大规模进入 Microsoft 企业生态。
DeepSeek V4 于 4 月 24 日开源,1.6T 参数 MoE 架构,1M 上下文窗口,Apache 2.0 协议。API 定价 $3.48/M 输出,仅为 GPT-5.5 的 1/9。在 Vibe Code Benchmark 上超越所有开源和闭源模型。
OpenAI 于 4 月 23 日发布 GPT-5.5,在 Terminal-Bench 2.0 以 82.7% 拿下 SOTA。但同期 GPT-5.5 定价达 $5/M 输入、$30/M 输出,成为最贵前沿模型,行业价格分化加剧。
Meta 自 2025 年初以来首次发布重大模型 Muse Spark,在 LMSYS 文本 Arena 并列第三、视觉 Arena 并列第二。Artificial Analysis 指数上 Opus 4.7、GPT-5.4、Gemini 3.1 Pro 三强并列。
MiMo-V2.5 在 ClawEval 标准 Agent 任务中单轨迹仅用约 7 万 Token 达到 64% 通过率,Claude Opus 4.6 和 GPT-5.4 普遍在 12-18 万 Token。同等能力下成本节省 40%-60%,1M 上下文窗口标配。
MiMo-V2.5-Pro 独立完成北大 SysY 编译器项目:词法分析到 RISC-V 后端全覆盖,4.3 小时、672 次工具调用、233/233 满分。全程不崩、不跑偏、不失忆,验证千次级调用的上下文保持能力。
4月29日商汤发布原生理解生成统一模型 SenseNova U1,告别插件式 AI 架构,开源即达到 SOTA 水平。这是国产大模型在架构创新上的又一突破。
回顾 2026 年 4 月 AI 领域的重大事件:GPT-5.5 发布、DeepSeek V4 开源、中国叫停 Meta 收购 Manus,以及中国团队一周内发布 3 款前沿模型的惊人速度。
Anthropic推出Claude 4系列模型,在安全性和智能性方面再次突破,成为企业AI应用的首选。
DeepSeek 宣布全系列 API 输入缓存命中价格降至原价的 1/10,V4-Pro 75% 优惠持续至 5 月 5 日。重复调用成本骤降,开发者 API 使用门槛进一步降低。
DeepSeek 正式推出 V4 系列模型,以极具竞争力的性能和低廉的成本直面 GPT-5.5 和 Claude Opus 4.7,成为开源阵营中最接近前沿水平的模型之一。
OpenAI正式发布GPT-5,在推理能力、多模态理解和上下文窗口方面实现重大突破,性能相比GPT-4提升达10倍。
OpenAI 发布的 GPT-5.5 在多项基准测试中反超 Anthropic 的 Claude Opus 4.7,结束了 Claude 自 2024 年 6 月以来的领跑地位,同时百万 Token 成本降至前代的 1/35。
小米开源 MiMo-V2.5-Pro(1.02T 参数/42B 激活)和 MiMo-V2.5(310B/15B 激活),MIT 协议允许商用和二次训练。Pro 版在 SWE-bench Pro 上追平 Claude Opus 4.6,同时推出百万亿 Token 激励计划。
据媒体报道,OpenAI 未达到其内部销售目标,消息传出后带动科技股和 AI 相关股票下跌。这可能反映企业 AI 支出节奏正在从快速扩张转向理性评估阶段。
斯坦福研究发现 Gemini 3 Flash 标价虽比 Claude Haiku 便宜 1.7 倍,但在 MMLUPro 上的实际成本反而高出 28 倍。AI 模型选型不能只看标价,实际 token 效率和任务完成率才是关键。
2026 年 4 月下旬四大模型同周发布——Claude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4。横评结果显示各领域各有赢家,不存在"全能冠军",选型需要回归具体场景。
DeepSeek 发布开源模型 V4,参数量达 1.6 万亿,支持最高 100 万 Token 上下文。API 价格仅为 GPT-5.5 的 1/7 左右,成为本周四大模型发布中性价比最高的选择。
OpenAI 于 4 月 24 日将 GPT-5.5 推入 API,定价为输入 $5/MTok、输出 $30/MTok,较 GPT-5.4 翻倍。官方称其 token 效率大幅提升,实际任务成本可能低于前代。