Anthropic 隐秘功能 "Orbit" 曝光:Claude Cowork 即将迎来重大升级
Anthropic 正为 Claude Cowork 平台开发名为 "Orbit" 的新功能,开发者门控代码为 "tibro enabled"。该功能可能在即将到来的 Code with Claude 大会上正式发布,预计将增强 Claude 的自主任务执行能力。
追踪全球AI大模型最新进展、技术突破与产品发布
Anthropic 正为 Claude Cowork 平台开发名为 "Orbit" 的新功能,开发者门控代码为 "tibro enabled"。该功能可能在即将到来的 Code with Claude 大会上正式发布,预计将增强 Claude 的自主任务执行能力。
WLFI 生态旗下 WorldClaw 推出 WorldRouter,聚合 300+ AI 模型(Claude、GPT、Gemini 等),比官方定价低 30%,支持 USD1 稳定币结算。最高档套餐附赠海湖庄园私人活动抽奖机会。
智谱清言推出大规模免费 Token 活动:注册即送 200 万通用 Token,GLM-4.6V 视觉模型 600 万,GLM-4.5-Air 1200 万。无需实名认证,手机号即可注册。这波操作直接降低了国产模型的使用门槛。
OpenAI 正式推出 ChatGPT 自助广告平台,面向美国广告主开放。最低投放门槛从 $25 万降至 $5 万,新增 CPC 竞价和转化追踪,引入 Pacvue、Kargo、StackAdapt 等广告技术合作伙伴。
DeepSeek V4 Pro 在 FoodTruck Bench 上与 GPT-5.2 持平,延迟 10 周发布的原因是为了适配国产芯片。推理成本仅为美国同类模型的 1/17,标志着中国 AI 从"模型追赶"转向"算力自主"。
OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型,全员免费可用。回复精简 30%,高风险领域幻觉降低 52.5%,记忆和个性化同步升级。
月之暗面发布 Kimi K2.6 开源编程模型,支持 256K 上下文、OpenAI 兼容接口、图像视频理解,SWE-bench Multilingual 声称超越 GPT-5.4 和 Opus 4.6,且完全免费。
MiniMax 在 M2.7 之后即将发布 M3 版本,并首次展示了 Office Agent 能力预览。在 GDPval-AA 评测中 M2.7 得分 1514,虽不是最高分但走出了差异化的 Office 办公场景路线,与 DeepSeek、Kimi、GLM 形成错位竞争。
腾讯悄然开源 1.8B 参数翻译模型,提供 2bit 和 1.25bit 两个量化版本,手机端可直接运行,翻译评分接近 Qwen3-32B 水平,标志着大模型赛道向小模型精细化竞争转向。
蚂蚁集团灵光团队正式开源 Ling-2.6-1T,1 万亿参数 MoE 架构,聚焦 token 效率而非参数量竞赛。相比同类万亿模型,推理成本更低、Agent 适配更直接,为生产部署提供了新的开源选择。
百川智能曾是"AI四小龙"中最受瞩目的选手之一,但Baichuan 4发布后声量远不及Qwen、DeepSeek、Kimi。本文分析百川的技术路线、开源策略及在激烈竞争中的突围路径。
Google Gemini 3.2 Flash 模型已在 Google AI Studio 和 iOS 应用中灰度出现,定位为兼顾速度与推理的全能型模型。能力接近 Gemini 3.1 Pro 但保持 Flash 级别的速度。Google I/O 大会(5月19日)预计正式公布。
社区开源 Qwen3.6-27B-Claude-Opus-Reasoning-Distill-v2,将 Qwen3.5 推理能力与 Claude Opus 蒸馏结合,4-bit 量化后可在消费级 GPU 运行,标志着开源推理模型进入新阶段。
DeepSeek 4月底连发两项视觉能力升级:DeepSeek Vision Beta 原生接入聊天界面,以及《用视觉原语思考》技术报告提出"边指边想"的双轨推理机制,突破传统多模态模型的语言思维局限。
OpenAI 在 ChatGPT 中静默上线 GPT-5.5 Instant 模型,多项基准测试显著跃升:AIME 2025 从 65.4% 升至 81.2%,GPQA 从 78.5% 升至 85.6%,幻觉率降低 52.5%。这是 OpenAI 持续压缩模型发布节奏的最新动作。
月之暗面 Kimi K2.6 在设计竞技场中超过 GLM 5.1 和 GPT-5.5,同时在 SWE-Bench Pro 上与 Claude 和 GPT-5.5 拉平,成本仅为三分之一。中国开源模型正在从"追赶"转向"平价替代"。
月之暗面 Kimi K2.6 正式登陆 OpenRouter,输入 $0.95/MTok、输出 $4/MTok 的定价策略直接对标 Claude Opus 4.7。这是国产模型首次以激进定价出现在国际模型聚合平台上,标志着中国开源模型开始争夺全球开发者市场。
OpenAI 于 5 月 5 日发布 GPT-5.5 Ultra,在推理和编程任务上超越 GPT-4,但 token 消耗量显著增加,引发对计算效率和成本的讨论。这是 OpenAI 在 GPT-5 系列的又一次迭代更新。
Google 在 2026 年 5 月初对 Gemini 进行了一次大规模更新:引入 Notebooks 项目记忆系统、支持生成并下载 PDF/Word/Excel 等格式文件、推出原生 Mac 桌面应用。这不是功能堆砌,而是 Google 将 Gemini 从聊天机器人升级为生产力基础设施的战略动作。
蚂蚁集团百灵 Ling-2.6 系列在 OpenRouter 周榜上冲到第 16 位,上线仅数天就压过老牌模型 GLM 5.1。Ling-2.6-Flash 已开源,定位为生产级而非噱头驱动的模型,在推理效率和 Agent 性能上有显著优化。
2026 年 5 月 State of AI 报告显示,DeepSeek V4 和 Kimi K2.6 在 SWE-Bench Pro 上得分与 Claude Opus 4.7、GPT-5.5 持平,推理成本仅为后者的三分之一。但 FrontierSWE 长程任务测试揭示了新的能力分水岭。
Google 在 Gemini 聊天中新增文件生成功能,用户可直接对话生成 Docs、Sheets、Slides、PDF、Word、Excel 等格式文件。AI 办公能力从"建议"跃升到"执行",标志着 Google Workspace 与 Gemini 的深度整合进入新阶段。
月之暗面(Moonshot AI)于 4 月 29 日发布 Kimi 超级上下文升级,上下文窗口突破 2000 万 token,可同时处理整个技术手册库。这是继 Gemini 2M、Claude 1M 之后的又一个里程碑,标志着长文本竞争进入千万级时代。
阿里 Qwen Image 2.0 Pro 在 LMSYS Arena AI 文生图排行榜登顶第 9 名,人像类第 6、写实摄影类第 7,成为首个跻身该榜单前十的国产图像模型。
Anthropic CEO公开表示,Claude已参与设计下一代Claude的大部分工作。这一信号意味着AI系统正在从"被训练的工具"转向"自我进化的智能体"。
实测表明 Opus 4.7 负责架构规划、GPT-5.5 负责代码执行的双模型工作流,在编码质量与效率上显著优于单模型方案。本文拆解工作流设计、提示词模板与成本分析,给出可复用的最佳实践。
Meta 将其新一代基础模型 "Avocado" 的发布计划从 3 月推迟至 5 月,同时内部战略重心从开源 Llama 系列转向闭源前沿模型。扎克伯格的开源路线面临内部质疑,Meta 正从"开源推动者"转变为"开源与闭源双轨并行"。这一转向将重塑开源 AI 生态的竞争格局。
Qwen 与 Fireworks AI 达成战略合作,首次将 Qwen 系列闭源权重模型通过第三方推理平台对外提供。这意味着全球开发者无需翻墙或注册阿里云,即可以极低延迟调用 Qwen3.5、Qwen3.6 等最新模型。
国内AI软件用户排名出炉:豆包3.45亿居首,通义千问1.66亿位列第二,DeepSeek 1.27亿第三。千问App已进化为集文档分析、代码编写、图像理解于一体的AI操作系统。
Google I/O 2026 大会前泄露信息显示,Google 正在测试名为 "Omni" 的全新统一多模态模型,集成文字、图片、视频和长上下文能力。Gemini 视频生成界面已显示 "Powered by Omni",直接对标 Seedance 2.0 和 Veo 系列。
月之暗面在 arXiv 发布 Kimi K2 技术论文,提出"Open Agentic Intelligence"训练范式。论文核心洞察是:高质量文本 token 即将耗尽,继续往模型里"倒数据"的边际收益递减。K2 转而通过 Agent 自我交互生成训练数据,实现能力跃迁。这一思路与 OpenAI 的 process supervision 和 DeepSeek 的 RL 路线形成鲜明对比。
OpenAI 于 4 月 28 日静默上线 GPT-5.5 后端更新,引入 Persistent Reasoning(持久推理)能力,允许模型在复杂编程任务中思考数分钟。此次更新未做官方宣布,但开发者社区已发现多项行为变化。
MiniMax 核心开发者确认 M3 "不会太远",与 GPT-5.6、Sonnet 4.8、Gemini 3.5 同台竞技。回顾 M2.7 的自进化架构与百万上下文能力,预判 M3 的技术路线与市场定位。
Qwen 团队前技术负责人林俊旸(Junyang Lin)发表新观点:大模型的下一个阶段不是让模型"想得更久",而是让模型"为了行动而思考"。这一判断直指当前 CoT 和长推理路线的局限性,为 Qwen 后续 Agent 化指明了方向。
Qwen 团队确认已跨越 27B 参数门槛,下一个目标是 8B 端侧模型。结合 Qwen 3.6 系列已有的 35B/3.6B MoE 布局,阿里正在构建从云端到端侧的全尺度开源模型矩阵,直接对标 Llama 的开源端侧战略。
GDPval-AA 最新评测显示,小米 MiMo-V2.5-Pro 以 1578 分登顶中国开源模型榜单,超越 DeepSeek V4 Pro(1554)、GLM 5.1(1535)和 Kimi K2.6(1484)。五月国产开源模型密集发布,竞争进入白热化。
Cloudflare 发布 Agent Memory 私测服务,通过双通道提取、八步验证、五通道检索融合(RRF),为 AI 智能体提供跨会话持久化记忆。与 Mem0、Zep、Letta 等方案对比,差异化在于边缘分发和 Cloudflare 计算原语深度集成。
Anthropic CEO 确认 Claude 收入连续 10 倍年增长:2023 年 1 亿美元→2024 年 10 亿美元→2025 年 100 亿美元,且 2026 年 1 月仍在加速。5 月 6 日开发者大会即将发布 Claude Sonnet 4.8 或更新版本,同时 Cardinal 视觉回顾功能曝光。
OpenClaw 发布 v2026.5.3,新增内置 file-transfer 插件,Agent 可在已配对节点间执行文件读取、目录列表、文件写入和二进制传输。同时 ChatGPT 订阅现已支持在 OpenClaw 中使用。
Google IO 大会前数周,多个 Gemini 3.5 Pro 变体被社区发现。作为 Gemini 3 系列的下一代升级,3.5 Pro 预计强化多模态理解与端侧推理能力。在 GPT 5.6、Claude Sonnet 4.8、MiniMax M3 同月密集发布的背景下,Google 的端侧 AI 战略成为差异化竞争的关键。
NVIDIA CEO 确认美国出口管制已使其在中国 AI 加速卡市场份额降至零,华为昇腾预计 2026 年 AI 芯片收入达 120 亿美元。同时 Micron 财报显示 AI 需求正消耗全球超过一半的 DRAM 产能。
Hermes Agent v0.12.0 推出 Kanban 任务看板,支持多 Agent 并行协作;同时发布桌面应用,统一管理多 Agent、模型供应商和跨平台会话。社区反应热烈,推文 24 小时获 78 万浏览和 4400+ 点赞。
Qwen3.6-27B 在 AIME25 数学竞赛基准上达到 100% 准确率,成为少数达成此成就的开源模型。相比 Qwen3.5 平均性能大幅提升,特别是在数学推理类任务上展现出针对性调优效果。这一结果标志着 27B 级别开源模型的数学推理能力已逼近闭源旗舰。
DeepSeek V4 Pro API 的 75% 限时折扣将于 5 月 5 日 15:59 UTC 结束,届时价格将从 $0.435/$0.87 飙升至 $1.74/$3.48(每百万 token),涨幅达 4 倍。已在生产环境运行的项目需紧急检查成本预算。
智谱宣布 GLM-5.1 将于 6 月以 MIT 许可开放权重,专为长时序自主工程任务设计,支持持续数小时的编码迭代与多 Agent 工具调用。
Anthropic 内部 512,000 行代码意外公开,泄露内容显示 Claude Sonnet 4.7 已被跳过,下一代直接命名为 Sonnet 4.8。5 月 6 日开发者大会即将揭晓。
智谱 AI 宣布 GLM-5.1 将于六月正式发布,采用 MIT 许可完全开源。该模型专为长时间自主执行场景优化,包括长程编码、Agent 工具调用和数小时级迭代工程,标志着开源 Agent 模型进入新阶段。
Google 发布 Gemini 3.1 Ultra,原生支持 200 万 token 上下文窗口,文本/图像/音频/视频统一处理。同时 LMSys 竞技场出现新版 Gemini Flash 模型,预计将在 Google I/O 大会上正式亮相。
阿里通义千问在 OpenRouter 上线 Qwen 3.6 Max Preview,采用万亿参数稀疏 MoE 架构,262K 上下文窗口,专为 Agentic Coding 和工具调用优化。定价 $1.30/$7.80 per M tokens,为当前最具性价比的旗舰级模型之一。
Qwen3.5/3.6 系列模型支持思考模式但容易过度思考,浪费大量 token 且回复缓慢。社区发现的 Grammar 约束方案可将 think token 消耗降低最多 22 倍,同时保持准确率。
月之暗面 Kimi K2.6 正式登陆 June AI 平台。作为开源权重模型,K2.6 以编码驱动和持续自主执行为核心,特别擅长长程软件工程、Swarm 编排和迭代式开发。在 SWE-bench 等编码基准上已经接近或超越闭源旗舰,同时保持开源可访问性。
中文开发者社区出现大规模从 Claude Code 切换至 DeepSeek V4 Pro 的趋势——价格仅为 CC 的 1/40,性能差距却远小于价格差。Hermes 与 CC 的 harness 对比成为核心争议点。
GPT-5.5 参数规模从最初估算的 9.7T 被重新修正为 1.5T,差距达 6.5 倍。OpenAI 用更小的模型击败更大的对手,证明训练效率比参数堆砌更重要。同时 GPT-5.5 标志着 ChatGPT 向"超级应用"转型。
Google I/O 大会前,多条泄露信息指向 Gemini "Omni" 多模态模型正在测试,同时 Gemini 3.5 Flash 和全新视觉模型 "spark Robin" 也浮出水面。Google 正在从"AI助手"向"全场景智能基础设施"转型。
Google 悄悄为 Gemini 推出 Projects 功能,将文件和指令统一管理,支持跨会话记忆。这标志着 Gemini 从一次性问答工具向持续性 AI 工作空间的转变。
Anthropic 内部已开始对代号 "claude-jupiter-v1-p" 的新模型进行红队测试。结合 GPT-5.5 与 Mythos 的 AISI 评估对比,Anthropic 的下一代模型竞争策略逐渐清晰。
研究人员重新测算 GPT-5.5 参数量为 1.5T,远低于此前估算的 9.7T,误差达 6.5 倍。这一发现暗示 OpenAI 在模型架构效率上取得了突破性进展——用更少的参数实现了更强的性能。同时期模型发布节奏已压缩至月更,行业竞争进入拼效率的新阶段。
月之暗面确认 Kimi K2.6 将于六月以开源权重发布,核心定位是"编程驱动 + 长周期自主执行",特别针对大规模软件工程与 Swarm 任务编排。该模型将采用 Modified MIT 许可,免费开放 API 与 Cloud 使用。
月之暗面计划于 Q3 发布 Kimi K3,参数规模超 2.5 万亿,内部已测试远超 100 万 token 上下文。算力成为唯一瓶颈,国产大模型长文本竞赛进入新阶段。
小米开源 MiMo-V2.5 和 MiMo-V2.5-Pro 模型,首日即获 vLLM 支持。Pro 版聚焦长周期工具使用和前沿编程,定位 Agentic AI 场景,为开源社区提供新的高性能基座选择。
Google 发布 Gemini CLI,一个完全免费的终端 AI 智能体,支持 Gemini 2.5 Pro 模型,100 万上下文,每日 1000 次请求,开源且内置 MCP 支持。只需 Google 账号即可使用,直接挑战 Claude Code 和 Codex 的终端市场。
MiniMax 官方确认 M3 模型将于 5 月发布,定位为办公场景专用模型。M2.5 已在 SWE-bench 拿下 80.2%,M3 若在多模态办公场景实现突破,将补齐国产模型在生产力工具端的最后拼图。
Anthropic 5 月 6 日 "Code with Claude" 开发者大会前夕,Claude Sonnet 4.8 的 512,000 行内部代码被公开泄露。视觉精度接近 98%、编码基准 +12 分、新增 "X-high" 努力级别,Sonnet 系列迎来最大幅度升级。
Claude Mythos 最新测试数据显示,在关系指导等容易引发 AI 谄媚的场景中,Mythos Preview 的谄媚率仅为 Opus 4.6 的四分之一。业内分析认为 Mythos 在 6 月 30 日前发布的概率约为 30%。Anthropic 的下一代旗舰模型正在逼近发布节点。
开发者实测将工作流切换到 DeepSeek V4 Pro 后体验极佳:性能相比其他模型差距不大,价格仅为 Claude Code 的 1/40。配合 Hermes Agent 等框架使用,性价比优势显著。
Qwen 3.6 系列以 27B 稠密模型、Plus、Max 三档定位形成完整产品线。27B 单卡可跑、Plus 性价比最优、Max 攻坚复杂任务,阿里云甚至对 27B API 定价高于 Plus。这套矩阵背后是阿里巴巴对 AI 生态的系统性布局。
智谱发布 GLM-5.1,面向 AI Agent 的新一代旗舰模型,在 SWE-Bench Pro 评测中领先。核心突破是在 600 次迭代优化中展现持续改进的长程推理能力,专为需要长时间持续工作的 Agent 场景设计。
Google 发布 Gemini Enterprise Agent Platform,支持 200+ 模型(含 Gemini 3.1 和 Claude)、内置编排/安全/DevOps 全链路,支持从原型到生产的完整 Agent 生命周期管理。这是 Google 在企业级 Agent 赛道上最重的一次出牌。
Kimi K2.6 与 MiMo V2.5 Pro 在 Intelligence Index 上拿到 54 分,距离 GPT-5.5 的 60 分仅差 6 分。当开源模型以 1/5 的价格提供接近闭源旗舰的能力时,行业竞争逻辑正在被重写。
DeepSeek 宣布 V4 全系列 API 缓存命中价格降至原价 1/10,叠加 V4-Pro 75 折优惠后缓存命中仅 $0.0036/M token,比 GPT-5.5 便宜 139 倍。长上下文成本瓶颈被打破,百万 Token 场景进入实用阶段。
面壁智能 MiMo V2.5 Pro 以 1T MoE 架构和 100 万 token 上下文窗口登上 Intelligence Index 榜单,与 Kimi K2.6 并列国产开源模型最高分位。在 DeepSeek V4 Pro(1.6T/49B)和 Qwen3.6 Plus 的夹击下,MiMo 的突围路径和差异化定位值得关注。
阿里通义千问 Qwen 3.6 Max Preview 正式上架 OpenRouter,1 万亿参数 MoE 架构、262K 上下文窗口,输入 $1.30/百万 token、输出 $7.80/百万 token。这是目前性价比最高的万亿参数模型,直接对标 GPT-5.5 和 Claude Opus 4.7 但价格低 60% 以上。
MiniMax M3预计5月发布,社区已传出预热信号。结合M2.7的激进定价策略(输入0.3美元/百万token)和Agent能力,M3可能引发新一轮国产模型价格战,同时挑战主流模型的性能标杆。
智谱宣布自 2026 年 4 月 30 日起终止 GLM Coding Plan「无周限额」老套餐的自动续订,受影响用户获赠 2 个月新套餐权益。这是国产 AI 编程工具从"获客导向"转向"收入导向"的标志性事件。
DeepSeek V4 的延迟发布揭示了一个重大战略转向——深度整合中国国产昇腾芯片生态。CCTV 关联账号的报道确认了这一变化,标志着中国头部 AI 公司正从英伟达依赖走向芯片自主。
Intelligence Index 最新数据显示,Qwen3.6 27B 以 1414 的 Elo 评分追平 284B 参数的 DeepSeek V4 Flash,相比 Qwen3.5 27B 暴涨 257 分。小参数模型的效率革命正在改写 AI 行业的成本叙事。
GPT-5.5 发布仅五天,GPT-5.6 已在 Codex 内部跑流量;同时 API 价格翻倍。OpenAI 的补贴时代正式终结,市场从"增长故事"转向"盈利纪律"。
DeepSeek 公开多模态大语言模型论文《Thinking with Visual Primitives》,基于 DeepSeek-V4-Flash MoE 架构(总参数 284B/激活 13B),采用自研 DeepSeek-ViT 视觉编码器,14×14 patch 输入后经 3×3 空间压缩再接入 LLM,为开源多模态模型提供了新架构参考。
月之暗面 Kimi K2.6 以比 Claude 便宜 9 倍的定价杀入市场,在设计输出场景实现 7 倍性价比。这不是简单的价格战,而是开源模型对闭源定价体系的结构性冲击。
MiniMax M2 在多项评测中被 GLM-5 和 Kimi K2.5 超越,股价持续走低。社区传出 MiniMax 3.0 即将发布,这能否帮助公司重回国产模型第一梯队?本文分析 MiniMax 的竞争困境与 3.0 的翻盘机会。
xAI 透露正在 Colossus 2 集群上同时训练 7 个 Grok 模型,参数规模覆盖 0.5T 到 10T,同时 Grok 4.3 已在 agentic tool calling 榜单登顶,以 $1.25/MTok 的价格提供百万级上下文窗口。
Qwen3.6-Plus 采用混合稀疏 MoE 架构,原生支持 1M 上下文窗口和内置工具路由,在 SWE-bench 上达到 78.8% 得分,价格仅为 Claude Opus 的五分之一,正在成为日常 Agent 工作负载的性价比首选。
OpenAI GPT-6 代号 "Goblin",计划于 2026 年 9 月 29 日 DevDay 正式官宣。这一消息在 Polymarket 和 X 上引发广泛讨论,Aschenbrenner 的 AGI 2027 预测再次成为焦点。GPT-6 将如何影响 Anthropic、Google 等竞争对手?
Kimi K2.6 基于 DeepSeek v3 的 MoE+MLA 架构,而 DeepSeek V4 的训练优化器源自 Kimi 团队的 Muon。中国头部开源模型形成"你中有我、我中有你"的技术循环,以 1/8 的训练成本实现闭源级性能。
Mistral AI 发布旗舰模型 Medium 3.5(128B 参数,256K 上下文窗口),同步推出 Workflows 企业编排层公开预览。ASML、ABANCA 等企业已接入,标志着 Mistral 从模型公司向全栈 AI 平台转型。
月之暗面正开发 Kimi K3,参数量达 2.5T,预计 2026 年 Q3 发布。在 Kimi K2.6(1T MoE)刚开源并获得 Intelligence Index 第 5 名的背景下,K3 的规模直接对标国际头部模型,标志着国产开源模型正式迈入万亿参数时代。
DeepSeek 将 V4-Pro 模型 75% API 折扣延长至 5 月 31 日,同时发布适配华为昇腾芯片的预览版本,标志着从 Nvidia 生态向国产算力平台的关键转向。
小米发布 MiMo-V2.5-Pro(1T/42B MoE)和 MiMo-V2.5(310B/15B MoE),均支持 1M 上下文窗口,MIT 许可开源。同步上线 MiMo Orbit 开发者激励计划,最高赠送 16 亿 Token,吸引全球 AI 开发者生态。
用户在家用服务器(24 核 CPU + 93GB RAM + AMD 9060 XT 16GB)上运行 Qwen3.6 27B 进行递归自我优化,26 小时内推理速度从 2.3 tok/s 提升至 84.3 tok/s,增幅超过 36 倍。这一实验展示了开源模型在消费级硬件上的自我优化潜力。
Meta 完成对机器人 AI 初创公司 ARI 的收购,联合创始人王晓龙和 Lerrel Pinto 将加入 Meta 超级智能实验室。Meta 2025 年成立 Robotics Studio 后首次在机器人 AI 层面积累核心技术。
Anthropic 的下一代模型 Claude 5(内部代号 "Mythos")已进入 Beta 阶段,但其展现出的自主漏洞发现能力让公司陷入两难:模型在 23 年无人发现的安全漏洞上实现自动检测,这种能力如果公开可能被恶意利用。Polymarket 预测 6 月前发布的概率低于 50%。
MiniMax M3 预计于 2026 年 5 月发布,消息称将聚焦办公场景。当前 M2.7 版本已展现出自我进化能力和全项目端到端处理实力。在 Qwen3.6、Kimi K2.6、GLM 5.1 等国产模型激烈竞争的格局下,MiniMax 能否凭借办公场景差异化突围值得关注。
蚂蚁 Ling-2.6-1T 以「快思考」执行模式打出差异化——不卷推理长度、不烧 token,而是用极低激活参数(63B/1T)实现 Agent 场景下的高效执行。小米 MiMo-V2.5-Pro 同样以 token 效率为核心卖点。国产模型正在走出一条不同于美国同行的路线。
Moonshot AI 的 Kimi K2.6 正式接入 Fireworks AI 训练平台,支持 SFT、DPO 和 RL 全流程微调。265K 上下文窗口、修改版 MIT 许可证、行业领先的训练 API,让企业开发者可以直接在 K2.6 基座上构建定制化模型。这是国产模型在训练生态层面的一次重要开放。
开源模型推理服务到底怎么选?实测对比 GLM-5.1、DeepSeek V4 Pro、Kimi K2.6 在官方 API、厂商订阅和 Ollama Cloud 上的价格、隐私和速度。重度 Agent 用户用智谱 Coding Plan Max($80/月)能撑住每月 8 亿 token。
Qwen3.6 Heretic 35B是社区基于Qwen3.6-35B微调的开源模型,在保持同等智能水平的同时大幅减少安全拒绝,支持260K上下文,可在RTX 3090/4090上流畅运行Agent任务。
MiniMax M2.5 发布后收入激增,最近 20 天营收超过去年全年,标志国产 AI 实用化元年到来。小道消息称 MiniMax 3.0 即将发布,届时将与 Kimi K2.6、GLM 5.1、Qwen 3.6 正面竞争。
OpenAI 正式宣布将于 9 月 29 日在旧金山举办 DevDay,届时发布 GPT-6 代号 "Goblin"。内部代号 "argon" 聊天截图泄露,Sam Altman 暗示将投入全部算力集群。GPT-5.6 预计将在 6 月前发布,为 GPT-6 铺垫。
阿里巴巴通义千问系列模型累计下载量突破 10 亿次。孙伟表示 DeepSeek 的成功为中国科技巨头开放 AI 技术铺平了道路,阿里借此跃居行业领军地位。斯坦福 2026 AI Index 显示阿里模型 Arena Elo 排名第五。
Google 发布 Gemini CLI v0.40.0,实验性支持本地 Gemma 模型运行,并引入智能路由机制——简单任务本地 Gemma 处理(快速且免费),复杂任务自动路由至云端 Gemini。结合 Gemma 4 26B A4B 架构,单台笔记本可实现多实例并发推理。
智谱 AI 公开博客详述 GLM-5 大规模服务调试经验:复现罕见 garbled outputs、定位 Scaling Pain 根因。744B MoE 模型在 scaling 过程中出现概率性乱码,团队通过系统性方法论解决,为行业提供了大模型服务化的一手参考。
Anthropic正在内部开发代号Cardinal的新功能,将为Claude用户提供可视化交互回顾体验。该功能将以视觉化方式呈现用户与Claude的历史对话轨迹,帮助理解和回溯复杂的AI协作过程。
Qwen3.6-27B 以 46 分登顶 Artificial Analysis Intelligence Index(150B 参数以下),35B 量化版本在 DGX-Spark 上跑出 95 tps。但完整跑完 Intelligence Index 需要消耗约 3.7 倍输出 token,成本是 Gemma 4 31B 的 21 倍。性能与效率的抉择摆在开源社区面前。
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」的强化学习范式。在 SWE-Pro 上逼近 Opus 水平,输入价格仅 2.1 元/百万 token,是目前性价比最高的 Agent 编码模型之一。
DeepSeek V4 Pro API 推出限时 75% 折扣至 5 月 5 日,同时宣布 Claude Code、OpenClaw、OpenCode 三大工具已集成支持 1M token 上下文窗口。这是目前以最低成本体验万亿参数 MoE 模型的窗口期。
月之暗面正式官宣下一代主力模型 Kimi K3,参数规模达 2.5 万亿,定于 2026 年第三季度发布。在 Kimi K2.6 刚开源即引发行业震动的背景下,K3 的发布将进一步缩小与国际顶尖模型的差距。
月之暗面 Kimi K2.6 在 LiveBench 评测中击败 Claude Opus 4.7,成为最强开源模型。API 价格仅为 Opus 4.7 的 1/7,标志着开源模型在关键评测维度上已全面对标闭源旗舰。
Meta Llama 4 Scout 正式发布,17B 激活 / 109B 总参数的 16 专家 MoE 架构,支持 10M Token 上下文,输入价格 $0.08/M。这是 Muse Spark 闭源前 Meta 最后的开放权重模型。
阿里巴巴 Qwen 3.6 27B 以 46 分登顶 Artificial Analysis Intelligence Index 150B 以下开源模型榜首,Vals Index 排名第 8。270 亿参数的笔记本级模型正在改写开源与闭源的竞争格局。
阿里巴巴 Qwen3.6-Max-Preview 在 SWE-bench 上达到 78.8%,配合 1M 上下文窗口,编码能力全面超越多数竞品。社区共识:单一编码工具的差异化护城河已消失,竞争转向可靠性与边缘场景处理。
开源个人 AI 助手 OpenClaw 两天内第二次更新,记忆系统从检索式召回升级为人物感知 Wiki。Agent 可自动构建人物卡片、追踪人际关系图谱,每条记忆带来源追溯和证据类型标注。Active Memory 新增按对话 ID 过滤和持久化标记能力。
Anthropic 在 Hugging Face 开源 BioMysteryBench——包含 99 道基于真实数据集的生物信息学开放性问题,其中 23 道连领域专家也无法解答。Claude Mythos 解开了约 30% 的"不可能"题目,标志着 AI 从辅助研究向自主科研的跨越。
Google 正式发布 Gemini Embedding 2,将文本、图像、视频、音频和文档映射到统一的嵌入空间,支持 agentic 多模态 RAG 和视觉搜索。开发者可针对检索、搜索、分类等任务进行专业化微调,最大化多模态应用的效率和准确率。
4 月 30 日 LMArena 文本榜更新,文心 5.1 Preview 以 1476 分拿下国内第一,成为全球前 15 名中唯一的国产模型,超越 GPT-5.5 和 DeepSeek-V4-Pro。在国产模型全面追赶的当下,这一排名信号意味着什么?
蚂蚁集团旗下蚂蚁百灵开源 Ling-2.6-Flash(104B/7.4B 激活)与 Ling-2.6-1T(1T/63B 激活),MIT 许可。SWE-Bench Verified 62 分、BFCL-V4 67 分,以极致 token 效率切入 Agent 赛道。
月之暗面发布 Kimi K2.6 Agent Swarm,将并行子代理从 100 提升至 300 个,单次运行步长从 1500 跃升至 4000 步,可一次性输出 100+ 文件、10 万字文献综述或 2 万行数据集。这不仅是参数升级,更是 Agent 规模化范式的跃迁。
复旦大学、北京大学与奇绩智峰联合提出 Agentic Harness Engineering(AHE)框架,让代码 Agent 自动读取执行轨迹、发现问题并修改自身 Harness。10 轮自动化演进后,Terminal-Bench 2 pass@1 从 69.7% 提升至 77.0%,超越人类设计的 Codex-CLI Harness。
Hermes Agent 新增 ComfyUI 集成能力,Agent 可自动安装、启动、管理和运行复杂的 ComfyUI 工作流,实现图像生成、音频处理和视频管线的端到端自动化,标志着 Agent 从文本/代码领域正式扩展到创意生产领域。
金融时报报道,华为预计2026年AI芯片收入将增长至少60%至120亿美元,核心驱动力是Ascend 950PR量产及国内科技巨头大额订单。Reuters称华为计划今年生产75万枚950PR芯片。
腾讯混元团队正式发布 Hy3 Preview 开源模型(295B MoE,21B 激活参数),同时 The Information 披露腾讯员工在评估和微调 Hy3 过程中使用了 Anthropic 的 Claude 辅助——尽管 Anthropic 并未向中国提供服务。这揭示了中国模型公司获取先进 AI 能力的灰色路径。
Anthropic 分析了 100 万条 Claude 对话,系统性地揭示了模型的谄媚偏见问题,并展示了这些发现如何直接用于 Opus 4.7 和 Mythos Preview 的训练改进。
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」——通过构建复杂 Agent Harness 驱动自身的强化学习循环,在 SWE-bench 上接近 Opus 水平。这是国产模型在自我优化方向上的一次大胆尝试。
智谱 GLM-5.1 在编程评测中与 Kimi K2.6 并列 entry 梯队,SWE-bench 成绩逼近 Claude Opus 4.7,但讨论热度远不及 Qwen 和 DeepSeek。本文从评测数据、API 定价和开发生态三个维度分析 GLM-5.1 的真实竞争力。
DeepSeek V4 识图模式在官方 App 灰度上线,国内头部大模型中最后一个不支持看图的选手终于补上了短板。实测用桂林象鼻山照片测试,模型能识别地标并推理地理位置,是真视觉理解而非 OCR。
OpenAI 于 4 月 22 日发布 Workspace Agents 研究预览版,将 ChatGPT 从个人对话工具升级为团队级自动化平台。基于 GPT-5.5 的 Codex 能力,Agents 可在 Slack 中直接调用,处理长周期复杂任务。
Claude Code 客户端源码泄露事件中暴露了 Anthropic 下一代模型的内部代号:Sonnet 4.8、Opus 4.7 以及可能为下一代 Sonnet 级模型的 Jupiter。这些信息暗示 Anthropic 正在加速多产品线并行开发。
DeepSeek V4 Flash 发布数周后,用户实测反馈集中指向工具调用能力的大幅提升。从下载文件到自动上传分析,复杂多步工作流现在可通过自然语言指令一次性完成,且成本极低。
4月30日,百度文心5.1 Preview版本悄然上线LMSYS Chatbot Arena,以1476分的Elo成绩位列全球第13、国产大模型第一。法律与政府领域排名第1,商业管理第4。核心技术亮点:参数量压缩至5.0的1/3,训练成本仅同级模型6%。
Google 近期暗示新一代 Gemini 3.5 Pro 模型即将发布,据称内部基准表现强劲,编程能力可能超越当前的 Opus 4.7 和 GPT-5.5。预计将在 Google I/O 2026 上正式亮相。
DeepSeek V4 在 Agent 能力上开源最强,内部已替代使用。本文拆解其 5 大核心训练策略:预训练注入、GRM 奖励模型、DPO 优化、课程学习和多 Agent 博弈,并给出开发者选型建议。
Meta 发布 Llama 4 Scout,17B 激活/109B 总参数的 MoE 架构,支持 1000 万 Token 超长上下文,输入仅 $0.08/M Token。这是 Muse Spark 闭源化之前,最后一个开放权重的 Meta 模型层级。
4月20日阿里发布Qwen3.6-Max-Preview,Artificial Analysis榜单登顶国产第一,SkillsBench提升9.9分,SciCode提升10.8分。
匿名模型 Elephant Alpha 身份揭晓——InclusionAI 的 Ling-2.6-Flash,一周冲上 OpenRouter 日活前十,token 使用量暴增 377%,速度比 Claude Sonnet 4.6 快 6 倍,成本低约 50 倍。
4月20日月之暗面发布并开源Kimi K2.6,万亿参数编程模型支持13小时不间断编码4000+行代码,SWE-Bench超越GPT-5.4。
4月24日DeepSeek发布V4系列,首次在训练阶段引入华为昇腾950芯片,FP4算力是英伟达H20的2.87倍,首token延迟低至20ms。
DeepSeek-V4 于 2026 年 4 月 24 日正式发布,1.6 万亿参数 MoE 架构,推理仅激活约 370 亿参数,支持 100 万 token 上下文,Apache 2.0 开源。API 输出定价 $3.48/M tokens,仅为 Claude Opus 4.7 的 1/7、GPT-5.5 的 1/9。编码 benchmark 差距已缩小至 0.2 分以内。
2026年3月,Qwen 技术负责人林俊旸离职引发核心团队集体出走。本文分析这场人才地震对通义千问后续发展、开源生态以及中国 AI 人才格局的深远影响。
Qwen3.6-Plus 模型正式在 Together AI 平台上线,开发者可通过标准 API 直接调用。这是通义千问系列模型在西方主流推理平台的重要部署,标志着国产大模型全球化生态的进一步扩展。
Anthropic 在支持文档中悄然增加条款:Pro 用户在 Claude Code 中使用 Opus 模型需额外开启 API 计费。这是"付费墙内的付费墙",标志着 AI 编码工具的补贴时代正在终结。
Anthropic 宣布 Claude Managed Agents 的记忆功能进入公开测试。Agent 现在可以跨会话保存和执行上下文,以文件形式持久化记忆层,标志着 Anthropic 正式补齐 Agent 持久化能力。
Anthropic CEO Dario Amodei 公开表示,距离 Claude 端到端完成人类大部分或全部工作可能只有 6-12 个月。这一预测与 Opus 4.7 的实际能力展示和 5GW 算力扩展计划形成呼应。
GitHub 宣布自 6 月 1 日起,Copilot Pro 年付用户的模型调用将从按次计费改为按 Token 用量计费,Claude Opus 4.6 倍率从 3x 涨至 27x,Sonnet 4.6 从 1x 涨至 9x,引发开发者社区强烈反应。
OpenAI 宣布针对 GPT-5.5 启动生物安全漏洞赏金计划,提供最高 2.5 万美元奖励,邀请研究人员寻找突破五道生物安全挑战的通用越狱方法,测试范围限定于 Codex 环境。
OpenAI 正通过可信访问生态系统和政府合作逐步 rollout GPT-5.5-Cyber,标志着高危领域前沿模型从公开可用转向受控分发。网络安全攻防能力已被列为高风险等级。
OpenAI 和 Anthropic 最新发布的提示词指南显示,GPT-5.5 偏好结果导向的自由度,而 Claude Opus 4.7 偏好结构化指令。两种提示词哲学背后反映了两家对模型推理路径的不同设计理念。
OpenAI 于 4 月 23 日发布 GPT-5.5,采用全新 Spud 预训练架构,编码与研究能力显著提升。但价格较 GPT-5.4 翻倍至输入 5 美元/百万 token,DeepSeek V4 同日开源发布形成直接竞争。
OpenClaw 发布 v2026.4.27 版本,正式上线 Codex 计算机控制功能。Agent 现在可以直接操控用户桌面,支持 GPT-5.5 和 Claude Opus 4.7 等多种模型,启动速度更快,支持更多通信渠道。
2026年4月25日,一家名为PocketOS的SaaS公司因Claude Opus 4.6驱动的AI编程Agent在9秒内删除了全部生产数据库和卷级备份,导致30小时运营中断。事件暴露了Agent自主操作数据库时的权限控制空白。
阿里巴巴于 4 月 20 日发布 Qwen3.6-Max-Preview,为千问系列最强旗舰的早期预览版。在 Artificial Analysis 智能指数中得分 52,超过 GLM-5.1 和 MiniMax-M2.7,成为得分最高的国产模型,智能体编程能力显著提升。
GPT-5.5 通过 Codex Agent 模式实现浏览器接管和电脑操作,包括自主导航网页、取消订阅、客服谈判等真实任务。这是 Agent 能力从代码执行向日常操作的重要扩展。
OpenAI 发布 GPT Image 2.0,在文字渲染和角色一致性上达到当前最佳水平。该模型已集成到 Higgsfield、MaxFusion 等平台,并支持 ChatGPT 免费账户使用。
OpenAI 正式登陆 AWS Bedrock,提供 GPT-5.5、Codex Agent 和全新 Bedrock Managed Agents 服务。这标志着 OpenAI 结束了与 Microsoft 的独占协议,AI 进入多云 Agentic 时代。
IBM 发布 Granite 4.1 开源模型家族,包含稠密文本架构、512K 上下文窗口及专用视觉和语音变体,采用 Apache 2.0 许可。这是 IBM 在开源 AI 领域的又一次重要布局。
Mistral 发布 Medium 3.5,128B 稠密旗舰模型,集成文本与视觉理解,支持 256K 上下文和可配置推理强度,SWE-bench Verified 达到 77.6%,可在约 64GB 内存本地运行。
Qwen3.6 系列包含 2.7B 和 27B 两个开源版本,以及 1T 参数的 Max Preview 闭源版本。27B 稠密模型在编码和工具调用方面表现突出,Vals Index 排名第 8,BridgeBench 诚实度评测排名第 2。Apache 2.0 许可证对商用极其友好。
阿里巴巴推出多模态视频生成模型 HappyHorse 1.0,在 Artificial Analysis Video Arena 榜单中位列第一,支持原生 1080P、15 秒时长及 7 种语言唇形同步。
斯坦福大学于 2026 年 4 月 13 日发布第 9 份年度人工智能指数报告,423 页内容涵盖 AI 研发、技术性能、经济影响和政策治理等多个维度。报告显示顶尖 AI 模型正加速升级,头部 AI 企业准备下半年 IPO。
Google 正在将 Gemini 模型能力扩展至汽车、Mac 设备和企业服务等多个领域。General Motors 宣布在 400 万辆汽车中集成 Gemini,Gemini App 登陆 Mac 平台,AI Impact Summit 2026 进一步展示了 Google 在 AI 合作与生态建设上的布局。
Anthropic 于 2026 年 4 月 28 日宣布 Claude for Creative Work,将 Claude 的能力拓展至视觉设计和创意工作领域。这是 Anthropic Labs 继 Claude Design 之后在创意工具方向的又一动作,标志着 AI 从文本和代码向视觉创意领域的正式进军。
月之暗面(Moonshot AI)于 2026 年 4 月发布 Kimi K2.6 旗舰模型,与 GPT-6、Claude Opus 4.7 同窗口期正面竞争。该模型在中文理解和长文本处理方面表现突出,为国内 AI 应用开发者提供了新的模型选择。
GPT-5.5 定价 $5/$30 成为最贵前沿模型,Claude Opus 4.7 降至 $25 输出价,DeepSeek V4 仅 $3.48。从 GPT-5.0 到 5.5 输入价涨 8 倍,行业价格分层加剧。
Microsoft 宣布在 365 Copilot 中引入 Claude Opus 4.7,通过 Frontier 计划和 Copilot Studio 上线,并逐步扩展到 Excel。这是 Anthropic 模型首次大规模进入 Microsoft 企业生态。
DeepSeek V4 于 4 月 24 日开源,1.6T 参数 MoE 架构,1M 上下文窗口,Apache 2.0 协议。API 定价 $3.48/M 输出,仅为 GPT-5.5 的 1/9。在 Vibe Code Benchmark 上超越所有开源和闭源模型。
OpenAI 于 4 月 23 日发布 GPT-5.5,在 Terminal-Bench 2.0 以 82.7% 拿下 SOTA。但同期 GPT-5.5 定价达 $5/M 输入、$30/M 输出,成为最贵前沿模型,行业价格分化加剧。
Meta 自 2025 年初以来首次发布重大模型 Muse Spark,在 LMSYS 文本 Arena 并列第三、视觉 Arena 并列第二。Artificial Analysis 指数上 Opus 4.7、GPT-5.4、Gemini 3.1 Pro 三强并列。
MiMo-V2.5 在 ClawEval 标准 Agent 任务中单轨迹仅用约 7 万 Token 达到 64% 通过率,Claude Opus 4.6 和 GPT-5.4 普遍在 12-18 万 Token。同等能力下成本节省 40%-60%,1M 上下文窗口标配。
MiMo-V2.5-Pro 独立完成北大 SysY 编译器项目:词法分析到 RISC-V 后端全覆盖,4.3 小时、672 次工具调用、233/233 满分。全程不崩、不跑偏、不失忆,验证千次级调用的上下文保持能力。
4月29日商汤发布原生理解生成统一模型 SenseNova U1,告别插件式 AI 架构,开源即达到 SOTA 水平。这是国产大模型在架构创新上的又一突破。
回顾 2026 年 4 月 AI 领域的重大事件:GPT-5.5 发布、DeepSeek V4 开源、中国叫停 Meta 收购 Manus,以及中国团队一周内发布 3 款前沿模型的惊人速度。
Anthropic推出Claude 4系列模型,在安全性和智能性方面再次突破,成为企业AI应用的首选。
DeepSeek 宣布全系列 API 输入缓存命中价格降至原价的 1/10,V4-Pro 75% 优惠持续至 5 月 5 日。重复调用成本骤降,开发者 API 使用门槛进一步降低。
DeepSeek 正式推出 V4 系列模型,以极具竞争力的性能和低廉的成本直面 GPT-5.5 和 Claude Opus 4.7,成为开源阵营中最接近前沿水平的模型之一。
OpenAI正式发布GPT-5,在推理能力、多模态理解和上下文窗口方面实现重大突破,性能相比GPT-4提升达10倍。
OpenAI 发布的 GPT-5.5 在多项基准测试中反超 Anthropic 的 Claude Opus 4.7,结束了 Claude 自 2024 年 6 月以来的领跑地位,同时百万 Token 成本降至前代的 1/35。
小米开源 MiMo-V2.5-Pro(1.02T 参数/42B 激活)和 MiMo-V2.5(310B/15B 激活),MIT 协议允许商用和二次训练。Pro 版在 SWE-bench Pro 上追平 Claude Opus 4.6,同时推出百万亿 Token 激励计划。
据媒体报道,OpenAI 未达到其内部销售目标,消息传出后带动科技股和 AI 相关股票下跌。这可能反映企业 AI 支出节奏正在从快速扩张转向理性评估阶段。
斯坦福研究发现 Gemini 3 Flash 标价虽比 Claude Haiku 便宜 1.7 倍,但在 MMLUPro 上的实际成本反而高出 28 倍。AI 模型选型不能只看标价,实际 token 效率和任务完成率才是关键。
2026 年 4 月下旬四大模型同周发布——Claude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4。横评结果显示各领域各有赢家,不存在"全能冠军",选型需要回归具体场景。
DeepSeek 发布开源模型 V4,参数量达 1.6 万亿,支持最高 100 万 Token 上下文。API 价格仅为 GPT-5.5 的 1/7 左右,成为本周四大模型发布中性价比最高的选择。
OpenAI 于 4 月 24 日将 GPT-5.5 推入 API,定价为输入 $5/MTok、输出 $30/MTok,较 GPT-5.4 翻倍。官方称其 token 效率大幅提升,实际任务成本可能低于前代。
阿里云百炼平台正式上线 Qwen-Image-2.0-Pro,集成文生图与图像编辑能力,支持通过自然语言指令修改图片物体、文字和风格,多语言文字渲染能力显著提升,相比三月版本在细节控制上大幅升级。