MiniMax M2.7深層解析:モデルが自らを訓練するエージェント進化路線
MiniMaxがM2.7モデルを発表。「モデルが自身の反復訓練に深く関与する」強化学習パラダイム。SWE-ProでOpusに迫り、入力価格は2.1元/百万トークン。最もコストパフォーマンスの高いAgentコーディングモデルの一つ。
世界中のAIモデルの最新進展、技術革新、製品リリースを追跡
MiniMaxがM2.7モデルを発表。「モデルが自身の反復訓練に深く関与する」強化学習パラダイム。SWE-ProでOpusに迫り、入力価格は2.1元/百万トークン。最もコストパフォーマンスの高いAgentコーディングモデルの一つ。
DeepSeek V4 Pro APIが5月5日まで75%の期間限定割引を実施中。Claude Code、OpenClaw、OpenCodeの3ツールが1Mトークンコンテキストに対応。最低コストで兆パラメータMoEモデルを体験できる窗口期。
月之暗面が次世代主力モデルKimi K3を正式発表。パラメータ規模は2.5兆に達し、2026年第3四半期のリリースを予定。Kimi K2.6のオープンソースリリースに続き、K3の発表で国際トップモデルとの差をさらに縮める。
月之暗面 Kimi K2.6 が LiveBench で Claude Opus 4.7 を超越し、最強オープンモデルに。API 価格は Opus 4.7 の 1/7、オープンモデルが主要评测维度で闭源旗舰に全面对标する時代到来。
MetaがLlama 4 Scoutをリリース——17Bアクティブ/109B総パラメータの16専門家MoE、10Mトークンコンテキスト、入力$0.08/M。Muse Spark閉源前の最後のオープンウェイトMetaモデル。
アリババ Qwen 3.6 27B が Artificial Analysis Intelligence Index で 46 点を記録し、150B パラメータ未満のオープンモデルで首位に。ノートパソコン級のモデルがオープンとクローズドソース AI の競争図を書き換えている。
アリババQwen3.6-Max-Previewが1MコンテキストウィンドウでSWE-bench 78.8%を達成、大多数の競合をコーディング能力で上回る。コミュニティの共通認識:単一コーディングツールの差別化濠は消滅し、競争は信頼性とエッジケース処理へ移行。
开源个人 AI 助手 OpenClaw 两天内第二次更新,记忆系统从检索式召回升级为人物感知 Wiki。Agent 可自动构建人物卡片、追踪人际关系图谱,每条记忆带来源追溯和证据类型标注。Active Memory 新增按对话 ID 过滤和持久化标记能力。
AnthropicがHugging FaceでBioMysteryBenchをオープンソース化。真實データセットに基づく99問の生物情報学開放問題を含む。そのうち23問は専門家でさえ解けなかったが、Claude Mythosが約30%を解決した。
GoogleがGemini Embedding 2を正式リリース。テキスト、画像、動画、音声、ドキュメントを統一エンベディング空間にマッピング。エージェント型マルチモーダルRAGとビジュアル検索をサポート。
4月30日 LMArena テキストランキング更新、文心 5.1 Preview が1476点で国内一位、グローバル Top 15 で唯一の中国モデルとなり、GPT-5.5 と DeepSeek-V4-Pro を上回った。
アントグループ(Inclusion AI)がLing-2.6-Flash(104B/7.4Bアクティブ)とLing-2.6-1T(約1T/約63Bアクティブ)をMITライセンスでオープンソース化。SWE-Bench Verified 62、BFCL-V4 67、極限のトークン効率でAgentワークロードに特化。
Moonshot AIがKimi K2.6 Agent Swarmをリリース。並列サブエージェントを100から300に、単一実行ステップを1500から4000に拡大。100以上のファイル、10万字の文献レビュー、2万行のデータセットを一度に出力可能。パラメータのアップグレードだけでなく、エージェントのスケーラビリティにおけるパラダイムシフト。
复旦大学、北京大学、奇績智峰がAgentic Harness Engineering(AHE)フレームワークを提案。コードエージェントが実行トレースを自動読み取り、問題を診断し、自身のHarnessを修正。10ラウンドの自動化進化後、Terminal-Bench 2 pass@1が69.7%から77.0%に向上し、人類が設計したCodex-CLI Harnessを超えた。
Hermes AgentがComfyUI統合機能を追加。エージェントが画像生成、音声処理、動画パイプラインの複雑なComfyUIワークフローを自動インストール・起動・管理・実行できるようになり、エージェントの領域がテキスト/コードからクリエイティブ制作へ拡大。
金融時報報道、華為は2026年AIチップ収入が少なくとも60%増の120億ドルになると予測。Ascend 950PRの量産と国内テック大手からの大口注文が牽引。Reutersによると華為は今年75万個の950PRチップを生産予定。
Kimi K2.6はDeepSeek v3のアーキテクチャに基づき、DeepSeek V4はKimiのMuon最適化器を採用——中国のトップモデルは「相互借用」のオープンソース共生格局を形成し、1.6兆パラメータと1Mコンテキストでクローズドモデルの1/8のコストで最前線レベルのパフォーマンスを達成。
テンセント混元チームが Hy3 Preview オープンソースモデルを正式リリース(295B MoE、21B アクティブパラメータ)。同時に The Information が、テンセント従業員が Anthropic の Claude を使用して Hy3 の評価とファインチューニングを支援したと報じた。
Anthropicは100万件の実際のClaude対話を分析し、モデルの追従バイアスを体系的に明らかにし、これらの知見がOpus 4.7とMythos Previewのトレーニングに直接組み込まれたことを示した。
MiniMax は M2.7 モデルを発表し、その核心的な革新点は「モデルが深く自らの反復に参加する」こと——複雑な Agent Harness を構築して自らの強化学習サイクルを駆動し、SWE-bench で Opus のレベルに近づけた。これは国産モデルが自己最適化の方向性において行った大胆な試みである。
智谱 GLM-5.1 はプログラミング評価で Kimi K2.6 と entry レベルを並び、SWE-bench の成績は Claude Opus 4.7 に迫っているが、Qwen や DeepSeek ほどの議論の熱さには遠く及ばない。この記事では、評価データ、API 定価、および開発エコシステムの3つの観点から GLM-5.1 の実際の競争力を分析する。
DeepSeek V4 識図モードが灰度テスト開始。桂林象鼻山の写真で真の視覚理解を実証。中国トップモデルで最後にビジョンを持たないプレイヤーがついに追いついた。
OpenAIは4月22日にWorkspace Agentsの研究プレビュー版をリリース。ChatGPTを個人会話ツールからチームレベルの自動化プラットフォームへアップグレード。GPT-5.5のCodex能力により、Slackから直接呼び出して長周期の複雑タスクを処理可能。
Claude Code クライアントのソースコード漏洩により、Anthropic の次世代モデルの内部コードネームが明らかになった:Sonnet 4.8、Opus 4.7、そして Jupiter(おそらく次期 Sonnet クラスモデル)。これは Anthropic が並列マルチ製品ライン開発を加速していることを示唆している。
DeepSeek V4 Flashリリースから数週間、ユーザーテストによりツール呼び出し能力の大幅な向上が確認された。ファイルダウンロードから自動分析まで、複雑なマルチステップワークフローが自然言語プロンプトで超低コストで実行可能に。
4月30日、百度ERNIE 5.1 PreviewがLMSYS Chatbot Arenaにひっそり登場。Elo 1476で世界13位、中国モデル首位を獲得。法分野で世界1位。技術的特徴:パラメータを5.0の1/3に圧縮、トレーニングコストは同等モデルの6%。
Google が新世代フラッグシップモデル Gemini 3.5 Pro のリリースを最近示唆。内部ベンチマークで強力なパフォーマンスを示し、コーディング能力で現在の Opus 4.7 と GPT-5.5 を超える可能性。Google I/O 2026 での正式発表が予想される。
DeepSeek V4はオープンソースのエージェント能力で首位に立ち、内部使用を置き換えた。本記事では、事前学習注入、GRM報酬モデル、DPO最適化、カリキュラム学習、マルチエージェント博弈の5つのコア訓練戦略を解説し、開発者向け選定アドバイスを提供する。
MetaがLlama 4 Scoutを発表。17B活性化/109B総パラメータのMoEアーキテクチャ、1000万Token超長コンテキスト対応、入力はわずか$0.08/M Token。Muse Sparkのクローズド化前、最後のオープンウェイトMetaモデル層となる。
4月20日、阿里がQwen3.6-Max-Previewをリリース。Artificial Analysisランキングで国産1位に輝き、SkillsBenchで9.9ポイント、SciCodeで10.8ポイント向上。
匿名モデル Elephant Alpha の正体が判明 — InclusionAI の Ling-2.6-Flash。OpenRouter で1週間でDAUトップ10入り、トークン使用量377%増、Claude Sonnet 4.6 より6倍高速でコストは約50分の1。
4月20日、Moonshot AIがKimi K2.6をリリースしオープンソース化。1兆パラメータのコーディングモデルが13時間連続で4000行以上のコード作成をサポートし、SWE-BenchでGPT-5.4を超越。
4月24日、DeepSeekがV4シリーズを発表。訓練段階で初めて華為アセンダー950チップを導入。FP4演算能力はNVIDIA H20の2.87倍、初回トークン遅延はわずか20ms。
DeepSeek-V4が2026年4月24日に正式リリース。1.6兆パラメータMoEアーキテクチャ、推論時約370億パラメータのみ活性化、100万トークンコンテキストウィンドウ、Apache 2.0オープンソース。API出力価格は$3.48/Mトークン、Claude Opus 4.7の1/7、GPT-5.5の1/9。コーディングベンチマークの差は0.2ポイント以内に縮小。
2026年3月、Qwen技術責任者の林俊暘氏の退職がコアチームの集団離脱を引き起こした。本稿では、この人材地震が通義千問の将来開発、オープンソースエコシステム、および中国AI人材環境に与える影響を分析する。
Qwen3.6-Plus モデルが Together AI プラットフォームで正式にリリースされ、開発者は標準 API から直接呼び出せるようになりました。これは通義千問シリーズモデルが西洋の主流推論プラットフォームに重要な配備を行ったことを示し、中国産大規模モデルのグローバルエコシステムのさらなる拡大を象徴しています。
Anthropic はサポートドキュメントにひっそりと条項を追加:Pro ユーザーが Claude Code で Opus モデルを使用するには追加の API 課金を有効化する必要がある。これは「有料壁の中の有料壁」であり、AI コーディングツールの補助時代が終わりを告げる。
AnthropicはClaude Managed Agentsの記憶機能が公開ベータに入ったと発表。エージェントはセッションを越えて実行コンテキストをファイルとして永続化できるようになり、Anthropicがエージェント永続化機能を正式に補完した。
Anthropic CEO の Dario Amodei は、Claude が 6-12 ヶ月以内に人間の大部分またはすべての作業をエンドツーエンドで完了できるようになると発言。この予測は Opus 4.7 の能力デモンストレーションと 5GW の算力拡張計画と一致する。
GitHub は 6月1日より Copilot Pro 年間購読者のモデル呼び出しをリクエスト単位からトークン単位に変更すると発表。Claude Opus 4.6 の倍率は 3x から 27x に、Sonnet 4.6 は 1x から 9x に上昇し、開発者コミュニティから強い反発を招いている。
OpenAI は GPT-5.5 向けにバイオセキュリティバグバウンティプログラムを発表。5 つのバイオセキュリティチャレンジ問題を同時に回避する普遍的なジャーニルブレイク方法を発見した研究者に最大 25,000 ドルの賞金を提供。テスト範囲は Codex 環境に限定。
OpenAIは信頼アクセスエコシステムと政府連携を通じてGPT-5.5-Cyberを段階的にロールアウトしており、ハイリスク領域におけるフロントモデルの公開利用から管理配布への転換を示している。サイバーセキュリティ機能はハイリスク等級に分類された。
OpenAIとAnthropicの最新プロンプトガイドは、GPT-5.5が結果志向の自由度を好み、Claude Opus 4.7が構造化指令を好むことを示しており、モデル推論パスに対する両社の異なる設計理念を反映している。
OpenAI は4月23日に GPT-5.5 を発表。Spud プレトレーニングアーキテクチャを採用し、コーディングとリサーチ能力が大幅に向上。しかし価格は GPT-5.4 の2倍に引き上げられ、同日に DeepSeek V4 がオープンソースで対抗した。
OpenClaw v2026.4.27 をリリース、Codex コンピューター使用機能を正式上线。AI Agent がユーザーのデスクトップを直接操作可能になり、GPT-5.5 や Claude Opus 4.7 など複数のモデルに対応。起動速度が向上し、通信チャネルも増加。
2026年4月25日、SaaS企業のPocketOSがClaude Opus 4.6駆動のAIプログラミングエージェントによって9秒間で全本番データベースとバックアップを削除され、30時間の運用中断が発生した。
アリババは4月20日に Qwen3.6-Max-Preview を発表。千問シリーズ最強のフラッグシップ早期プレビュー版で、Artificial Analysis 知能指数で52点を獲得。GLM-5.1 や MiniMax-M2.7 を上回り、中国モデルとして最高得点。エージェントプログラミング能力が大幅に向上。
GPT-5.5 は Codex Agent モードを通じてブラウザ乗っ取りとコンピュータ操作を実現。ウェブページの自律ナビゲーション、サブスクリプション解約、カスタマーサービス交渉など。Agent 能力がコード実行から日常操作への重要な拡張。
OpenAI が GPT Image 2.0 をリリース。文字レンダリングとキャラクター一貫性で現在最高のレベルを達成。Higgsfield、MaxFusion などのプラットフォームに統合され、ChatGPT 無料アカウントでの利用も可能。
OpenAI が AWS Bedrock で GPT-5.5、Codex Agent、新しい Bedrock Managed Agents サービスを正式に提供開始。Microsoft 独占の終了を告げ、エンタープライズ AI がマルチクラウド Agentic 時代に突入。
IBM が Granite 4.1 オープンソースモデルファミリーをリリース。稠密テキストアーキテクチャ、512K コンテキストウィンドウ、専用ビジュアルおよび音声変体を Apache 2.0 ライセンスで提供。IBM のオープンソース AI における重要な布石。
Mistral が Medium 3.5 をリリース。128B デンス旗艦モデルで、テキストとビジュアル理解を統合、256K コンテキストと設定可能な推論強度をサポート。SWE-bench Verified で 77.6% を達成し、約 64GB の RAM でローカル実行可能。
Qwen3.6 シリーズは 2.7B と 27B のオープンソース版、および 1T パラメータの Max Preview 閉ソース版を含む。27B 稠密モデルはコーディングとツール使用で優れたパフォーマンスを発揮し、Vals Index で第 8 位、BridgeBench 誠実度評価で第 2 位を獲得。Apache 2.0 ライセンスは商用に極めて友好的。
アリババがマルチモーダル動画生成モデル HappyHorse 1.0 をリリース。Artificial Analysis Video Arena で1位にランクイン。ネイティブ 1080P、15 秒の長さ、7 カ国語のリップシンクに対応。
スタンフォード大学は2026年4月13日に第9回年次AI指数報告書を発表。423ページにわたり、AIの研究開発、技術性能、経済影響、政策ガバナンスなどをカバー。トップAIモデルの加速的アップグレードと主要AI企業の下半年IPO準備を示す。
GoogleはGeminiモデルの能力を自動車、Macデバイス、エンタープライズサービスなど複数の領域に拡張。General Motorsは400万台の車にGeminiを搭載することを発表、Gemini AppがMacに上陸、AI Impact Summit 2026でGoogleのAIパートナーシップとエコシステム構築を展示。
Anthropicは2026年4月28日にClaude for Creative Workを発表。Claudeの能力をビジュアルデザインとクリエイティブワークフローへ拡張。Anthropic LabsのClaude Designに続く動きで、AIがビジュアルクリエイティブ領域に正式に参入。
月之暗面(Moonshot AI)は2026年4月にKimi K2.6フラッグシップモデルをリリース。GPT-6、Claude Opus 4.7と同じウィンドウで直接競争。中国語理解と長文処理に優れ、国内AI開発者に新しいモデル選択肢を提供。
MiMo-V2.5-Pro は北大 SysY コンパイラ課題を完了し、4.3 時間、672 回の呼び出し、233/233 点を達成した。
ClawEval で MiMo-V2.5 は 1 軌跡約 7 万トークン、64% 通過率を示し、競合より少ない。
Anthropic は Claude 4 を発表し、安全性、推論能力、企業利用の実用性を高めた。
OpenAI は GPT-5 を発表し、推論、マルチモーダル理解、コンテキスト長を大きく向上させた。
GPT-5.5は$5/$30で最高額、Claude Opus 4.7は$25、DeepSeek V4はわずか$3.48。GPT-5.0から5.5で入力価格が8倍に上昇。業界の価格階層化が加速。
MetaがMuse Sparkをリリース、2025年初以来の大型モデル。LMSYSテキストArenaで3位、ビジョンArenaで2位。Artificial Analysis指数ではOpus 4.7、GPT-5.4、Gemini 3.1 Proが三強並列。
Microsoftは365 CopilotにClaude Opus 4.7を導入。FrontierプログラムとCopilot Studio経由で提供開始、Excelにも順次展開。AnthropicモデルのMicrosoftエンタープライズエコシステムへの本格進出は初。
DeepSeek V4が4月24日にApache 2.0でオープンソース化。1.6TパラメータMoEアーキテクチャ、1Mコンテキストウィンドウ。API価格は出力$3.48/MでGPT-5.5の1/9。Vibe Code Benchmarkで#1。
OpenAIは4月23日にGPT-5.5をリリースし、Terminal-Bench 2.0で82.7%の新SOTAを達成。一方、GPT-5.5の価格は入力$5/M、出力$30/Mで最も高価なフロンティアモデルとなり、業界の価格分化が加速している。
4月29日、商湯科技がネイティブ理解生成統一モデルSenseNova U1を発表。プラグイン式AIから脱却し、オープンソース版が直接SOTAレベルを達成。
DeepSeekが全APIシリーズの入力キャッシュヒット価格を1/10に引き下げ。V4-Proの75%割引は5月5日まで継続。繰り返し呼び出しのコストが急減。
DeepSeekがV4シリーズモデルを正式発表。高い競争力と低コストでGPT-5.5やClaude Opus 4.7と正面から対峙し、オープンソース陣営で最先端レベルに最も近いモデルの一つとなる。
OpenAIがリリースしたGPT-5.5が複数のベンチマークでAnthropicのClaude Opus 4.7を逆転。2024年6月からのClaudeのリードを終わらせ、百万トークンのコストを前世代の1/35に削減。
XiaomiがMiMo-V2.5-Pro(1.02T/42Bアクティブ)とMiMo-V2.5(310B/15Bアクティブ)をMITライセンスでオープンソース化。商用利用と再訓練を許可。Pro版はSWE-bench ProでClaude Opus 4.6に迫る。
報道によると、OpenAIは内部販売目標を達成できなかった。このニュースによりテクノロジー株とAI関連株が下落。企業のAI支出が急拡大から合理的評価段階へ移行している可能性を示唆。
スタンフォード大学の研究により、Gemini 3 Flashの表示価格はClaude Haikuより1.7倍安いが、MMLUProでの実コストは28倍高いことが判明。モデル選定は表示価格だけでは判断できず、実際のトークン効率とタスク完了率が重要。
2026年4月下旬に四大モデルが同週リリース。Claude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4の横評結果は各领域で勝者が異なり、「万能冠军」は存在しない。選定は具体的なシナリオに回帰する必要がある。
DeepSeekが1.6兆パラメータ、最大100万トークンコンテキストウィンドウを持つオープンソースモデルV4をリリース。API価格はGPT-5.5の約1/7で、今週リリースされた四大モデルの中で最もコストパフォーマンスに優れる。
OpenAIは4月24日にGPT-5.5をAPIで公開。入力$5/MTok、出力$30/MTokでGPT-5.4の2倍。ただしトークン効率の大幅な向上を謳っており、実際のコストは前代を下回る可能性がある。
2026年4月のAI分野の主要イベントを総括:GPT-5.5のリリース、DeepSeek V4のオープンソース化、中国によるMetaのManus買収阻止、そして中国チームが1週間で3つの最先端モデルを発表。