AI研究

論文、ベンチマーク、データセット、実験手法の重要な進展を追跡

研究 2026年5月26日

APWA：マルチエージェントシステムを真に並列化する分散アーキテクチャ

APWAは、並列化可能なエージェントワークロード向けの分散アーキテクチャを提案し、タスクの規模と複雑さが増大する際のマルチエージェントシステムにおける推論、調整、計算の拡張ボトルネックを解決します。

#マルチエージェント #分散アーキテクチャ #論文解説

研究 2026年5月26日

Dual-Dimensional Consistency：推論時スケーリングでトークン消費を10倍削減する新手法

DDCは、信頼度重み付きベイズプロトコルとトレンド認識型階層プルーニングを用いた統一された推論時スケーリングフレームワークを提案します。5つのベンチマークにおいてベースラインの精度を維持または上回りながら、トークン消費を10倍以上削減します。

#推論最適化 #トークン効率 #LLM推論

研究 2026年5月26日

MemEye：マルチモーダルエージェントの記憶能力を評価する視覚中心型フレームワーク

MemEyeは、視覚を中核としたマルチモーダルエージェントの記憶評価フレームワークを提案します。17名の研究者による共同研究から生まれ、エージェント記憶システムの評価における空白を埋めるものです。

#マルチモーダル #エージェント記憶 #評価フレームワーク

研究 2026年5月26日

MemLens：NVIDIAが多モーダル大規模モデルの長期記憶能力向けにベンチマークを構築

NVIDIAがMemLensを発表。大規模視覚言語モデル（LVLM）の多モーダル長期記憶能力に特化した初のベンチマークであり、LVLMの記憶評価における空白を埋めるもの。

#NVIDIA #多モーダル #ベンチマーク

研究 2026年5月26日

Microsoft Orchardフレームワーク：10.7万件の軌跡から蒸留されたエージェント訓練パラダイム

マイクロソフトリサーチがOrchardをオープンソース化。スケーラブルなエージェントモデリングフレームワークです。コードエージェントからGUIエージェント、パーソナルアシスタントまで、統一された軽量環境レイヤーでクロスドメイン訓練を実現します。SWE-bench Verifiedで67.5%を達成し、GUIエージェントはわずか400件の蒸留軌跡でオープンソース最強を記録しました。

#マイクロソフト #オープンソースフレームワーク #エージェント訓練

研究 2026年5月23日

CiteVQA：OpenDataLabが公開したドキュメントインテリジェンスのベンチマーク、AIの引用をすべて根拠追跡可能に

OpenDataLabがCiteVQAベンチマークを公開。ドキュメントインテリジェンスシステムにおける回答の証拠追跡能力を専門的に評価する。HuggingFace Daily Papersで143票を獲得し首位に——信頼できるAIが、単なるスローガンから定量化可能な技術指標へと進化している。

#CiteVQA #OpenDataLab #ドキュメントインテリジェンス

研究 2026年5月23日

CLI-Anythingが1週間で1000スター急増：全ソフトウェアを「Agentネイティブ」へ、香港大学チームの新アプローチ

香港大学HKUDSチームが公開したCLI-AnythingプロジェクトがGitHub Trendingで1位を獲得し、スター数は36,000以上を記録。その核となる理念は、すべてのソフトウェアを「Agentネイティブ」に変えることだ。これは単なるツールではなく、ソフトウェアアーキテクチャに対する思考の転換である。

#CLI-Anything #Agentネイティブ #香港大学

研究 2026年5月23日

MMSkills：上海交通大学が視覚エージェントの能力を「スキルパック」に分解、マルチモーダルエージェントの新パラダイム

上海交通大学がMMSkillsフレームワークを発表し、マルチモーダル視覚エージェントの能力を、組み合わせ可能で再利用可能なスキルユニットに分離しました。Hugging Faceのホットペーパーで99票を獲得——エージェントの「スキル化」は「モデル化」よりも未来に近いアプローチかもしれません。

#MMSkills #マルチモーダルエージェント #上海交通大学

研究 2026年5月23日

PhysBrain 1.0 技術レポート解説：AIがついに物理世界を「理解」し始めた

DeepCyboがPhysBrain 1.0の技術レポートを発表し、物理法則を理解できるAIシステムの構築を目指している。直観的物理学から動画生成による検証まで、この技術路線は純粋な言語モデルよりも真の「知能」に近い可能性がある。

#PhysBrain #物理推論 #DeepCybo

研究 2026年5月23日

騰訊混元の新論文：On-Policy Distillationはどれだけの効率を解放できるのか？

騰訊混元チームが新論文を発表し、モデルの潜在能力を解放する上でのOn-Policy Distillationの効率を体系的に研究した。本論文は、蒸留戦略の選択がモデル性能に与える重要な影響を明らかにし、大規模モデルのトレーニングに実証的な根拠を提供している。

#On-Policy Distillation #騰訊混元 #モデル蒸留

研究 2026年5月20日

TideGS：単一GPUの24GB VRAMで10億超の3D Gaussianを訓練可能に、ICML 2026 Spotlight採択

TideGSはSSD-CPU-GPUの階層型ストレージ管理により、単一の24GB GPUで10億超のガウスプリミティブを用いた3DGS訓練を実現しました。これは従来のアウトオブコアベースライン（約1億）の10倍、インメモリ訓練（約1100万）の約100倍に相当します。本論文はICML 2026にてSpotlightとして採択されました。

#TideGS #3D Gaussian Splatting #Out-of-Core

研究注目 2026年5月20日

Anti-Self-Distillation：逆向自蒸馏——推理型强化学习训练速度提升2～10倍

Anti-SD 通过点互信息（PMI）分析发现，特权上下文会抑制模型在推理过程中生成“思考型”token（deliberation token）。为此，该研究提出“反向自蒸馏（Anti-Self-Distillation）”方法：不追求学生模型与教师模型趋同，反而刻意增大二者输出分布的散度。在数学推理基准测试中，该方法仅需GRPO基线方法2～10倍的训练步数即可达到同等准确率，最终准确率最高提升11.5分。

#Anti-Self-Distillation #推理型強化学習 #GRPO

研究 2026年5月20日

CogOmniControl：「創造的意図理解」を動画生成の推論エンジンに変える

CogOmniControl は、推論駆動型の制御可能な動画生成フレームワークを提案し、生成プロセスを「創造的意図の認知」と「動画生成」の2段階に分解します。専門的なアニメ制作データで訓練されたCogVLMは、疎で抽象的な条件を正確に理解でき、CogOmniDiTおよび強化学習（RL）による整合性最適化と組み合わせることで、著者らが独自に構築した2つのベンチマークにおいて既存のオープンソースモデルを上回る性能を達成しました。

#CogOmniControl #動画生成 #制御可能な生成

研究注目 2026年5月20日

GoLongRL：オープンソースの長文脈強化学習（RL）トレーニング手法——30B規模モデルがDeepSeek-R1-0528と同等の性能を達成

GoLongRLは、完全にオープンソース化された長文脈強化学習（RL）後の微調整手法を提案し、23,000件のRLVRサンプルからなるデータセットおよび完全なトレーニングコードを公開しています。Qwen3-30B-A3Bモデルは、長文脈タスクにおいてDeepSeek-R1-0528およびQwen3-235B-A22B-Thinking-2507と同等の性能を発揮します。

#GoLongRL #長文脈 #強化学習

研究注目 2026年5月20日

OpenComputer：Computer-Use Agent 向けに検証可能なソフトウェア環境を構築、33アプリ・1000タスク

OpenComputer は検証器ベースのフレームワークを提案し、computer-use agent 向けに検証可能なソフトウェア環境を構築する。33のデスクトップアプリと1000のタスクをカバーしており、実験により、そのハードコードされた検証器は LLM-as-judge よりも人間の評価に近いことが示された。

#OpenComputer #Computer-Use Agent #検証可能環境

研究 2026年5月20日

AIによる完全自動科学研究ロードマップ：1編の論文を15ドルで生成可能だが、「信頼性」は依然として大きな課題

シンガポール国立大学（NUS）など複数の機関が共同で発表したAIによる完全自動科学研究ロードマップは、AIが研究ライフサイクル全体においてどこまで活用可能かを体系的に分析したものである。たとえば、1編の論文をわずか15ドルで自動生成できる一方で、大規模言語モデル（LLM）は依然として結果をでっち上げたり、隠れたエラーを見落としたり、革新的性を信頼ably判断できなかったりする。

#AI研究 #Auto-Research #学術倫理

研究 2026年5月20日

SkillsVote：AIエージェントのスキルに「投票システム」を導入し、モデルを更新せずに自己進化を実現

IAAR-ShanghaiとMemtensor Research Groupが、エージェントスキルのライフサイクル全体を管理するフレームワーク「SkillsVote」を提案。オフライン進化によりGPT-5.2のTerminal-Bench 2.0スコアが7.9ポイント向上し、オンライン進化によりSWE-Bench Proスコアが2.6ポイント向上した。

#エージェント #SkillsVote #スキル進化

研究 2026年5月19日

字節跳動「Lance」：ゼロから訓練された統合型マルチモーダルモデル——理解・生成・編集の三機能を1つに統合

字節跳動は、ゼロから訓練されたネイティブな統合型マルチモーダルモデル「Lance」を発表しました。このモデルは画像および動画の理解、生成、編集をサポートします。デュアルストリーム型Mixture-of-Experts（MoE）アーキテクチャを採用しており、既存のオープンソース統合モデルと比較して生成品質で大幅に先行し、同時に優れた理解能力も維持しています。

#ByteDance #Lance #マルチモーダル

研究 2026年5月19日

コードをエージェント・ハーネスとして活用：コードがもはや出力ではなく、エージェントの「オペレーティングシステム」へ

Hugging Face「今日の論文」第1位に選出された、42名の著者（複数の著名な学術機関および産業界研究者を含む）による総説論文が、「コードをエージェント・ハーネスとして活用（Code as Agent Harness）」という統一的フレームワークを体系的に提唱。この枠組みでは、コードを、エージェントの推論・行動・環境モデリングを支える統合インフラストラクチャ層と位置づけている。

#エージェント #コード生成 #エージェント・ハーネス

研究 2026年5月19日

NVIDIA LongLive-2.0：NVFP4 フルスタック並列インフラ、長尺動画生成の学習を2.15倍高速化、推論は45.7 FPSを達成

NVIDIAチームがLongLive-2.0を発表。NVFP4精度をベースとした長尺動画生成の学習・推論フルスタックシステムとしては初となる。シーケンス並列自己回帰学習とW4A4推論を導入し、学習速度を2.15倍、推論速度を1.84倍高速化。5Bモデルで45.7 FPSを達成。

#NVIDIA #LongLive-2.0 #動画生成

研究 2026年5月19日

AI自動研究の完全ロードマップ：論文は自動作成できるが、科学的誠実性の落とし穴は依然として深い

NUSチームが「AI for Auto-Research」ロードマップを発表。アイデア創出から論文発表まで、研究ライフサイクル全体におけるAIの信頼性の境界を体系的に分析し、AIが単独で対応できる工程と、人間の監督が不可欠な工程を明確に示す。

#AI研究 #自動研究 #論文生成

研究 2026年5月19日

清華大学 KVPO：動画生成に GRPO を導入、KV Cache による意味探索で AI 生成動画を人間の審美に適合させる

清華大学チームが提案する KVPO は、探索の起点をランダムノイズから履歴 KV Cache へ移行することで、自己回帰型動画生成モデルにおける人間の嗜好へのアライメントを実現する、ODE-Native なオンライン GRPO フレームワークです。視覚品質、動作の自然さ、テキストと画像の一貫性のいずれにおいても向上が確認されています。

#清華大学 #KVPO #動画生成

研究 2026年5月19日

清華大 ZEDA：学習済みMoEモデルを自己蒸留でエキスパートの半分をスキップ可能に、推論速度1.2倍向上

清華大学チームは低コストフレームワーク「ZEDA」を提案。学習済みの静的MoEモデルを動的MoEに変換し、Qwen3-30B-A3BおよびGLM-4.7-FlashにおいてエキスパートのFLOPsを50%以上削減。エンドツーエンドの推論速度を約1.2倍向上させる。

#清華大学 #ZEDA #MoE

研究 2026年5月19日

ByteDance Lance：パラメータの積み上げに頼らず、「マルチタスク協調」でマルチモーダル理解・生成・編集を統一

ByteDance Researchが発表したLanceは、軽量なネイティブ統一マルチモーダルモデルです。デュアルストリームMoEアーキテクチャとマルチタスク協調学習により、モデル容量の肥大化に依存することなく、画像/動画の理解、生成、編集を同時に実現します。

#ByteDance #Lance #マルチモーダル

研究 2026年5月19日

NVIDIA LongLive-2.0：NVFP4並列インフラで長尺動画生成の演算力の壁を突破する

NVIDIAがLongLive-2.0を発表。NVFP4量子化と並列推論を活用した長尺動画生成インフラであり、GitHubで1.22kのスターを獲得。品質を維持したまま、より長い動画シーケンスを生成する手法を探求している。

#NVIDIA #LongLive #動画生成

研究注目 2026年5月18日

上海交通大学 ARIS：AIを科学者のように自律的に研究させる、敵対的多エージェント連携の野望

上海交通大学が発表したARISシステムは、複数のAIエージェントが敵対的連携によって自律的に研究タスクを遂行するものです。Papers with Codeで116のupvote、GitHubで9.7kのstarを獲得しており、最近最も注目されているAI for Scienceプロジェクトの一つです。

#マルチエージェントシステム #自律的科学研究 #敵対的連携

研究注目 2026年5月18日

Tsinghuaチーム Causal Forcing++：動画生成を「数分待ち」から「リアルタイムインタラクション」へ

清華MLグループのCausal Forcing++論文は、スケーラブルな少数ステップ自己回帰型拡散蒸留法を提案し、インタラクティブな動画生成を「数分待ち」から「リアルタイム応答」へ変革します。これはゲーム、VR、インタラクティブなコンテンツ制作にどのような意味を持つのでしょうか？

#動画生成 #拡散モデル #蒸留

研究 2026年5月18日

訓練せずに性能を向上させられる？Darwin Familyが進化的モデル統合によりLLMの推論能力をGPQA Diamondで86.9％に達成

Darwin Familyは、勾配計算を一切用いない「進化的モデル統合」フレームワークを提案しました。これは既存モデルの重み空間を再構成するだけで、それぞれが持つ潜在的な能力を統合・発現させる手法です。旗艦モデル「Darwin-27B-Opus」はGPQA Diamondベンチマークで86.9％の正解率を記録し、評価済み1,252モデル中第6位にランクイン——しかも、勾配ベースの訓練は一切行っていません。

#Darwin Family #モデル統合 #進化的統合

研究注目 2026年5月18日

FORGE：重み更新なしでエージェントの記憶が自己進化する——本論文の発想はやや破天荒

arXivに新たに公開された論文「FORGE」は、モデルの重みを一切更新せずにエージェントの記憶を自己進化させる手法を提案しています。集団放送（Population Broadcast）メカニズムを通じて、エージェント同士が経験を共有・相互学習し、記憶を継続的に進化させます。このアプローチは従来のファインチューニングプロセスを回避し、エージェントの持続的学習に向けた軽量級の道筋を提供します。

#エージェント記憶 #自己進化 #集団放送

研究注目 2026年5月18日

数学オリンピック金メダル級推論：大規模モデルは単純なスケーリングだけで達成、それがむしろ不安を招く理由

新論文は、シンプルかつ統一的なスケーリング戦略により、大規模言語モデルが国際数学オリンピック（IMO）金メダルレベルの推論能力に安定して到達しうることを示している。派手な新アーキテクチャも複雑な学習テクニックもなく――ただスケーリングするだけだ。この事実が持つ意味は、論文そのもの以上に考察に値するだろう。

#大規模モデル推論 #数学オリンピック #スケーリング則

研究 2026年5月18日

KAIST新論文：RL訓練を積極的に「コンフォートゾーン」から脱出させ、戦略誘導型探索の効率を向上

KAIST AIラボが発表した論文は、強化学習訓練が積極的に「コンフォートゾーン」から脱出するための戦略誘導型探索手法を提案し、訓練データ量を増やすことなく学習効率を向上させる。本論文はHugging Face Daily Papersで注目を集めている。

#強化学習 #RLVR #探索戦略

研究 2026年5月18日

LLM自身による流行病予測の実現：ハーバード大学チームが自律的ツリーサーチを用いて多病原体疾患を予測

ハーバード大学とマサチューセッツ総合病院（MGH）の研究チームは、自律的なLLM主導のツリーサーチに基づく多病原体疾患予測手法を提案しました。LLMはもはや単なる対話ツールではなく、複雑な仮説空間において最適な予測モデルを探求する自律的な探索エージェントへと進化しています。本研究は、LLMが科学モデリングにおいて果たす新たな役割を示すものです。

#AI for Science #疾病予測 #自律探索

研究 2026年5月18日

LLMが教師になっても偏りがある：論文が明らかにするAIチューターエージェントの「最もフィードバックが必要な場面」での不具合

新しい論文が、異なる学習状況におけるLLMベースのチューターエージェントのフィードバック品質を体系的に評価し、直感に反する結果を明らかにしました。すなわち、AI教師は生徒の正解を確認する際には良好なパフォーマンスを発揮しますが、生徒が誤答した——つまり、高品質なフィードバックが最も求められる瞬間——において、むしろ不正確または不十分な応答を最も出しやすいというのです。

#AI教育 #チューターエージェント #LLM

研究 2026年5月18日

NVIDIAがMemLensを発表：マルチモーダル大規模モデルの「記憶力」にようやく標準化された評価基準が登場

NVIDIAが発表したMemLensベンチマークは、大型ビジョンランゲージモデルのマルチモーダル長期記憶能力を初めて体系的に評価するものです。これは、現在のマルチモーダルモデルの記憶における実際の水準と、「真に記憶する」状態までどれほど距離があるかを明らかにしています。

#NVIDIA #マルチモーダル大規模モデル #長期記憶

研究注目 2026年5月18日

MMSkills：上海交通大が視覚エージェントに「見る」と「行動する」を真に学ばせたい、暗記ではなく

上海交通大が発表した MMSkills は、汎用視覚エージェント向けのマルチモーダル・スキル学習フレームワークを提案しています。既存のアプローチがモデルの暗記に依存するのに対し、MMSkills はエージェントにスキルのマルチモーダルな本質を真に理解させます――単に「何を見るか」だけでなく、「どう行動するか」も理解します。本論文は Hugging Face Daily Papers で 39 upvote を獲得しました。

#マルチモーダル #視覚エージェント #スキル学習

研究 2026年5月18日

OpenDeepThink：投票で「判断」を代替し、GeminiのCodeforces Eloを405ポイント上昇させる

OpenDeepThinkは、ペアワイズBradley-Terry比較に基づく母集団ベースのテスト時推論フレームワークを提案。8回のLLM呼び出し（約27分のウォールクロック時間）でGemini 3.1 ProのCodeforces Eloを405ポイント上昇。CF-73データセット—国際グランドマスターが注釈つけた73問のCodeforces問題—もオープンソース化。

#OpenDeepThink #並列推論 #Bradley-Terry

研究 2026年5月18日

SANA-WM：26億パラメータ、H100 64枚で15日間学習——NVIDIAが「分単位」の世界モデルをシングルGPUデプロイへ実現

SANA-WMは、26億（2.6B）パラメータのオープンソース世界モデルであり、1分間の動画生成をネイティブにサポートします。H100 GPU 64枚を用いて約213,000本の公開動画クリップで15日間学習されました。蒸留済みバリアントでは、RTX 5090 1枚＋NVFP4量子化により、60秒・720p解像度の動画を34秒でデノイズ可能です。

#SANA-WM #世界モデル #動画生成

研究 2026年5月18日

SDAR：自己蒸留とエージェント強化学習が融合したとき、GRPOの安定性問題はこう解決される

SDAR（Self-Distilled Agentic Reinforcement Learning）は、LLMエージェントの強化学習（RL）訓練において、オンポリシー自己蒸留（On-Policy Self-Distillation）を「ゲート制御型補助目的関数（gated auxiliary objective）」として導入します。ALFWorld、WebShop、Search-QAの各ベンチマークで、GRPO比でそれぞれ+9.4％、+10.2％、+7.0％の性能向上を達成し、一方で単純なGRPO＋OPSD組み合わせに起因する訓練不安定性を回避します。

#SDAR #自己蒸留 #エージェント強化学習

研究注目 2026年5月18日

Self-Distilled Agentic RL：AIエージェントはもう人間のデータ供給を必要とせず、自らを教えながら進化する

「Self-Distilled Agentic Reinforcement Learning」は、人間のラベリングや外部報酬シグナルに依存するのではなく、エージェントが自己蒸留を通じて自身の経験から学習する新たな訓練パラダイムを提示します。これはAIエージェントの訓練方法の根本を変える可能性があります。

#強化学習 #エージェンティックAI #自己蒸留

研究 2026年5月18日

Solvita：南京大学が大規模言語モデルの競技プログラミング能力を「エージェント進化」によって向上させる

南京大学NJU-LINK Labが発表したSolvitaは、大規模言語モデル（LLM）の競技プログラミング能力を「エージェント進化（Agentic Evolution）」という新しいパラダイムで高めることを提案します。従来の教師あり微調整（SFT）とは異なり、Solvitaではエージェントが自己対戦と継続的な反復を通じて、自らより強力なプログラミング推論能力を進化させていきます。

#競技プログラミング #エージェント進化 #大規模言語モデル（LLM）

研究 2026年5月18日

SU-01：30B規模のモデルがIMOおよびIPhOで金メダルレベルに到達した、その「レシピ」とは？

SU-01は、30BパラメータのA3B MoE（Mixture of Experts）モデルであり、シンプルかつ統一された訓練レシピを用いて、IMO 2025、USAMO 2026、およびIPhO 2024/2025において金メダルレベルの性能を達成した。そのコアなフローは、「逆パープレキシティに基づくSFT課程」→「2段階の強化学習（検証可能な報酬によるRL → 証明品質重視のRL）」→「テスト時スケーリング」である。また、10万トークンを超える安定した推論トラジェクトリをサポートする。

#SU-01 #オリンピック数学推論 #IMO

研究注目 2026年5月15日

Kronos：Transformerで株式市場を予測する、24,900スターの裏にある金融基盤モデルの実験

Kronosは金融市場向けのFoundation Modelであり、金融データを一種の「言語」としてモデル化する。本プロジェクトはGitHubで24,946スターを獲得し、トークナイザーを用いて金融時系列データを離散化したトークン列に変換し、Transformerで予測を行うアプローチを提案している。この道は果たして通じるのだろうか？

#金融 #Foundation Model #時系列

研究 2026年5月15日

メンタルヘルスAI安全性評価の盲点：単一ターン評価が漸進的な被害を検知できない理由

最新のarXiv論文が指摘するように、現在のメンタルヘルスAIの安全性評価には根本的な欠陥がある。それらは孤立したレスポンスや最終結果のみを評価しており、臨床的に最も危険な被害は、相互作用のシーケンスにおける累積効果（段階的な依存の進行、繰り返し強化されるネガティブなパターン、ターン間の緩やかな悪化など）から生じるものである。本論文は「時系列安全性の非識別可能性」という理論的枠組みとSCOPE-MH評価基準を提案している。

#AI安全性 #メンタルヘルス #時系列評価

研究 2026年5月15日

NVIDIA AnyFlow：動画拡散モデルにおける「ステップ数自由」の実験、On-Policy蒸留は推論ステップ数への不安を解消できるか

NVIDIAが最新発表したAnyFlow論文では、「任意ステップ数」で動作する動画拡散モデルを提案しています。同じモデルで1ステップから数十ステップまで柔軟に切り替えることが可能であり、ステップ数ごとに個別に訓練する必要がありません。核となる手法「On-Policy Flow Map Distillation」は、訓練中にステップ数をランダムサンプリングし自己指導蒸留を行うことで、モデルがどのような推論ステップ数でも安定した生成品質を維持するよう学習させます。

#動画生成 #拡散モデル #NVIDIA

研究注目 2026年5月15日

OpenDeepThink：単一の推論チェーンに固執せず、「トーナメント方式」でLLMに競争させて正解を導き出す

arXivの最新論文「OpenDeepThink」は、集団競争に基づく推論フレームワークを提案します。モデルが単一の推論チェーンに固執するのではなく、複数の候補案をペアワイズで対戦させ、Bradley-Terryモデルで評価結果を集約します。これによりGemini 3.1 ProのCodeforces Eloスコアは405ポイントも上昇し、全プロセスは約27分で完了します。

#推論能力 #Test-time Compute #LLM