C
ChaoBro

AI研究

論文、ベンチマーク、データセット、実験手法の重要な進展を追跡

研究

CiteVQA:OpenDataLabが公開したドキュメントインテリジェンスのベンチマーク、AIの引用をすべて根拠追跡可能に

OpenDataLabがCiteVQAベンチマークを公開。ドキュメントインテリジェンスシステムにおける回答の証拠追跡能力を専門的に評価する。HuggingFace Daily Papersで143票を獲得し首位に——信頼できるAIが、単なるスローガンから定量化可能な技術指標へと進化している。

#CiteVQA #OpenDataLab #ドキュメントインテリジェンス
研究

CLI-Anythingが1週間で1000スター急増:全ソフトウェアを「Agentネイティブ」へ、香港大学チームの新アプローチ

香港大学HKUDSチームが公開したCLI-AnythingプロジェクトがGitHub Trendingで1位を獲得し、スター数は36,000以上を記録。その核となる理念は、すべてのソフトウェアを「Agentネイティブ」に変えることだ。これは単なるツールではなく、ソフトウェアアーキテクチャに対する思考の転換である。

#CLI-Anything #Agentネイティブ #香港大学
研究

MMSkills:上海交通大学が視覚エージェントの能力を「スキルパック」に分解、マルチモーダルエージェントの新パラダイム

上海交通大学がMMSkillsフレームワークを発表し、マルチモーダル視覚エージェントの能力を、組み合わせ可能で再利用可能なスキルユニットに分離しました。Hugging Faceのホットペーパーで99票を獲得——エージェントの「スキル化」は「モデル化」よりも未来に近いアプローチかもしれません。

#MMSkills #マルチモーダルエージェント #上海交通大学
研究

騰訊混元の新論文:On-Policy Distillationはどれだけの効率を解放できるのか?

騰訊混元チームが新論文を発表し、モデルの潜在能力を解放する上でのOn-Policy Distillationの効率を体系的に研究した。本論文は、蒸留戦略の選択がモデル性能に与える重要な影響を明らかにし、大規模モデルのトレーニングに実証的な根拠を提供している。

#On-Policy Distillation #騰訊混元 #モデル蒸留
研究

TideGS:単一GPUの24GB VRAMで10億超の3D Gaussianを訓練可能に、ICML 2026 Spotlight採択

TideGSはSSD-CPU-GPUの階層型ストレージ管理により、単一の24GB GPUで10億超のガウスプリミティブを用いた3DGS訓練を実現しました。これは従来のアウトオブコアベースライン(約1億)の10倍、インメモリ訓練(約1100万)の約100倍に相当します。本論文はICML 2026にてSpotlightとして採択されました。

#TideGS #3D Gaussian Splatting #Out-of-Core
研究

CogOmniControl:「創造的意図理解」を動画生成の推論エンジンに変える

CogOmniControl は、推論駆動型の制御可能な動画生成フレームワークを提案し、生成プロセスを「創造的意図の認知」と「動画生成」の2段階に分解します。専門的なアニメ制作データで訓練されたCogVLMは、疎で抽象的な条件を正確に理解でき、CogOmniDiTおよび強化学習(RL)による整合性最適化と組み合わせることで、著者らが独自に構築した2つのベンチマークにおいて既存のオープンソースモデルを上回る性能を達成しました。

#CogOmniControl #動画生成 #制御可能な生成
研究

AIによる完全自動科学研究ロードマップ:1編の論文を15ドルで生成可能だが、「信頼性」は依然として大きな課題

シンガポール国立大学(NUS)など複数の機関が共同で発表したAIによる完全自動科学研究ロードマップは、AIが研究ライフサイクル全体においてどこまで活用可能かを体系的に分析したものである。たとえば、1編の論文をわずか15ドルで自動生成できる一方で、大規模言語モデル(LLM)は依然として結果をでっち上げたり、隠れたエラーを見落としたり、革新的性を信頼ably判断できなかったりする。

#AI研究 #Auto-Research #学術倫理
研究

SkillsVote:AIエージェントのスキルに「投票システム」を導入し、モデルを更新せずに自己進化を実現

IAAR-ShanghaiとMemtensor Research Groupが、エージェントスキルのライフサイクル全体を管理するフレームワーク「SkillsVote」を提案。オフライン進化によりGPT-5.2のTerminal-Bench 2.0スコアが7.9ポイント向上し、オンライン進化によりSWE-Bench Proスコアが2.6ポイント向上した。

#エージェント #SkillsVote #スキル進化
研究

字節跳動「Lance」:ゼロから訓練された統合型マルチモーダルモデル——理解・生成・編集の三機能を1つに統合

字節跳動は、ゼロから訓練されたネイティブな統合型マルチモーダルモデル「Lance」を発表しました。このモデルは画像および動画の理解、生成、編集をサポートします。デュアルストリーム型Mixture-of-Experts(MoE)アーキテクチャを採用しており、既存のオープンソース統合モデルと比較して生成品質で大幅に先行し、同時に優れた理解能力も維持しています。

#ByteDance #Lance #マルチモーダル
研究

コードをエージェント・ハーネスとして活用:コードがもはや出力ではなく、エージェントの「オペレーティングシステム」へ

Hugging Face「今日の論文」第1位に選出された、42名の著者(複数の著名な学術機関および産業界研究者を含む)による総説論文が、「コードをエージェント・ハーネスとして活用(Code as Agent Harness)」という統一的フレームワークを体系的に提唱。この枠組みでは、コードを、エージェントの推論・行動・環境モデリングを支える統合インフラストラクチャ層と位置づけている。

#エージェント #コード生成 #エージェント・ハーネス
研究

NVIDIA LongLive-2.0:NVFP4 フルスタック並列インフラ、長尺動画生成の学習を2.15倍高速化、推論は45.7 FPSを達成

NVIDIAチームがLongLive-2.0を発表。NVFP4精度をベースとした長尺動画生成の学習・推論フルスタックシステムとしては初となる。シーケンス並列自己回帰学習とW4A4推論を導入し、学習速度を2.15倍、推論速度を1.84倍高速化。5Bモデルで45.7 FPSを達成。

#NVIDIA #LongLive-2.0 #動画生成
研究

AI自動研究の完全ロードマップ:論文は自動作成できるが、科学的誠実性の落とし穴は依然として深い

NUSチームが「AI for Auto-Research」ロードマップを発表。アイデア創出から論文発表まで、研究ライフサイクル全体におけるAIの信頼性の境界を体系的に分析し、AIが単独で対応できる工程と、人間の監督が不可欠な工程を明確に示す。

#AI研究 #自動研究 #論文生成
研究

清華大学 KVPO:動画生成に GRPO を導入、KV Cache による意味探索で AI 生成動画を人間の審美に適合させる

清華大学チームが提案する KVPO は、探索の起点をランダムノイズから履歴 KV Cache へ移行することで、自己回帰型動画生成モデルにおける人間の嗜好へのアライメントを実現する、ODE-Native なオンライン GRPO フレームワークです。視覚品質、動作の自然さ、テキストと画像の一貫性のいずれにおいても向上が確認されています。

#清華大学 #KVPO #動画生成
研究

ByteDance Lance:パラメータの積み上げに頼らず、「マルチタスク協調」でマルチモーダル理解・生成・編集を統一

ByteDance Researchが発表したLanceは、軽量なネイティブ統一マルチモーダルモデルです。デュアルストリームMoEアーキテクチャとマルチタスク協調学習により、モデル容量の肥大化に依存することなく、画像/動画の理解、生成、編集を同時に実現します。

#ByteDance #Lance #マルチモーダル
研究

訓練せずに性能を向上させられる?Darwin Familyが進化的モデル統合によりLLMの推論能力をGPQA Diamondで86.9%に達成

Darwin Familyは、勾配計算を一切用いない「進化的モデル統合」フレームワークを提案しました。これは既存モデルの重み空間を再構成するだけで、それぞれが持つ潜在的な能力を統合・発現させる手法です。旗艦モデル「Darwin-27B-Opus」はGPQA Diamondベンチマークで86.9%の正解率を記録し、評価済み1,252モデル中第6位にランクイン——しかも、勾配ベースの訓練は一切行っていません。

#Darwin Family #モデル統合 #進化的統合
研究

KAIST新論文:RL訓練を積極的に「コンフォートゾーン」から脱出させ、戦略誘導型探索の効率を向上

KAIST AIラボが発表した論文は、強化学習訓練が積極的に「コンフォートゾーン」から脱出するための戦略誘導型探索手法を提案し、訓練データ量を増やすことなく学習効率を向上させる。本論文はHugging Face Daily Papersで注目を集めている。

#強化学習 #RLVR #探索戦略
研究

LLM自身による流行病予測の実現:ハーバード大学チームが自律的ツリーサーチを用いて多病原体疾患を予測

ハーバード大学とマサチューセッツ総合病院(MGH)の研究チームは、自律的なLLM主導のツリーサーチに基づく多病原体疾患予測手法を提案しました。LLMはもはや単なる対話ツールではなく、複雑な仮説空間において最適な予測モデルを探求する自律的な探索エージェントへと進化しています。本研究は、LLMが科学モデリングにおいて果たす新たな役割を示すものです。

#AI for Science #疾病予測 #自律探索
研究

LLMが教師になっても偏りがある:論文が明らかにするAIチューターエージェントの「最もフィードバックが必要な場面」での不具合

新しい論文が、異なる学習状況におけるLLMベースのチューターエージェントのフィードバック品質を体系的に評価し、直感に反する結果を明らかにしました。すなわち、AI教師は生徒の正解を確認する際には良好なパフォーマンスを発揮しますが、生徒が誤答した——つまり、高品質なフィードバックが最も求められる瞬間——において、むしろ不正確または不十分な応答を最も出しやすいというのです。

#AI教育 #チューターエージェント #LLM
研究

NVIDIAがMemLensを発表:マルチモーダル大規模モデルの「記憶力」にようやく標準化された評価基準が登場

NVIDIAが発表したMemLensベンチマークは、大型ビジョンランゲージモデルのマルチモーダル長期記憶能力を初めて体系的に評価するものです。これは、現在のマルチモーダルモデルの記憶における実際の水準と、「真に記憶する」状態までどれほど距離があるかを明らかにしています。

#NVIDIA #マルチモーダル大規模モデル #長期記憶
研究

OpenDeepThink:投票で「判断」を代替し、GeminiのCodeforces Eloを405ポイント上昇させる

OpenDeepThinkは、ペアワイズBradley-Terry比較に基づく母集団ベースのテスト時推論フレームワークを提案。8回のLLM呼び出し(約27分のウォールクロック時間)でGemini 3.1 ProのCodeforces Eloを405ポイント上昇。CF-73データセット—国際グランドマスターが注釈つけた73問のCodeforces問題—もオープンソース化。

#OpenDeepThink #並列推論 #Bradley-Terry
研究

SANA-WM:26億パラメータ、H100 64枚で15日間学習——NVIDIAが「分単位」の世界モデルをシングルGPUデプロイへ実現

SANA-WMは、26億(2.6B)パラメータのオープンソース世界モデルであり、1分間の動画生成をネイティブにサポートします。H100 GPU 64枚を用いて約213,000本の公開動画クリップで15日間学習されました。蒸留済みバリアントでは、RTX 5090 1枚+NVFP4量子化により、60秒・720p解像度の動画を34秒でデノイズ可能です。

#SANA-WM #世界モデル #動画生成
研究

SDAR:自己蒸留とエージェント強化学習が融合したとき、GRPOの安定性問題はこう解決される

SDAR(Self-Distilled Agentic Reinforcement Learning)は、LLMエージェントの強化学習(RL)訓練において、オンポリシー自己蒸留(On-Policy Self-Distillation)を「ゲート制御型補助目的関数(gated auxiliary objective)」として導入します。ALFWorld、WebShop、Search-QAの各ベンチマークで、GRPO比でそれぞれ+9.4%、+10.2%、+7.0%の性能向上を達成し、一方で単純なGRPO+OPSD組み合わせに起因する訓練不安定性を回避します。

#SDAR #自己蒸留 #エージェント強化学習
研究

Solvita:南京大学が大規模言語モデルの競技プログラミング能力を「エージェント進化」によって向上させる

南京大学NJU-LINK Labが発表したSolvitaは、大規模言語モデル(LLM)の競技プログラミング能力を「エージェント進化(Agentic Evolution)」という新しいパラダイムで高めることを提案します。従来の教師あり微調整(SFT)とは異なり、Solvitaではエージェントが自己対戦と継続的な反復を通じて、自らより強力なプログラミング推論能力を進化させていきます。

#競技プログラミング #エージェント進化 #大規模言語モデル(LLM)
研究

SU-01:30B規模のモデルがIMOおよびIPhOで金メダルレベルに到達した、その「レシピ」とは?

SU-01は、30BパラメータのA3B MoE(Mixture of Experts)モデルであり、シンプルかつ統一された訓練レシピを用いて、IMO 2025、USAMO 2026、およびIPhO 2024/2025において金メダルレベルの性能を達成した。そのコアなフローは、「逆パープレキシティに基づくSFT課程」→「2段階の強化学習(検証可能な報酬によるRL → 証明品質重視のRL)」→「テスト時スケーリング」である。また、10万トークンを超える安定した推論トラジェクトリをサポートする。

#SU-01 #オリンピック数学推論 #IMO
研究

メンタルヘルスAI安全性評価の盲点:単一ターン評価が漸進的な被害を検知できない理由

最新のarXiv論文が指摘するように、現在のメンタルヘルスAIの安全性評価には根本的な欠陥がある。それらは孤立したレスポンスや最終結果のみを評価しており、臨床的に最も危険な被害は、相互作用のシーケンスにおける累積効果(段階的な依存の進行、繰り返し強化されるネガティブなパターン、ターン間の緩やかな悪化など)から生じるものである。本論文は「時系列安全性の非識別可能性」という理論的枠組みとSCOPE-MH評価基準を提案している。

#AI安全性 #メンタルヘルス #時系列評価
研究

NVIDIA AnyFlow:動画拡散モデルにおける「ステップ数自由」の実験、On-Policy蒸留は推論ステップ数への不安を解消できるか

NVIDIAが最新発表したAnyFlow論文では、「任意ステップ数」で動作する動画拡散モデルを提案しています。同じモデルで1ステップから数十ステップまで柔軟に切り替えることが可能であり、ステップ数ごとに個別に訓練する必要がありません。核となる手法「On-Policy Flow Map Distillation」は、訓練中にステップ数をランダムサンプリングし自己指導蒸留を行うことで、モデルがどのような推論ステップ数でも安定した生成品質を維持するよう学習させます。

#動画生成 #拡散モデル #NVIDIA