ビデオ理解モデルはここ数年大きく進歩したが、まだ十分に解決されていない問題がある:モデルがビデオを見ることと、写真の束を見ることの違いは果たしてどこにあるのか?
ほとんどのビデオ理解モデルは、本質的にビデオを「画像のシーケンス」として扱っている。時間次元は追加されたが、十分な深さではない。人間の動作、ポーズの変化、運動の軌跡——これらビデオ固有の情報はフレーム間の差分に圧縮され、大量の構造化された運動セマンティクスが失われている。
NYUなどの研究チームが5月21日に投稿したCambrian-Pは、ポーズ情報をビデオ理解モデルに一等市民として直接導入する。CVPR 2026に採択された。
ポーズは追加機能ではなく、ビデオ理解の鍵
Cambrian-Pの核心的な判断は直接的だ:ビデオ内の人体ポーズの変化は、動作の意図、インタラクションの関係、シーンのセマンティクスを理解するための最も直接的な手がかりである。
ビデオを見て「一人がもう一人にボクシングを教えている」と理解できるのは、各フレームの画質が特に良いからではなく、二人のポーズ変化の関係を捉えているからだ——一人が示範動作をし、もう一人が真似する。この種の理解は、フレームレベルの視覚特徴だけでは構築が難しい。
Cambrian-Pはポーズ推定とビデオ理解を統一フレームワークに置く。「まずポーズ推定モデルを走らせ、その結果をビデオモデルに渡す」パイプライン方式ではなく、同一モデル内で結合学習を行う。
なぜ今か
ポーズ推定自体はすでに成熟している。OpenPose、MMPose——これらのツールはジョイントレベルでの精度を達成できる。しかし、ポーズ情報を大規模ビデオ理解モデルに効果的に統合するには、検証されたパラダイムが欠けていた。
一方で、ポーズ情報と視覚特徴の整合性は単純な連結では解決できない。他方で、ポーズデータ自体にノイズがある——遮蔽、高速運動、低照度がいずれも推定誤差を引き起こす。モデルはポーズが信頼できない場合に「純視覚モードに後退する」方法を学ぶ必要がある。
注目すべきポイント
著者リストにはSaining Xie(NYU)とBingyi Kangが含まれている——ビジョンとロボティクス分野で確かな実績を持つ名前だ。「ホットなトピックを追って一篇出して終わり」タイプではないチームで、後続の研究值得关注。
主要ソース:
- Cambrian-P論文(arXiv:2605.22819、2026年5月21日)
- CVPR 2026採択
- プロジェクトページ:https://cambrian-mllm.github.io/