Cambrian-P 论文：给视频理解加上姿态感知，CVPR 2026 接收

视频理解模型这几年进步不小，但有个问题一直没解决好：模型看视频和看一摞照片的区别到底在哪？

大部分视频理解模型本质上还是把视频当作"多张图的序列"来处理。时间维度是加了，但加得不够深。人的动作、姿态变化、运动轨迹——这些视频独有的信息，被压扁成了帧间差异，丢掉了大量结构化的运动语义。

NYU 等机构的研究团队在 5 月 21 日提交了 Cambrian-P 论文，把姿态（pose）信息直接作为一等公民引入视频理解模型。这篇论文已被 CVPR 2026 接收。

姿态不是附加功能，是理解视频的钥匙

Cambrian-P 的核心判断很直接：视频里的人体姿态变化，是理解动作意图、交互关系、场景语义的最直接线索。

你看一段视频，之所以能理解"一个人在教另一个人打拳"，不是因为每一帧的画面特别清晰，而是因为你捕捉到了两个人的姿态变化关系——一个人做出示范动作，另一个人跟着模仿。这种理解，单纯靠帧级别的视觉特征很难建立。

Cambrian-P 把姿态估计和视频理解放在一个统一的框架里。不是"先跑一个姿态估计模型，再把结果喂给视频模型"的流水线方案，而是在同一个模型内联合学习。

姿态估计本身已经很成熟了。OpenPose、MMPose 这些工具能精确到关节级别。但把姿态信息有效融入大视频理解模型，一直缺少一个被验证过的范式。

一方面，姿态信息和视觉特征的对齐不是简单拼接就能解决的。另一方面，姿态数据本身有噪声——遮挡、快速运动、低光照都会导致估计不准。模型需要学会在姿态不可靠时"退回到"纯视觉模式。

Cambrian-P 试图回答的问题就是：姿态信息到底应该在模型的哪个层次介入？是作为额外的输入通道，还是作为中间表征的约束，还是作为训练信号的一部分？

目前这篇论文刚提交，详细的方法描述和实验结果还需要等 PDF 发布。项目页面（https://cambrian-mllm.github.io/）应该会有更多可视化结果。

但从方向本身来看，pose-grounded video understanding 如果能在大规模数据集上验证有效，会对几个应用产生直接影响：视频内容审核、体育分析、人机交互、甚至自动驾驶中的行人行为预测。

论文作者里有 Saining Xie（NYU）和 Bingyi Kang——这两个名字在视觉和机器人领域都有扎实的积累。不是那种"追热点发一篇就跑"的团队，后续工作值得跟。

主要来源：