AI研究

跟进论文、基准、数据集与实验方法中的关键进展

研究 2026年5月26日

APWA：让多 Agent 系统真正并行化的分布式架构

APWA 提出了一种面向可并行 Agent 工作负载的分布式架构，解决多 Agent 系统在任务规模和复杂度增长时的推理、协调和计算扩展瓶颈。

#多Agent #分布式架构 #论文解读

研究 2026年5月26日

Dual-Dimensional Consistency：让推理时缩放省 10 倍 Token 的新方法

DDC 提出了一种统一的推理时缩放框架，通过置信度加权贝叶斯协议和趋势感知分层剪枝，在 5 个基准上保持或超越基线精度的同时，将 Token 消耗降低 10 倍以上。

#推理优化 #Token 效率 #LLM 推理

研究 2026年5月26日

MemEye：多模态 Agent 记忆能力的视觉中心评估框架

MemEye 提出了一种以视觉为核心的多模态 Agent 记忆评估框架，从 17 位研究者的协作中诞生，填补了 Agent 记忆系统评估的空白。

#多模态 #Agent 记忆 #评估框架

研究 2026年5月26日

MemLens：NVIDIA 给多模态大模型的长期记忆做了个基准测试

NVIDIA 发布 MemLens，首个针对大型视觉语言模型多模态长期记忆能力的基准测试，填补了 LVLM 记忆评估的空白。

#NVIDIA #多模态 #基准测试

研究 2026年5月26日

微软 Orchard 框架：从 10.7 万条轨迹中蒸馏出的 Agent 训练范式

微软研究院开源 Orchard，一个可扩展的 Agent 建模框架。从代码 Agent 到 GUI Agent 再到个人助手，用统一的轻量环境层实现跨领域训练。SWE-bench Verified 达到 67.5%，GUI Agent 仅用 400 条蒸馏轨迹就达到开源最强。

#微软 #开源框架 #Agent 训练

研究 2026年5月23日

CiteVQA：OpenDataLab 发布的文档智能基准，让 AI 的每一次引用都有据可查

OpenDataLab 发布 CiteVQA 基准，专门衡量文档智能系统中答案的证据溯源能力。143 票登上 HuggingFace 每日论文榜首——可信 AI 正在从口号变成可量化的技术指标。

#CiteVQA #OpenDataLab #文档智能

研究 2026年5月23日

CLI-Anything 一周暴涨 1000 星：让所有软件"Agent 原生"，港大团队的新思路

港大 HKUDS 团队发布的 CLI-Anything 项目在 GitHub Trending 登顶，36,000+ stars。核心理念是让所有软件变为 Agent 原生——这不是一个简单的工具，而是一次软件架构思维的转变。

#CLI-Anything #Agent原生 #港大

研究 2026年5月23日

MMSkills：上海交大把视觉 Agent 的能力拆成了"技能包"，多模态智能体的新范式

上海交大发布 MMSkills 框架，将多模态视觉 Agent 的能力解耦为可组合、可复用的技能单元。99 票登上 HuggingFace 热门论文——Agent 的"技能化"可能比"模型化"更接近未来。

#MMSkills #多模态Agent #上海交通大学

研究 2026年5月23日

PhysBrain 1.0 技术报告解读：AI 终于开始"理解"物理世界了

DeepCybo 发布 PhysBrain 1.0 技术报告，打造能理解物理规律的 AI 系统。从直觉物理学到视频生成验证，这条技术路线可能比纯语言模型更接近真正的"智能"。

#PhysBrain #物理推理 #DeepCybo

研究 2026年5月23日

腾讯混元新论文：On-Policy Distillation 到底能释放多少效率？

腾讯混元团队发布新论文，系统研究 On-Policy Distillation 在解锁模型潜力方面的效率。论文揭示了蒸馏策略选择对模型性能的关键影响，为大规模模型训练提供了实证依据。

#On-Policy Distillation #腾讯混元 #模型蒸馏

研究 2026年5月20日

TideGS：单卡 24GB 显存训练超 10 亿 3D Gaussian，ICML 2026 Spotlight

TideGS 通过 SSD-CPU-GPU 层级存储管理，在单张 24GB GPU 上实现了超过 10 亿高斯原语的 3DGS 训练，是此前 out-of-core 基线（约 1 亿）的 10 倍、内存内训练（约 1100 万）的约 100 倍。论文被 ICML 2026 接收为 Spotlight。

#TideGS #3D Gaussian Splatting #Out-of-Core

研究精选 2026年5月20日

Anti-Self-Distillation：逆向自蒸馏，让推理 RL 训练提速 2-10 倍

Anti-SD 通过点互信息分析发现特权上下文会抑制模型的推理 deliberation token，提出"反自蒸馏"方法——让学生与教师的发散度上升而非下降，在数学推理基准上以 GRPO 基线 2-10 倍的步数达到相同准确率，最终准确率提升最高 11.5 分。

#Anti-Self-Distillation #推理RL #GRPO

研究 2026年5月20日

CogOmniControl：把"创意意图理解"做成视频生成的推理引擎

CogOmniControl 提出推理驱动的可控视频生成框架，将生成过程拆分为创意意图认知和生成两步。在专业动漫制作数据上训练的 CogVLM 能准确理解稀疏抽象条件，配合 CogOmniDiT 和 RL 对齐，在两个自建基准上超越现有开源模型。

#CogOmniControl #视频生成 #可控生成

研究精选 2026年5月20日

GoLongRL：开源长上下文 RL 训练方案，30B 模型比肩 DeepSeek-R1-0528

GoLongRL 提出了一套完全开源的长上下文强化学习后训练方案，发布 23K RLVR 样本数据集和完整训练代码。Qwen3-30B-A3B 模型在长上下文任务上可比肩 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507。

#GoLongRL #长上下文 #强化学习

研究精选 2026年5月20日

OpenComputer：为 Computer-Use Agent 构建可验证的软件世界，33 个应用、1000 个任务

OpenComputer 提出了一套基于验证器的框架，为 computer-use agent 构建可验证的软件环境。覆盖 33 个桌面应用和 1000 个任务，实验表明其硬编码验证器比 LLM-as-judge 更贴近人类评判。

#OpenComputer #Computer-Use Agent #可验证环境

研究 2026年5月20日

AI 全自动科研路线图：一篇论文能低至 15 美元生成，但"靠谱"还是个大问题

新加坡国立大学等机构联合发布 AI 全自动科研路线图，系统分析了 AI 在科研全生命周期中的能力边界：$15 就能自动生成论文，但 LLM 仍会捏造结果、遗漏隐藏错误、无法可靠判断创新性。

#AI 科研 #Auto-Research #学术诚信

研究 2026年5月20日

SkillsVote：给 AI Agent 的技能加个"投票系统"，让模型不更新也能自我进化

IAAR-Shanghai 和 Memtensor Research Group 提出 SkillsVote，一个 Agent 技能的全生命周期治理框架。离线进化使 GPT-5.2 在 Terminal-Bench 2.0 上提升 7.9 个百分点，在线进化使 SWE-Bench Pro 提升 2.6 个百分点。

#Agent #SkillsVote #技能进化

研究 2026年5月19日

字节跳动 Lance：从 scratch 训练的统一多模态模型，理解、生成、编辑三合一

字节跳动发布 Lance，一个从零训练的原生统一多模态模型，支持图像和视频的理解、生成和编辑。采用双流 MoE 架构，在开源统一模型中大幅领先生成质量，同时保持强理解能力。

#ByteDance #Lance #多模态

研究 2026年5月19日

Code as Agent Harness：当代码不再是输出，而是 Agent 的"操作系统"

HuggingFace #1 Paper of the Day，42 位作者的综述论文系统性地提出"代码即 Agent Harness"框架，将代码定位为智能体推理、行动和环境建模的统一基础设施层。

#Agent #代码生成 #Agent Harness

研究 2026年5月19日

NVIDIA LongLive-2.0：NVFP4 全栈并行基础设施，长视频生成训练提速 2.15 倍、推理达 45.7 FPS

NVIDIA 团队发布 LongLive-2.0，首个基于 NVFP4 精度的长视频生成训练+推理全栈系统，引入序列并行自回归训练和 W4A4 推理，训练提速 2.15 倍、推理提速 1.84 倍，5B 模型达 45.7 FPS。

#NVIDIA #LongLive-2.0 #视频生成

研究 2026年5月19日

AI 自动研究全路线图：一篇论文就能写，但科学 integrity 的坑还深得很

NUS 团队发布 AI for Auto-Research 路线图，系统分析 AI 在科研全生命周期中的可靠性边界：从创意生成到论文发表，哪些环节 AI 可以独立胜任，哪些必须人类把关。

#AI 研究 #自动科研 #论文生成

研究 2026年5月19日

清华 KVPO：把 GRPO 搬进视频生成，用 KV Cache 做语义探索，让 AI 生成的视频更懂人类审美

清华团队提出 KVPO，一种 ODE-Native 的在线 GRPO 框架，通过将探索源从随机噪声转移到历史 KV Cache，实现自回归视频生成模型的人类偏好对齐，在视觉质量、运动质量和图文一致性上均有提升。

#清华大学 #KVPO #视频生成

研究 2026年5月19日

清华 ZEDA：已训练好的 MoE 模型，用自蒸馏就能跳过一半专家，推理提速 1.2 倍

清华团队提出 ZEDA，一种低成本框架，将已训练好的静态 MoE 模型转化为动态 MoE，在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上消除超过 50% 的专家 FLOPs，端到端推理提速约 1.2 倍。

#清华大学 #ZEDA #MoE

研究 2026年5月19日

ByteDance Lance：不靠堆参数，用"多任务协同"统一多模态理解、生成和编辑

ByteDance Research 发布 Lance，一个轻量级原生统一多模态模型，通过双流 MoE 架构和多任务协同训练，同时实现图像/视频的理解、生成和编辑，不依赖模型容量堆叠。

#ByteDance #Lance #多模态

研究 2026年5月19日

NVIDIA LongLive-2.0：用 NVFP4 并行基础设施突破长视频生成的算力墙

NVIDIA 发布 LongLive-2.0，一种基于 NVFP4 量化和并行推理的长视频生成基础设施，1.22k GitHub Stars，探索如何在不牺牲质量的前提下生成更长的视频序列。

#NVIDIA #LongLive #视频生成

研究精选 2026年5月18日

上海交大 ARIS：让 AI 像科学家一样自主做研究， adversarial 多 Agent 协作的野心

上海交大发布的 ARIS 系统让多个 AI Agent 通过对抗式协作自主完成科研任务。它在 Papers with Code 上获得了 116 个 upvote 和 9.7k 的 GitHub star，是近期最引人注目的 AI for Science 项目之一。

#多 Agent 系统 #自主科研 #对抗式协作

研究精选 2026年5月18日

清华团队 Causal Forcing++：把视频生成从"等几分钟"变成"实时交互"

清华 ML 小组的 Causal Forcing++ 论文提出了一种可扩展的少步自回归扩散蒸馏方法，让交互式视频生成从需要等待数分钟变成了实时响应。这对游戏、VR 和交互式内容创作意味着什么？

#视频生成 #扩散模型 #蒸馏

研究 2026年5月18日

不训练也能变强？Darwin Family 用进化合并把 LLM 推理能力拉到了 GPQA Diamond 86.9%

Darwin Family 提出了免训练的进化合并框架，通过梯度自由的权重空间重组来组合现有模型的潜在能力。旗舰模型 Darwin-27B-Opus 在 GPQA Diamond 上达到 86.9%，在 1252 个评估模型中排名第 6——而且没有进行任何基于梯度的训练。

#Darwin Family #模型合并 #进化合并

研究精选 2026年5月18日

FORGE：不用更新权重就能让Agent记忆自我进化，这篇论文的思路有点野

arxiv 新论文 FORGE 提出了一种无需更新模型权重就能让 Agent 记忆自我进化的方法。通过群体广播机制，Agent 之间可以共享经验、互相学习，实现记忆的持续进化。这种方法绕过了传统的微调流程，为 Agent 的持续学习提供了一条轻量级路径。

#Agent记忆 #自进化 #群体广播

研究精选 2026年5月18日

奥数金牌级推理：大模型靠简单缩放就做到了，这反而让人不安

一篇新论文证明，通过简单且统一的缩放策略，大语言模型就能达到国际数学奥林匹克金牌级别的推理水平。没有花哨的新架构，没有复杂的训练技巧——就是缩放。这件事的意义，可能比论文本身更值得深思。

#大模型推理 #数学奥林匹克 #缩放定律

研究 2026年5月18日

KAIST 新论文：让RL训练主动"走出舒适区"，策略引导探索的效率提升

KAIST AI 实验室发表的论文提出了一种策略引导的探索方法，让强化学习训练主动走出舒适区，在不增加训练数据量的前提下提升学习效率。论文在 Hugging Face Daily Papers 上获得关注。

#强化学习 #RLVR #探索策略

研究 2026年5月18日

让LLM自己做流行病预测：哈佛团队用自主树搜索预测多病原体疾病

哈佛大学与麻省总医院团队合作，提出了一种基于自主LLM引导树搜索的多病原体疾病预测方法。LLM不再只是对话工具，而是化身为自主的搜索Agent，在复杂的假设空间中探索最优的预测模型。这项工作展示了LLM在科学建模中的新角色。

#AI for Science #疾病预测 #自主搜索

研究 2026年5月18日

LLM当老师也会偏科：论文揭示AI辅导Agent在最需要反馈的地方反而掉链子

一篇新论文系统评估了LLM辅导Agent在不同情境下的反馈质量，发现了一个反直觉的结果：AI导师在确认学生正确答案时表现不错，但在学生犯错、最需要高质量反馈的时候，反而最容易给出不准确或不完整的回应。

#AI教育 #辅导Agent #LLM

研究 2026年5月18日

NVIDIA 发布 MemLens：多模态大模型的"记忆力"终于有了一张标准化考卷

NVIDIA 推出的 MemLens 基准首次系统性地评估了大型视觉语言模型的多模态长期记忆能力。它揭示了当前多模态模型在记忆方面的真实水平，以及距离"真正记住"还有多远。

#NVIDIA #多模态大模型 #长期记忆

研究精选 2026年5月18日

MMSkills：上海交大想让视觉 Agent 真正学会"看"和"做"，而不是死记硬背

上海交大发布的 MMSkills 提出了一套面向通用视觉Agent的多模态技能学习框架。与现有方案让模型死记硬背不同，MMSkills 让 Agent 真正理解技能的多模态本质——不仅知道"看到什么"，还知道"怎么做"。论文在 Hugging Face Daily Papers 上获得 39 upvote。

#多模态 #视觉Agent #技能学习

研究 2026年5月18日

OpenDeepThink：用"投票"代替"判断"，把 Gemini 的 Codeforces 水平拉高 405 分

OpenDeepThink 提出了一种基于成对 Bradley-Terry 比较的群体测试时推理框架。8 轮 LLM 调用（约 27 分钟墙钟时间）将 Gemini 3.1 Pro 的 Codeforces Elo 提升 405 分。同时开源 CF-73 数据集——73 道由国际特级大师标注的 Codeforces 题目。

#OpenDeepThink #并行推理 #Bradley-Terry

研究 2026年5月18日

SANA-WM：26 亿参数、64 张 H100 训 15 天，NVIDIA 把分钟级世界模型做到了单卡部署

SANA-WM 是一个 2.6B 参数的开源世界模型，原生支持一分钟视频生成。在 64 张 H100 上训练 15 天，使用约 213K 公开视频片段。蒸馏变体可以在单张 RTX 5090 上用 NVFP4 量化在 34 秒内去噪一个 60 秒 720p 视频。

#SANA-WM #世界模型 #视频生成

研究 2026年5月18日

SDAR：当自蒸馏遇上 Agent 强化学习，GRPO 的稳定性问题被这样解决

SDAR（Self-Distilled Agentic Reinforcement Learning）将 On-Policy Self-Distillation 作为门控辅助目标引入 LLM Agent 的 RL 训练，在 ALFWorld、WebShop、Search-QA 上相比 GRPO 分别提升 9.4%、10.2%、7.0%，同时避免了朴素 GRPO+OPSD 组合的不稳定性。

#SDAR #自蒸馏 #Agent 强化学习

研究精选 2026年5月18日

Self-Distilled Agentic RL：AI Agent 不再需要人类喂数据，自己教自己进化

Self-Distilled Agentic Reinforcement Learning 提出了一种新的 Agent 训练范式：让 Agent 通过自我蒸馏从自己的经验中学习，而不是依赖人类标注或外部奖励信号。这可能改变我们训练 AI Agent 的根本方式。

#强化学习 #Agentic AI #自蒸馏

研究 2026年5月18日

Solvita：南京大学让大模型通过"Agent进化"提升竞赛编程能力

南京大学 NJU-LINK Lab 发布的 Solvita 提出通过 Agent 进化范式来提升大语言模型的竞赛编程能力。与传统的监督微调不同，Solvita 让 Agent 在自我对弈和持续迭代中进化出更强的编程推理能力。

#竞赛编程 #Agent进化 #LLM

研究 2026年5月18日

SU-01：一个 30B 模型，在 IMO 和 IPhO 上达到金牌水平，靠的是什么配方？

SU-01 是一个 30B-A3B MoE 模型，通过一套简单统一的训练配方在 IMO 2025、USAMO 2026 和 IPhO 2024/2025 上达到金牌水平。核心流程：反向困惑度 SFT 课程 → 两阶段 RL（可验证奖励 → 证明级 RL）→ 测试时缩放。支持超过 10 万 token 的稳定推理轨迹。

#SU-01 #奥数推理 #IMO

研究精选 2026年5月15日

Kronos：用 Transformer 预测股市，24,900 星背后的金融大模型实验

Kronos 是一个面向金融市场的 Foundation Model，将金融数据视为一种「语言」来建模。项目在 GitHub 上获得了 24,946 颗星，提出了用 tokenizer 将金融时序数据离散化为 token 序列，再用 Transformer 进行预测的方案。这条路走得通吗？

#金融 #Foundation Model #时间序列

研究 2026年5月15日

Mental Health AI 安全评估的盲区：单轮评分为什么无法检测渐进式伤害

最新 arXiv 论文指出，当前心理健康 AI 的安全评估存在根本性缺陷——它们评估的是孤立回复或最终结果，而临床上最危险的伤害往往来自交互序列中的累积效应：逐渐升级的依赖、反复强化的负面模式、跨轮次的缓慢恶化。论文提出「时序安全不可识别性」理论框架和 SCOPE-MH 评估标准。

#AI 安全 #心理健康 #时序评估

研究 2026年5月15日

NVIDIA AnyFlow：视频扩散模型的一次「步数自由」实验，On-Policy 蒸馏能否终结推理步数焦虑

NVIDIA 最新发布的 AnyFlow 论文提出了一种「任意步数」视频扩散模型——同一个模型可以在 1 步到数十步之间自由切换，而不需要为每种步数单独训练。核心方法 On-Policy Flow Map Distillation 通过在训练中随机采样步数并自指导蒸馏，让模型学会在任何推理步数下都保持稳定的生成质量。

#视频生成 #扩散模型 #NVIDIA