CiteVQA:OpenDataLab 发布的文档智能基准,让 AI 的每一次引用都有据可查
OpenDataLab 发布 CiteVQA 基准,专门衡量文档智能系统中答案的证据溯源能力。143 票登上 HuggingFace 每日论文榜首——可信 AI 正在从口号变成可量化的技术指标。
跟进论文、基准、数据集与实验方法中的关键进展
OpenDataLab 发布 CiteVQA 基准,专门衡量文档智能系统中答案的证据溯源能力。143 票登上 HuggingFace 每日论文榜首——可信 AI 正在从口号变成可量化的技术指标。
港大 HKUDS 团队发布的 CLI-Anything 项目在 GitHub Trending 登顶,36,000+ stars。核心理念是让所有软件变为 Agent 原生——这不是一个简单的工具,而是一次软件架构思维的转变。
上海交大发布 MMSkills 框架,将多模态视觉 Agent 的能力解耦为可组合、可复用的技能单元。99 票登上 HuggingFace 热门论文——Agent 的"技能化"可能比"模型化"更接近未来。
DeepCybo 发布 PhysBrain 1.0 技术报告,打造能理解物理规律的 AI 系统。从直觉物理学到视频生成验证,这条技术路线可能比纯语言模型更接近真正的"智能"。
腾讯混元团队发布新论文,系统研究 On-Policy Distillation 在解锁模型潜力方面的效率。论文揭示了蒸馏策略选择对模型性能的关键影响,为大规模模型训练提供了实证依据。
TideGS 通过 SSD-CPU-GPU 层级存储管理,在单张 24GB GPU 上实现了超过 10 亿高斯原语的 3DGS 训练,是此前 out-of-core 基线(约 1 亿)的 10 倍、内存内训练(约 1100 万)的约 100 倍。论文被 ICML 2026 接收为 Spotlight。
Anti-SD 通过点互信息分析发现特权上下文会抑制模型的推理 deliberation token,提出"反自蒸馏"方法——让学生与教师的发散度上升而非下降,在数学推理基准上以 GRPO 基线 2-10 倍的步数达到相同准确率,最终准确率提升最高 11.5 分。
CogOmniControl 提出推理驱动的可控视频生成框架,将生成过程拆分为创意意图认知和生成两步。在专业动漫制作数据上训练的 CogVLM 能准确理解稀疏抽象条件,配合 CogOmniDiT 和 RL 对齐,在两个自建基准上超越现有开源模型。
GoLongRL 提出了一套完全开源的长上下文强化学习后训练方案,发布 23K RLVR 样本数据集和完整训练代码。Qwen3-30B-A3B 模型在长上下文任务上可比肩 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507。
OpenComputer 提出了一套基于验证器的框架,为 computer-use agent 构建可验证的软件环境。覆盖 33 个桌面应用和 1000 个任务,实验表明其硬编码验证器比 LLM-as-judge 更贴近人类评判。
新加坡国立大学等机构联合发布 AI 全自动科研路线图,系统分析了 AI 在科研全生命周期中的能力边界:$15 就能自动生成论文,但 LLM 仍会捏造结果、遗漏隐藏错误、无法可靠判断创新性。
IAAR-Shanghai 和 Memtensor Research Group 提出 SkillsVote,一个 Agent 技能的全生命周期治理框架。离线进化使 GPT-5.2 在 Terminal-Bench 2.0 上提升 7.9 个百分点,在线进化使 SWE-Bench Pro 提升 2.6 个百分点。
字节跳动发布 Lance,一个从零训练的原生统一多模态模型,支持图像和视频的理解、生成和编辑。采用双流 MoE 架构,在开源统一模型中大幅领先生成质量,同时保持强理解能力。
HuggingFace #1 Paper of the Day,42 位作者的综述论文系统性地提出"代码即 Agent Harness"框架,将代码定位为智能体推理、行动和环境建模的统一基础设施层。
NVIDIA 团队发布 LongLive-2.0,首个基于 NVFP4 精度的长视频生成训练+推理全栈系统,引入序列并行自回归训练和 W4A4 推理,训练提速 2.15 倍、推理提速 1.84 倍,5B 模型达 45.7 FPS。
NUS 团队发布 AI for Auto-Research 路线图,系统分析 AI 在科研全生命周期中的可靠性边界:从创意生成到论文发表,哪些环节 AI 可以独立胜任,哪些必须人类把关。
清华团队提出 KVPO,一种 ODE-Native 的在线 GRPO 框架,通过将探索源从随机噪声转移到历史 KV Cache,实现自回归视频生成模型的人类偏好对齐,在视觉质量、运动质量和图文一致性上均有提升。
清华团队提出 ZEDA,一种低成本框架,将已训练好的静态 MoE 模型转化为动态 MoE,在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上消除超过 50% 的专家 FLOPs,端到端推理提速约 1.2 倍。
ByteDance Research 发布 Lance,一个轻量级原生统一多模态模型,通过双流 MoE 架构和多任务协同训练,同时实现图像/视频的理解、生成和编辑,不依赖模型容量堆叠。
NVIDIA 发布 LongLive-2.0,一种基于 NVFP4 量化和并行推理的长视频生成基础设施,1.22k GitHub Stars,探索如何在不牺牲质量的前提下生成更长的视频序列。
上海交大发布的 ARIS 系统让多个 AI Agent 通过对抗式协作自主完成科研任务。它在 Papers with Code 上获得了 116 个 upvote 和 9.7k 的 GitHub star,是近期最引人注目的 AI for Science 项目之一。
清华 ML 小组的 Causal Forcing++ 论文提出了一种可扩展的少步自回归扩散蒸馏方法,让交互式视频生成从需要等待数分钟变成了实时响应。这对游戏、VR 和交互式内容创作意味着什么?
Darwin Family 提出了免训练的进化合并框架,通过梯度自由的权重空间重组来组合现有模型的潜在能力。旗舰模型 Darwin-27B-Opus 在 GPQA Diamond 上达到 86.9%,在 1252 个评估模型中排名第 6——而且没有进行任何基于梯度的训练。
arxiv 新论文 FORGE 提出了一种无需更新模型权重就能让 Agent 记忆自我进化的方法。通过群体广播机制,Agent 之间可以共享经验、互相学习,实现记忆的持续进化。这种方法绕过了传统的微调流程,为 Agent 的持续学习提供了一条轻量级路径。
一篇新论文证明,通过简单且统一的缩放策略,大语言模型就能达到国际数学奥林匹克金牌级别的推理水平。没有花哨的新架构,没有复杂的训练技巧——就是缩放。这件事的意义,可能比论文本身更值得深思。
KAIST AI 实验室发表的论文提出了一种策略引导的探索方法,让强化学习训练主动走出舒适区,在不增加训练数据量的前提下提升学习效率。论文在 Hugging Face Daily Papers 上获得关注。
哈佛大学与麻省总医院团队合作,提出了一种基于自主LLM引导树搜索的多病原体疾病预测方法。LLM不再只是对话工具,而是化身为自主的搜索Agent,在复杂的假设空间中探索最优的预测模型。这项工作展示了LLM在科学建模中的新角色。
一篇新论文系统评估了LLM辅导Agent在不同情境下的反馈质量,发现了一个反直觉的结果:AI导师在确认学生正确答案时表现不错,但在学生犯错、最需要高质量反馈的时候,反而最容易给出不准确或不完整的回应。
NVIDIA 推出的 MemLens 基准首次系统性地评估了大型视觉语言模型的多模态长期记忆能力。它揭示了当前多模态模型在记忆方面的真实水平,以及距离"真正记住"还有多远。
上海交大发布的 MMSkills 提出了一套面向通用视觉Agent的多模态技能学习框架。与现有方案让模型死记硬背不同,MMSkills 让 Agent 真正理解技能的多模态本质——不仅知道"看到什么",还知道"怎么做"。论文在 Hugging Face Daily Papers 上获得 39 upvote。
OpenDeepThink 提出了一种基于成对 Bradley-Terry 比较的群体测试时推理框架。8 轮 LLM 调用(约 27 分钟墙钟时间)将 Gemini 3.1 Pro 的 Codeforces Elo 提升 405 分。同时开源 CF-73 数据集——73 道由国际特级大师标注的 Codeforces 题目。
SANA-WM 是一个 2.6B 参数的开源世界模型,原生支持一分钟视频生成。在 64 张 H100 上训练 15 天,使用约 213K 公开视频片段。蒸馏变体可以在单张 RTX 5090 上用 NVFP4 量化在 34 秒内去噪一个 60 秒 720p 视频。
SDAR(Self-Distilled Agentic Reinforcement Learning)将 On-Policy Self-Distillation 作为门控辅助目标引入 LLM Agent 的 RL 训练,在 ALFWorld、WebShop、Search-QA 上相比 GRPO 分别提升 9.4%、10.2%、7.0%,同时避免了朴素 GRPO+OPSD 组合的不稳定性。
Self-Distilled Agentic Reinforcement Learning 提出了一种新的 Agent 训练范式:让 Agent 通过自我蒸馏从自己的经验中学习,而不是依赖人类标注或外部奖励信号。这可能改变我们训练 AI Agent 的根本方式。
南京大学 NJU-LINK Lab 发布的 Solvita 提出通过 Agent 进化范式来提升大语言模型的竞赛编程能力。与传统的监督微调不同,Solvita 让 Agent 在自我对弈和持续迭代中进化出更强的编程推理能力。
SU-01 是一个 30B-A3B MoE 模型,通过一套简单统一的训练配方在 IMO 2025、USAMO 2026 和 IPhO 2024/2025 上达到金牌水平。核心流程:反向困惑度 SFT 课程 → 两阶段 RL(可验证奖励 → 证明级 RL)→ 测试时缩放。支持超过 10 万 token 的稳定推理轨迹。
Kronos 是一个面向金融市场的 Foundation Model,将金融数据视为一种「语言」来建模。项目在 GitHub 上获得了 24,946 颗星,提出了用 tokenizer 将金融时序数据离散化为 token 序列,再用 Transformer 进行预测的方案。这条路走得通吗?
最新 arXiv 论文指出,当前心理健康 AI 的安全评估存在根本性缺陷——它们评估的是孤立回复或最终结果,而临床上最危险的伤害往往来自交互序列中的累积效应:逐渐升级的依赖、反复强化的负面模式、跨轮次的缓慢恶化。论文提出「时序安全不可识别性」理论框架和 SCOPE-MH 评估标准。
NVIDIA 最新发布的 AnyFlow 论文提出了一种「任意步数」视频扩散模型——同一个模型可以在 1 步到数十步之间自由切换,而不需要为每种步数单独训练。核心方法 On-Policy Flow Map Distillation 通过在训练中随机采样步数并自指导蒸馏,让模型学会在任何推理步数下都保持稳定的生成质量。