上海交大 ARIS：让 AI 像科学家一样自主做研究， adversarial 多 Agent 协作的野心

做科研最耗时的部分是什么？

不是读文献，不是写代码，不是做实验。是把这些环节串起来，形成一个闭环。提出假设、查文献验证、设计实验、分析结果、发现漏洞、修正假设——这个循环需要大量的人工协调，而且每一步都可能卡住。

上海交大的 ARIS 项目试图让 AI 自主完成这个闭环。而且它的方法论很特别：不是让一个 Agent 单干，而是让多个 Agent 互相"对抗"，在对抗中协作。

ARIS 是什么

ARIS 全称 "Autonomous Research via Adversarial Multi-Agent Collaboration"。它不是一个单一的 AI 模型，而是一个由多个 Agent 组成的系统。这些 Agent 扮演不同的角色——有的负责提出假设，有的负责批判，有的负责实验验证——它们之间通过对抗式交互来推动研究进展。

这个方法论的灵感来自真实的科研过程。好的研究往往不是一个人闷头做出来的，而是在学术争论、同行评审、反复质疑中打磨出来的。ARIS 把这种"对抗中进步"的逻辑编码进了多 Agent 系统。

这个项目在 Papers with Code 的 trending 页面上获得了 116 个 upvote，GitHub 上有 9.7k star，是近期 AI for Science 领域最火的项目之一。

对抗式协作 vs. 和谐协作

多 Agent 系统不是新概念。Anthropic 的 Claude 可以做多 Agent 编排，Microsoft 的 AutoGen 也是这个方向。但大多数现有系统的设计逻辑是"协作"——多个 Agent 分工合作，各尽其能。

ARIS 的不同在于"对抗"。它引入了批判者角色，这个角色的任务不是帮忙，而是挑刺。它要找出假设中的漏洞、实验设计中的缺陷、结论中的过度推断。

这听起来反直觉，但恰恰是科研的本质。科学进步不是靠"大家都同意"，而是靠"有人指出你错了"。波普尔的"证伪主义"说的就是这个道理。

实际表现

ARIS 目前展示的能力包括：

自主文献调研：Agent 可以搜索、阅读、综合相关论文
假设生成与批判：提出研究假设，然后由批判者 Agent 进行质疑
实验设计与执行：自动生成代码、运行实验、分析结果
迭代优化：根据批判和实验结果修正研究方向

当然，它还远不能替代人类研究员。但它展示了一个有趣的可能性：AI 可以不只是做"执行者"（你给它一个任务，它帮你完成），而是可以做"探索者"（它自己发现问题、提出方案、验证假设）。

与其他方向的对比

在同一时期，还有其他团队在做类似的探索。比如 Google DeepMind 的 Gemini Deep Think 项目，也在推进 AI 在科学发现中的自主性。但 DeepMind 的路线更侧重"单一模型的深度思考"，而 ARIS 的路线是"多 Agent 的对抗式协作"。

两条路线各有优劣。单一模型的深度思考更容易控制和理解，但在复杂任务上可能受限于单一视角。多 Agent 的对抗式协作可以产生更多样化的思路，但系统的复杂度和不可预测性也更高。

我的判断

ARIS 的意义不在于它现在已经能做什么，而在于它证明了"自主科研"这个概念可以从科幻走向工程实现。

当然，这条路还很长。对抗式多 Agent 系统的可靠性、可解释性、安全性都是需要解决的问题。特别是在科研这种对严谨性要求极高的场景中，Agent 的"幻觉"和"过度自信"可能是致命的。

但方向是对的。如果 AI 能帮人类科学家分担假设生成和文献综合的工作，让人类把精力集中在最核心的创新上，那 AI for Science 的价值就已经体现出来了。

对抗式协作的野心更大——它想让 AI 不只是人类的助手，而是成为一个可以独立思考、独立质疑、独立发现的"研究伙伴"。

这个野心实现了多少，时间会给出答案。

主要来源：

Papers with Code - ARIS

ARIS 是什么

对抗式协作 vs. 和谐协作

实际表现

与其他方向的对比

我的判断

Related

APWA：让多 Agent 系统真正并行化的分布式架构

Dual-Dimensional Consistency：让推理时缩放省 10 倍 Token 的新方法

MemEye：多模态 Agent 记忆能力的视觉中心评估框架