做科研最耗时的部分是什么?
不是读文献,不是写代码,不是做实验。是把这些环节串起来,形成一个闭环。提出假设、查文献验证、设计实验、分析结果、发现漏洞、修正假设——这个循环需要大量的人工协调,而且每一步都可能卡住。
上海交大的 ARIS 项目试图让 AI 自主完成这个闭环。而且它的方法论很特别:不是让一个 Agent 单干,而是让多个 Agent 互相"对抗",在对抗中协作。
ARIS 是什么
ARIS 全称 "Autonomous Research via Adversarial Multi-Agent Collaboration"。它不是一个单一的 AI 模型,而是一个由多个 Agent 组成的系统。这些 Agent 扮演不同的角色——有的负责提出假设,有的负责批判,有的负责实验验证——它们之间通过对抗式交互来推动研究进展。
这个方法论的灵感来自真实的科研过程。好的研究往往不是一个人闷头做出来的,而是在学术争论、同行评审、反复质疑中打磨出来的。ARIS 把这种"对抗中进步"的逻辑编码进了多 Agent 系统。
这个项目在 Papers with Code 的 trending 页面上获得了 116 个 upvote,GitHub 上有 9.7k star,是近期 AI for Science 领域最火的项目之一。
对抗式协作 vs. 和谐协作
多 Agent 系统不是新概念。Anthropic 的 Claude 可以做多 Agent 编排,Microsoft 的 AutoGen 也是这个方向。但大多数现有系统的设计逻辑是"协作"——多个 Agent 分工合作,各尽其能。
ARIS 的不同在于"对抗"。它引入了批判者角色,这个角色的任务不是帮忙,而是挑刺。它要找出假设中的漏洞、实验设计中的缺陷、结论中的过度推断。
这听起来反直觉,但恰恰是科研的本质。科学进步不是靠"大家都同意",而是靠"有人指出你错了"。波普尔的"证伪主义"说的就是这个道理。
实际表现
ARIS 目前展示的能力包括:
- 自主文献调研:Agent 可以搜索、阅读、综合相关论文
- 假设生成与批判:提出研究假设,然后由批判者 Agent 进行质疑
- 实验设计与执行:自动生成代码、运行实验、分析结果
- 迭代优化:根据批判和实验结果修正研究方向
当然,它还远不能替代人类研究员。但它展示了一个有趣的可能性:AI 可以不只是做"执行者"(你给它一个任务,它帮你完成),而是可以做"探索者"(它自己发现问题、提出方案、验证假设)。
与其他方向的对比
在同一时期,还有其他团队在做类似的探索。比如 Google DeepMind 的 Gemini Deep Think 项目,也在推进 AI 在科学发现中的自主性。但 DeepMind 的路线更侧重"单一模型的深度思考",而 ARIS 的路线是"多 Agent 的对抗式协作"。
两条路线各有优劣。单一模型的深度思考更容易控制和理解,但在复杂任务上可能受限于单一视角。多 Agent 的对抗式协作可以产生更多样化的思路,但系统的复杂度和不可预测性也更高。
我的判断
ARIS 的意义不在于它现在已经能做什么,而在于它证明了"自主科研"这个概念可以从科幻走向工程实现。
当然,这条路还很长。对抗式多 Agent 系统的可靠性、可解释性、安全性都是需要解决的问题。特别是在科研这种对严谨性要求极高的场景中,Agent 的"幻觉"和"过度自信"可能是致命的。
但方向是对的。如果 AI 能帮人类科学家分担假设生成和文献综合的工作,让人类把精力集中在最核心的创新上,那 AI for Science 的价值就已经体现出来了。
对抗式协作的野心更大——它想让 AI 不只是人类的助手,而是成为一个可以独立思考、独立质疑、独立发现的"研究伙伴"。
这个野心实现了多少,时间会给出答案。
主要来源: