一篇研究论文,AI 全流程跑下来,成本可以低至 15 美元。
这不是科幻,而是今天发布在 arXiv 上的新论文《AI for Auto-Research: Roadmap & User Guide》中披露的事实。论文作者包括新加坡国立大学的 Ziwei Liu、Tat-Seng Chua、Wei Tsang Ooi 等多位学者。
但论文的核心信息不是"AI 能写论文了",而是**"AI 写论文的问题比它展示的能力更值得警惕"**。
四个认知阶段的分析
论文把科研全生命周期划分为四个"认识论阶段":
1. 创造(Creation)
- 想法生成
- 文献综述
- 编码与实验
- 表格与图表生成
结论:AI 在结构化、有检索支撑、有工具中介的任务上表现出色。但生成的想法在落地实现时往往会"降级"——听起来很好,做出来不行。
2. 写作(Writing)
- 论文撰写
结论:这是 AI 最擅长的阶段之一。语言和结构的生成已经非常成熟。
3. 验证(Validation)
- 同行评审模拟
- 反驳与修订
结论:这是问题最多的阶段。即使是最前沿的 LLM,仍然会捏造结果、遗漏隐藏错误、无法可靠判断创新性。
4. 传播(Dissemination)
- 海报、幻灯片、视频
- 社交媒体、项目页面
- 交互式 Agent
结论:AI 在这个阶段能力强大,但"传播效率高"反而可能放大低质量研究的影响力。
核心发现:自动化与可靠性的边界
论文提出了一个关键判断:可靠性与自动化程度之间存在阶段依赖的边界。
| 任务类型 | AI 可靠性 |
|---|---|
| 结构化检索任务 | ✅ 高 |
| 工具中介任务 | ✅ 高 |
| 真正的新颖想法 | ❌ 脆弱 |
| 研究级实验 | ❌ 脆弱 |
| 科学判断 | ❌ 脆弱 |
更尖锐的是:研究级代码的质量远远落后于模式匹配基准。这意味着 Agent 在 SWE-Bench 等基准上刷出的高分,跟真正的科研代码能力之间存在巨大鸿沟。
端到端自动化还没到"顶会水平"
论文直言不讳地指出:端到端自主系统尚未稳定达到顶级会议的接受标准。自动化程度越高,反而可能掩盖而非消除失败模式。
最终结论:人类治理下的协作(human-governed collaboration)是最可信的部署范式。
这份路线图的价值
论文提供了一套跨阶段的设计原则、工具清单和基准套件,以及面向实践者的"操作手册"。对于正在探索 AI 辅助科研的研究者来说,这份路线图既是工具,也是警示。
在 AI 科研的热潮中,能冷静说出"还不够"的论文,反而更有价值。
主要来源:
- arXiv:2605.18661 - AI for Auto-Research 路线图论文
- 项目主页:https://worldbench.github.io/awesome-ai-auto-research