AI 自动研究全路线图：一篇论文就能写，但科学 integrity 的坑还深得很

$15 写一篇科研论文。这不是标题党，而是现实。

当 AI 系统已经能自动执行实验、撰写手稿、甚至模拟同行评审时，学术研究正站在一个十字路口：自动化带来的效率提升前所未有，但随之而来的科学诚信问题也前所未有地严峻。

新加坡国立大学团队的 AI for Auto-Research: Roadmap & User Guide，可能是目前最全面、也最诚实的一份 AI 自动研究分析报告。

四个阶段，四种不同的可靠性

论文把科研生命周期拆成四个认识论阶段，每个阶段 AI 的可靠程度截然不同：

包括：创意生成、文献综述、编码与实验、图表制作。

AI 在这个阶段的表现分化严重：

论文撰写是 AI 目前最成熟的环节。学术写作有固定的结构和语言范式，LLM 在这方面几乎可以独立胜任。这也是 "$15 写论文"的底气来源。

但问题恰恰在这里：写得出来 ≠ 写得对。AI 可以在形式上完美地写出一篇论文，但其中的科学判断、论证深度、创新性评估，AI 目前都不靠谱。

同行评审、回复审稿意见、修改论文。

AI 可以模拟审稿意见，但论文指出：即使是前沿 LLM，在科学压力下仍会捏造结果、遗漏隐藏错误、无法可靠判断创新性。这意味着 AI 辅助的同行评审本身就需要被评审——一个递归的信任问题。

海报、幻灯片、视频、社交媒体、项目页面、交互式 Agent。

这个阶段的自动化程度最高，因为不涉及核心科学判断。AI 可以把一篇论文自动转化为各种传播格式，效果已经相当不错。

论文最值得关注的一个发现是：更高的自动化水平并不会消除失败模式，反而会让它们变得更隐蔽。

当一个端到端系统自动生成从实验到论文的完整输出时，很难判断某个结论是基于真实数据还是 AI 的幻觉。人类审查者面对一个形式完美的自动化产出，很难追溯其中的错误来源。

这就是论文主张人类治理的协作（human-governed collaboration）作为最可信部署范式的原因——不是完全不让 AI 参与，而是在关键环节保持人类的判断和把关。

论文提供了一个结构化的分类体系、基准套件和工具清单，涵盖了 AI 辅助科研的各个方面。这些资源维护在项目页面上（worldbench.github.io/awesome-ai-auto-research），GitHub 仓库也已经开源。

论文明确指出：端到端的自主科研系统目前还没有持续达到顶级会议的接收标准。

这意味着虽然 AI 在各个环节的能力都在快速进步，但"全自动科研"距离真正可靠还有距离。当前最实用的策略是：让 AI 做它擅长的，让人类做它该做的——AI 负责繁琐的检索、格式化和初步分析，人类负责创意判断、实验设计和科学诚信。

这个结论听起来不那么"革命性"，但可能是最负责任的判断。

主要来源：