$15 写一篇科研论文。这不是标题党,而是现实。
当 AI 系统已经能自动执行实验、撰写手稿、甚至模拟同行评审时,学术研究正站在一个十字路口:自动化带来的效率提升前所未有,但随之而来的科学诚信问题也前所未有地严峻。
新加坡国立大学团队的 AI for Auto-Research: Roadmap & User Guide,可能是目前最全面、也最诚实的一份 AI 自动研究分析报告。
四个阶段,四种不同的可靠性
论文把科研生命周期拆成四个认识论阶段,每个阶段 AI 的可靠程度截然不同:
1. 创造阶段(Creation)
包括:创意生成、文献综述、编码与实验、图表制作。
AI 在这个阶段的表现分化严重:
- 文献综述做得不错——本质上是检索和总结,LLM 的强项
- 图表制作越来越成熟——自动化数据可视化工具已经很实用
- 但创意生成是重灾区——AI 产生的 idea 往往在落地实现后严重退化,缺乏真正的新颖性
- 研究级实验的编码能力远落后于 benchmark——LeetCode 风格的编程题和真正的科研代码完全是两回事
2. 写作阶段(Writing)
论文撰写是 AI 目前最成熟的环节。学术写作有固定的结构和语言范式,LLM 在这方面几乎可以独立胜任。这也是 "$15 写论文"的底气来源。
但问题恰恰在这里:写得出来 ≠ 写得对。AI 可以在形式上完美地写出一篇论文,但其中的科学判断、论证深度、创新性评估,AI 目前都不靠谱。
3. 验证阶段(Validation)
同行评审、回复审稿意见、修改论文。
AI 可以模拟审稿意见,但论文指出:即使是前沿 LLM,在科学压力下仍会捏造结果、遗漏隐藏错误、无法可靠判断创新性。这意味着 AI 辅助的同行评审本身就需要被评审——一个递归的信任问题。
4. 传播阶段(Dissemination)
海报、幻灯片、视频、社交媒体、项目页面、交互式 Agent。
这个阶段的自动化程度最高,因为不涉及核心科学判断。AI 可以把一篇论文自动转化为各种传播格式,效果已经相当不错。
关键发现:自动化程度越高,失败模式越隐蔽
论文最值得关注的一个发现是:更高的自动化水平并不会消除失败模式,反而会让它们变得更隐蔽。
当一个端到端系统自动生成从实验到论文的完整输出时,很难判断某个结论是基于真实数据还是 AI 的幻觉。人类审查者面对一个形式完美的自动化产出,很难追溯其中的错误来源。
这就是论文主张人类治理的协作(human-governed collaboration)作为最可信部署范式的原因——不是完全不让 AI 参与,而是在关键环节保持人类的判断和把关。
工具清单和基准套件
论文提供了一个结构化的分类体系、基准套件和工具清单,涵盖了 AI 辅助科研的各个方面。这些资源维护在项目页面上(worldbench.github.io/awesome-ai-auto-research),GitHub 仓库也已经开源。
一个现实的时间线
论文明确指出:端到端的自主科研系统目前还没有持续达到顶级会议的接收标准。
这意味着虽然 AI 在各个环节的能力都在快速进步,但"全自动科研"距离真正可靠还有距离。当前最实用的策略是:让 AI 做它擅长的,让人类做它该做的——AI 负责繁琐的检索、格式化和初步分析,人类负责创意判断、实验设计和科学诚信。
这个结论听起来不那么"革命性",但可能是最负责任的判断。
主要来源:
- AI for Auto-Research: Roadmap & User Guide
- https://worldbench.github.io/awesome-ai-auto-research
- https://github.com/worldbench/awesome-ai-auto-research