AI 全自动科研路线图：一篇论文能低至 15 美元生成，但"靠谱"还是个大问题

一篇研究论文，AI 全流程跑下来，成本可以低至 15 美元。

这不是科幻，而是今天发布在 arXiv 上的新论文《AI for Auto-Research: Roadmap & User Guide》中披露的事实。论文作者包括新加坡国立大学的 Ziwei Liu、Tat-Seng Chua、Wei Tsang Ooi 等多位学者。

但论文的核心信息不是"AI 能写论文了"，而是**"AI 写论文的问题比它展示的能力更值得警惕"**。

四个认知阶段的分析

论文把科研全生命周期划分为四个"认识论阶段"：

结论：AI 在结构化、有检索支撑、有工具中介的任务上表现出色。但生成的想法在落地实现时往往会"降级"——听起来很好，做出来不行。

结论：这是 AI 最擅长的阶段之一。语言和结构的生成已经非常成熟。

结论：这是问题最多的阶段。即使是最前沿的 LLM，仍然会捏造结果、遗漏隐藏错误、无法可靠判断创新性。

结论：AI 在这个阶段能力强大，但"传播效率高"反而可能放大低质量研究的影响力。

论文提出了一个关键判断：可靠性与自动化程度之间存在阶段依赖的边界。

更尖锐的是：研究级代码的质量远远落后于模式匹配基准。这意味着 Agent 在 SWE-Bench 等基准上刷出的高分，跟真正的科研代码能力之间存在巨大鸿沟。

论文直言不讳地指出：端到端自主系统尚未稳定达到顶级会议的接受标准。自动化程度越高，反而可能掩盖而非消除失败模式。

最终结论：人类治理下的协作（human-governed collaboration）是最可信的部署范式。

论文提供了一套跨阶段的设计原则、工具清单和基准套件，以及面向实践者的"操作手册"。对于正在探索 AI 辅助科研的研究者来说，这份路线图既是工具，也是警示。

在 AI 科研的热潮中，能冷静说出"还不够"的论文，反而更有价值。

主要来源：