C
ChaoBro

学术研究工作流自动化:AI 辅助研究到底能走多远?从 ARS 项目看真相

学术研究工作流自动化:AI 辅助研究到底能走多远?从 ARS 项目看真相

学术界对 AI 的态度一直很分裂。

一边是《Nature》上发了论文的全自主 AI 研究系统 The AI Scientist——它在 ICLR 2025 workshop 上以 6.33/10 的分数通过了盲审(workshop 平均分 4.87)。另一边是 Zhao 等人今年 5 月在 arXiv 上发的论文:审计了 250 万篇论文里的 1.11 亿条引用,保守估计 2025 年有 146,932 条幻觉引用。

AI 能帮你做研究。AI 也会帮你编造引用。

这就是 academic-research-skills(ARS)试图回答的问题:怎么让 AI 辅助研究走到最大化收益、最小化风险的平衡点。

ARS 的核心设计:人环中,不是全自动

ARS 的 README 第一句话就把立场立得很清楚:

"AI is your copilot, not the pilot. This tool won't write your paper for you."

它不会替你写论文。它替你干脏活:找文献、格式化引用、验证数据、检查逻辑一致性。你负责真正需要人脑的部分:定义问题、选择方法、解释数据意味着什么、写下"I argue that"之后的那句话。

这个设计哲学在 AI 工具里其实不常见。大多数工具都在往"全自动"方向卷——越多自动化越有卖点。ARS 反其道而行。

原因很实在:Lu 等人(2026, Nature 651:914-919)的 The AI Scientist 虽然成功发表论文,但其 Limitations 部分列出了一长串全自主系统的失败模式:实现 bug、幻觉结果、捷径依赖、把 bug 当洞察、方法捏造、框架锁定、引用幻觉。

ARS 的假设是:一个被 AI 增强的人类研究者,比单独的人类或单独的 AI 都更不容易踩这些坑。

完整流水线

ARS 覆盖的学术流程是完整的:

Deep Research——13 个 agent 组成的研究团队,支持苏格拉底式引导模式、PRISMA 系统性审查、意图检测、对话健康监控、可选的跨模型验证、Semantic Scholar API 引用验证。

Academic Paper——12 个 agent 负责论文写作,带风格校准(从你过去的论文中学习你的写作风格)、写作质量检查(捕捉让文字"感觉像机器生成的"模式)、LaTeX 加固、可视化、修改辅导、引用转换、防泄漏协议、VLM 图表验证。

Academic Paper Reviewer——7 个 agent 做多角度同行评审,0-100 分量表(主编 + 3 个动态评审员 + 魔鬼代言人),让步阈值协议,攻击强度保留。

这套流水线的 token 成本是多少?官方数据:一篇 15K 字的论文大约 $4-6。

最有价值的功能:引用完整性检查

这是 ARS 和其他 AI 写作工具最大的区别。

Zhao 等人的论文发现 2025 年有 14.7 万条幻觉引用。ARS 在 v3.7.1 加入了 trust-chain frontmatter 用于来源溯源,v3.7.3 加入了 locator 基础设施(三层引用锚点),v3.8 加入了可选的审计通道——它会抓取被引用的原文,判断你的 claim 是否真的被该文献支持。

如果判断不支持,它会拒绝输出。不是警告,是硬拦截。

五个 HIGH-WARN 类别:claim-not-supported、negative-constraint-violation、fabricated-reference、anchorless、constraint-violation-uncited。

这个功能在 AI 写作工具里是独一份。不是因为别人没想到,是因为做这件事成本很高——你需要真的去抓取和阅读被引用的文献。但正是这种"贵"的功能,决定了 AI 辅助研究能不能被学术界严肃对待。

成本与门槛

ARS 对 Claude Code 的依赖是硬性的。你需要:

  • Claude Code CLI(最新版)
  • ANTHROPIC_API_KEY
  • 可选:Pandoc(输出 DOCX)、tectonic + 思源宋体 TC(输出 APA 7.0 PDF)

安装很简单:

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

然后试试 /ars-plan,描述你正在研究的论文,ARS 会开始一场苏格拉底式对话来规划章节结构。

我的判断

ARS 是目前 AI 辅助学术工具里最"诚实"的一个。

它不承诺替你写论文,不暗示你能用 AI 蒙混过关。它的 Style Calibration 功能是从你的旧论文里学习你的写作风格——不是为了让你藏住用了 AI 的事实,而是为了让产出的文字更像你写的。

写作者自己说:"Unlike a humanizer, this tool doesn't help you hide the fact that you used AI. It helps you write better."

如果你在做学术研究,值得试。但别指望它能替代你对领域的理解——它只能帮你把理解更好地表达出来。


主要来源: