学术研究工作流自动化：AI 辅助研究到底能走多远？从 ARS 项目看真相

学术界对 AI 的态度一直很分裂。

一边是《Nature》上发了论文的全自主 AI 研究系统 The AI Scientist——它在 ICLR 2025 workshop 上以 6.33/10 的分数通过了盲审（workshop 平均分 4.87）。另一边是 Zhao 等人今年 5 月在 arXiv 上发的论文：审计了 250 万篇论文里的 1.11 亿条引用，保守估计 2025 年有 146,932 条幻觉引用。

AI 能帮你做研究。AI 也会帮你编造引用。

这就是 academic-research-skills（ARS）试图回答的问题：怎么让 AI 辅助研究走到最大化收益、最小化风险的平衡点。

ARS 的核心设计：人环中，不是全自动

ARS 的 README 第一句话就把立场立得很清楚：

"AI is your copilot, not the pilot. This tool won't write your paper for you."

它不会替你写论文。它替你干脏活：找文献、格式化引用、验证数据、检查逻辑一致性。你负责真正需要人脑的部分：定义问题、选择方法、解释数据意味着什么、写下"I argue that"之后的那句话。

这个设计哲学在 AI 工具里其实不常见。大多数工具都在往"全自动"方向卷——越多自动化越有卖点。ARS 反其道而行。

原因很实在：Lu 等人（2026, Nature 651:914-919）的 The AI Scientist 虽然成功发表论文，但其 Limitations 部分列出了一长串全自主系统的失败模式：实现 bug、幻觉结果、捷径依赖、把 bug 当洞察、方法捏造、框架锁定、引用幻觉。

ARS 的假设是：一个被 AI 增强的人类研究者，比单独的人类或单独的 AI 都更不容易踩这些坑。

完整流水线

ARS 覆盖的学术流程是完整的：

Deep Research——13 个 agent 组成的研究团队，支持苏格拉底式引导模式、PRISMA 系统性审查、意图检测、对话健康监控、可选的跨模型验证、Semantic Scholar API 引用验证。

Academic Paper——12 个 agent 负责论文写作，带风格校准（从你过去的论文中学习你的写作风格）、写作质量检查（捕捉让文字"感觉像机器生成的"模式）、LaTeX 加固、可视化、修改辅导、引用转换、防泄漏协议、VLM 图表验证。

Academic Paper Reviewer——7 个 agent 做多角度同行评审，0-100 分量表（主编 + 3 个动态评审员 + 魔鬼代言人），让步阈值协议，攻击强度保留。

这套流水线的 token 成本是多少？官方数据：一篇 15K 字的论文大约 $4-6。

最有价值的功能：引用完整性检查

这是 ARS 和其他 AI 写作工具最大的区别。

Zhao 等人的论文发现 2025 年有 14.7 万条幻觉引用。ARS 在 v3.7.1 加入了 trust-chain frontmatter 用于来源溯源，v3.7.3 加入了 locator 基础设施（三层引用锚点），v3.8 加入了可选的审计通道——它会抓取被引用的原文，判断你的 claim 是否真的被该文献支持。

如果判断不支持，它会拒绝输出。不是警告，是硬拦截。

五个 HIGH-WARN 类别：claim-not-supported、negative-constraint-violation、fabricated-reference、anchorless、constraint-violation-uncited。

这个功能在 AI 写作工具里是独一份。不是因为别人没想到，是因为做这件事成本很高——你需要真的去抓取和阅读被引用的文献。但正是这种"贵"的功能，决定了 AI 辅助研究能不能被学术界严肃对待。

成本与门槛

ARS 对 Claude Code 的依赖是硬性的。你需要：

Claude Code CLI（最新版）
ANTHROPIC_API_KEY
可选：Pandoc（输出 DOCX）、tectonic + 思源宋体 TC（输出 APA 7.0 PDF）

安装很简单：

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

然后试试 /ars-plan，描述你正在研究的论文，ARS 会开始一场苏格拉底式对话来规划章节结构。

我的判断

ARS 是目前 AI 辅助学术工具里最"诚实"的一个。

它不承诺替你写论文，不暗示你能用 AI 蒙混过关。它的 Style Calibration 功能是从你的旧论文里学习你的写作风格——不是为了让你藏住用了 AI 的事实，而是为了让产出的文字更像你写的。

写作者自己说："Unlike a humanizer, this tool doesn't help you hide the fact that you used AI. It helps you write better."

如果你在做学术研究，值得试。但别指望它能替代你对领域的理解——它只能帮你把理解更好地表达出来。

主要来源：

GitHub - Imbad0202/academic-research-skills (13,557 stars, updated 2026-05-19)
Lu et al. (2026). Nature 651:914-919 — The AI Scientist
Zhao et al. (2026-05). arXiv:2605.07723 — 1.11 亿条引用审计
Academic Writing Shouldn't Be a Solo Act — 完整流程走查

ARS 的核心设计：人环中，不是全自动

完整流水线

最有价值的功能：引用完整性检查

成本与门槛

我的判断

Related

Presenton 不是“又一个 AI PPT”：它把演示文稿做成可部署的生成工作流

Midscene 的真正看点：UI 自动化终于可以少写一点脆弱选择器

前端调试的新闭环：Chrome DevTools MCP 让 Coding Agent 少猜一点