科研圈的"AI 水论文"问题,终于有人动真格了。
arXiv 的管理员——物理学和天文学预印本服务器的实际运营者——在社交媒体上发布了一条措辞强硬的声明,明确了针对 AI 生成内容的处罚规则。
新规说了什么
核心内容很直接。
arXiv 的行为准则一直规定:作者署名的论文,作者对所有内容负全部责任,不管内容是怎么生成的。这条没变。
变化的是处罚力度。
如果提交的论文中包含"无可辩驳的证据"表明作者没有检查大语言模型生成的结果,那么 arXiv 会采取两项措施:
- 一年封禁——作者一年内不能再向 arXiv 提交任何论文
- 后续限制——封禁期结束后,该作者未来的 arXiv 提交必须先在正规同行评审期刊发表,arXiv 才会托管
注意这条措辞:"we can't trust anything in the paper"(我们无法信任论文中的任何内容)。这不是说"部分数据可能有问题"——而是说,一旦确认作者盲目接受 AI 生成的结果,整篇论文的可信度归零。
这不是"反 AI",是"反不负责任"
arXiv 的规则不是禁止使用 AI 工具写论文。它禁止的是使用 AI 但不核查结果。
这两者有本质区别。
用 AI 辅助写作、整理文献、生成代码框架——这些在科研中已经越来越普遍,而且绝大多数期刊和会议都已经接受。但生成虚假引用、捏造数据、编造实验结果——这在任何时代都是学术不端,AI 只是让这种不端行为变得更廉价、更批量。
arXiv 这次打击的是后者。
为什么是 arXiv
arXiv 作为预印本平台,特点是不经同行评审就直接发布。这意味着平台本身承担着比传统期刊更高的"守门"责任——不是审查科学内容的正确性(那是同行评审的事),而是确保提交的内容至少是作者认真对待的。
当 AI 可以在几秒钟内生成一篇看起来像模像样的论文(有摘要、有"参考文献"、有"实验结果"),但这个"参考文献"全是编造的、"实验结果"全是幻觉的——预印本平台就面临一个信任危机。
如果 arXiv 上充斥着 AI 生成的垃圾论文,它的学术声誉就会受损。而 arXiv 的声誉是它最大的资产。
技术挑战
规则说起来简单,执行起来难。
"无可辩驳的证据"——这个标准在实践中怎么判断?什么样的 AI 生成痕迹算是"无可辩驳"?是引用了不存在的论文?是公式推导中有逻辑断裂?还是语言风格明显不像人类写的?
arXiv 目前没有公开具体的检测标准和方法。这意味着处罚的执行可能存在主观性和不一致性。
另一方面,随着 AI 生成文本的质量越来越高,区分"AI 辅助"和"AI 代写"的界限会越来越模糊。一个精心使用 AI 工具的负责任研究者,和一个粗制滥造的水论文者,在文本层面可能越来越难区分。
我的看法
arXiv 的这条规则,本质上是在说一件事:署名即责任。
这个原则在任何时代都是对的,但在 AI 时代特别需要强调。因为 AI 给了人一种幻觉——"我只是让模型帮忙写了一下,不算我的论文"。但 arXiv 的规则很明确:你署了名,你就是责任人。不管内容怎么来的。
我注意到一个细节:arXiv 说的是"作者没有检查 LLM 生成的结果",而不是"使用了 LLM"。这个措辞上的精确性很重要——它针对的是行为(不检查),而不是工具(使用 AI)。
接下来值得关注的是其他预印本平台(bioRxiv、medRxiv、SSRN 等)是否会跟进类似的规则。如果形成一个行业共识,那么 AI 生成内容的学术出版标准就初步成型了。
主要来源:arXiv 管理员社交媒体声明、Ars Technica 报道