康奈尔大学创立的免费预印本库 ArXiv 已成为全球数千名科学家和技术人员发表早期研究论文的首选平台。ArXiv 将不再接受计算机科学类别的评论文章或立场论文,除非它们已经通过期刊或会议的同行评审。
政策转变,10月31日宣布此前,大量人工智能生成的调查论文涌入该库,版主将其描述为“不过是带注释的参考书目”。该库现在每月收到数百篇此类投稿,而过去只有少量由资深研究人员撰写的高质量评论。
“过去几年,arXiv 上涌现了大量论文,”该网站的一份官方声明解释道。“生成式人工智能/大型语言模型加剧了这一趋势,使得论文——尤其是那些没有提出新研究成果的论文——的撰写变得快速而容易。”
“促使我们做出这个决定的原因是,借助 LLM 指导的综述论文数量大幅增加,”arXiv 版主、人工智能促进协会前主席 Thomas G. Dietterich 在 X 上补充道,“我们没有足够的版主资源来审查这些提交的论文,并区分出好的综述和不好的综述。”
发表的研究自然与人类行为研究发现,到2024年9月,近四分之一的计算机科学摘要都显示出语言模型将发生重大变化的迹象。另一项发表在《科学进展》上的研究也得出了类似的结论。显示自 ChatGPT 发布以来,2024 年发表的研究论文中人工智能的使用量激增。
arXiv 的志愿者审核员一直以来都会根据学术价值和主题相关性筛选稿件,但他们并不进行同行评审。综述文章和立场文件从未被正式接受,尽管审核员会破例接受来自知名研究人员或科学协会的作品。然而,这种酌情审核机制在人工智能生成的稿件数量激增的情况下不堪重负。
该平台现在处理的投稿量比过去几年增长了好几倍,生成式人工智能使得撰写肤浅的调查论文变得轻而易举。
研究界的反应褒贬不一。人工智能安全研究员斯蒂芬·卡斯珀(Stephen Casper)提出担忧,认为这项政策可能会对处于职业生涯早期的研究人员以及那些从事伦理和治理相关研究的人员造成不成比例的影响。
“评论/立场论文的作者大多是年轻人、缺乏强大计算能力的人以及所在机构出版经验不丰富的人,”他说道。写道在评论中。
其他人则简单地批评了ArXiv的立场。错误的(甚至)哑的甚至还有人支持使用人工智能来检测人工智能生成的论文。
一个问题是,人工智能检测工具已被证明不可靠,误报率高,可能会不公平地将合法作品标记为不实作品。另一方面,最近的一项研究表明,人工智能检测工具的可靠性更高,误报率也更高,可能会将合法作品错误地标记为不实作品。成立研究人员未能识别出三分之一由 ChatGPT 生成的医学摘要是机器撰写的。美国癌症研究协会据报道尽管有强制性披露政策,但只有不到 25% 的作者披露了人工智能的使用情况。
新规要求作者必须提交同行评审成功的证明文件,包括期刊参考文献和DOI。研讨会评审不符合此标准。arXiv强调,目前这项变更仅影响计算机科学类别,但如果其他类别也面临人工智能生成的投稿数量激增的情况,则可能会采取类似政策。
此举反映了学术出版界更广泛的反思。像CVPR 2025这样的大型会议已经已实施的政策对于因审稿人行为不负责任而被标记的稿件,出版商将直接拒稿。出版商正在努力应对那些包含明显人工智能痕迹的论文,例如一篇以“当然,这里有一个关于您主题的可能引言”开头的论文。









