共计 2297 个字符,预计需要花费 6 分钟才能阅读完成。
科技日报记者 张梦然 实习生 周思彤
人工智能(AI)所生成的科研成果引发了学术界对于“思想抄袭”问题的深入探讨和激烈争论。
《自然》杂志最近的一则消息指出,一些研究者注意到,部分标注为大型语言模型创作的论文,尽管没有字面上的直接复制,却涉及到未经授权使用他人的研究方法或核心观点,这种行为被称为“抄观点不抄字”。
然而,针对这种“思想抄袭”或“思想挪用”的指控,一些学者和AI研发团队对此表示反对。
图片
频繁引发争议的“思想挪用”案例
在今年1月,韩国高等科学技术研究院的研究员朴炳俊收到来自印度班加罗尔科学研究所的邮件,内容提到一款名为“The AI Scientist”的工具所生成的一篇未正式发布的手稿,可能使用了他论文中的研究方法,但没有进行署名。“The AI Scientist”是由东京Sakana AI公司于2024年发布的全自动科研工具,能够利用大型语言模型生成研究思路、自主编写运行代码并撰写研究论文,并明确标注为“AI生成”。
经过核查,朴炳俊发现该AI生成的手稿虽然提出了新的架构,与他的论文主题不同,但两篇论文的核心方法却高度相似。
印度“揭发团队”指出,这种情况并非孤例。他们在今年2月发布的研究中提到,经过外部专家评估,发现多篇AI生成的手稿未直接复制文字,但却挪用了他人的观点且没有标注出处。这些由大型语言模型生成的研究观点表面上看似新颖,实则存在“巧妙的抄袭”,其原创性难以得到验证。
此外,“揭发团队”还发现,Sakana AI在今年3月宣布的首篇经过国际学习表征会议同行评审的全AI生成论文,疑似挪用了2015年发表的一项研究中的核心成果且未标注引用,同时也借鉴了另一篇2015年的未署名手稿。专家评估认为,该AI论文与2015年的研究在相似性上达到了5级,表示极高的相似性。
为了进一步确认,“揭发团队”选择了美国斯坦福大学团队2024年发布的4份AI生成研究方案、Sakana AI的10份AI手稿,以及与Sakana AI使用相同方法生成的36份新方案,邀请13位领域专家根据“5级相似度量表”进行评估(5级为方法完全对应,4级为融合2—3项前人成果)。结果显示,24%的AI生成作品达到了4—5级的相似度。
关于“抄袭”的定义仍存争议
对此指控,“The AI Scientist”研发团队表示否认,称“抄袭的指控毫无根据,应当被忽视”。团队指出,被质疑的AI手稿与前人研究的假设不同,应用领域各异,即使方法存在一些关联,这也仅仅是“未引用相关文献”,这种情况在人类研究者中也较为常见。尽管团队承认工具存在引用不足的问题,但强调AI生成的成果并不等同于抄袭。
学术界对于“是否构成抄袭”的判断也存在不同意见。美国佐治亚理工学院的机器学习研究员本·胡佛认为,朴炳俊提到的AI论文与他本人研究的相似度仅为3级,“远不足以构成抄袭”。而韩国高等科学技术研究院的研究生白真宥则认为,新颖性本身带有主观性,人类评审在学术会议中也常常围绕何为原创展开激烈讨论。
尽管朴炳俊认为其研究与AI论文的方法相似度达到5级,但他表示“这并不一定符合法律或伦理上的抄袭定义”。
柏林应用科学大学的专家德博拉·韦伯-伍尔夫指出,争议的根源在于“抄袭”定义的认知差异:某些计算机科学家认为抄袭需要“主观故意欺诈”,而她主张“意图不应作为判断标准”,因为AI没有主观意识,现有AI系统无法追溯观点的来源。她引用国际学术诚信中心前主任泰迪·菲什曼的定义:“未恰当标注他人可识别的观点或成果,且存在原创性预期时,即构成抄袭”。
现有学术体系面临冲击
这一争议深刻反映了AI科研对现有学术体系的挑战。德国锡根大学的机器学习专家乔拉恩·比尔指出,随着计算机科学等领域论文数量的激增,研究者越来越难以验证自己观点的新颖性。而大型语言模型通过重组训练数据的特性生成观点,进一步加剧了学术信用的流失,因为AI天然倾向于借鉴他人的成果。
更重要的是,“思想抄袭”的验证方法尚无有效途径。韦伯-伍尔夫坦言,目前尚无统一的方法来证明“思想抄袭”与“文字抄袭”的区别,观点挪用的情况难以量化。新加坡南洋理工大学的AI研究员刘阳表示,尽管现有技术能够检测句子间的语义相似度,但“关于观点或概念层面的相似度检测的研究非常有限”。
研究测试表明,商业抄袭检测工具Turnitin未能识别出专家所判定的AI论文来源,学术搜索大型语言模型工具OpenScholar仅识别出1篇。
尽管“The AI Scientist”会通过“大型语言模型生成关键词+语义学者搜索引擎+大型语言模型评估”的流程来验证原创性,但比尔认为该过程过于简化,因为关键词往往难以全面概括观点,搜索引擎也可能遗漏关键文献,无法与领域专家的判断相提并论。
AI使用规范亟待明确
针对争议,学术界普遍认为应当规范AI科研工具的使用。
新加坡国立大学的计算机科学家靳民彦表示,AI工具终将普遍应用,关键在于找到正确的使用方式。“The AI Scientist”研发团队则表示,其成果仅是“概念验证”,旨在展示“AI生成科研论文的可行性”,未来这类系统有望实现“重大的原创发现”。团队也承认目前AI生成论文的质量问题,建议在当前阶段将此工具用于“启发思路”,并要求研究者自行验证输出内容的可靠性。
目前,关于AI生成科研成果的学术规范尚在形成之中,如何在AI的科研辅助价值与学术诚信之间取得平衡,仍然是学术界亟待解决的重要课题。
编辑:王璠
审核:朱丽