共计 3255 个字符,预计需要花费 9 分钟才能阅读完成。
当你在学术论文中遇到以下454个字时,请务必提高警惕。
这很可能是由人工智能所撰写的。
如同一句古话所言:勇敢者率先享受世界的美好。
一些科学家早已在向期刊投稿的论文中采用了人工智能,这使他们迅速获得了大量的发表机会。
更有甚者,仅仅在六个月内便成为各个领域的「专家」,他们向多个专业期刊提交了多种形式的信件和评论,涵盖心脏病学、急救医学、内分泌学、消化病学、肝脏病学、免疫学、重症监护医学、精神病学、外科以及泌尿学等多个学科。
尽管这些作者谨慎地去除了一些明显的虚假信息,例如「我是一个大型语言模型」等字句,但仍然会留下明显的AI使用痕迹。
来自图宾根大学的Dmitry Kobak及其团队发现了一种追踪论文摘要中AI写作频率的方法。
论文链接:
https://www.science.org/doi/10.1126/sciadv.adt3813
他们发现,人工智能特别偏爱某些词汇,比如「深入探讨」(delves)、「关键的」(crucial)、「潜在的」(potential)、「显著的」(significant)和「重要的」(important),这些词的使用频率远超人类作者。
具体而言,研究人员分析了2010年至2024年间1510万篇生物医学摘要的词汇使用情况,发现一些词汇的出现频率急剧上升。
到2024年,他们发现有454个词是人工智能使用得异常频繁的。
Kobak团队推测,至少有13.5%的生物医学摘要中留有AI的痕迹。在某些国家,较少审查的期刊中,AI的使用率甚至可能高达40%。
如此多的AI撰写的摘要让他感到震惊。他指出,摘要是论文结论的核心,许多人只关注这一部分。
「如此重要的内容,竟然让AI来撰写?真是难以置信。」Kobak特别声明,他们的研究论文并未使用AI。
13.5%?这仍然偏保守!
研究团队分析了2010至2024年这14年间,在PubMed上发表的1510万篇英文摘要。
结果显示,自2023年起,许多特定词汇的出现频率显著提升。
例如,「深入探究」(delves)这一词在2022年之前每年的出现次数稳定在几千次,而到2024年却暴增了28倍;「展示」(showcasing)的使用频率也翻了十倍以上。
为了更好地量化这种增长趋势,研究人员基于2021和2022年的词频进行了线性外推,计算出2024年的反事实预期频率。
在衡量超额使用情况时,有两个关键指标:超额频率差δ=p−q和超额频率比r=p/q。
前者主要强调高频词的超额使用情况,而后者则关注低频词的超额使用。
为何这些词能揭示AI的痕迹?因为它们大多是与具体科研内容无关的「风格词」。
研究人员运用上述方法,分析了两万六千多个词汇,发现2024年有些词的使用频率简直达到滥用的程度。
例如,一些显得专业但略显公式化的表达,如delves(深入研究)、underscores(强调)和showcasing(展示),频繁出现到令人震惊。
此外,一些耳熟能详的词汇,如potential(潜力)、findings(发现)和crucial(至关重要)也成为了高频词。
如果一篇AI撰写的论文中,每十篇就有一篇使用了「potential」这个词,而在正常写作中每百篇才出现一次,那么「potential」的超额频率便为9%,这意味着至少9%的论文是由AI撰写的。
然而,科学家们仅仅找到了291个这样的稀有风格词,将它们的影响相加后,得出的13.5%这一保守估计。
AI使用率高达41%!
来自非英语国家的论文,尤其是在一些「不知名」期刊(如MDPI、Sensors)上发表的文章,最有可能带有明显的AI写作风格。
计算生物学领域的研究者更倾向使用AI,估计有20%的论文摘要经过AI处理,而传统临床领域则不足5%。
在非英语国家的论文中,AI使用率接近20%,而英语国家的则约为5%。
最为显著的是在Sensors期刊上发表的深度学习相关论文,AI的使用率达到了41%。这很可能与出版周期和审稿的严格性有关。
顶级期刊通常审稿严格、周期长,AI的痕迹有更多机会被修改掉,而快速审稿的期刊更可能保留原始的AI写作风格。
亚利桑那州立大学的计算机教授Subbarao Kambhampati表示,科学家们已经意识到AI偏好某些特定词汇,尽管尚不清楚原因。
他提到,一些科学家故意避免使用「深入探讨」(delve)这类词汇,以避免被怀疑是AI撰写的。
然而,也有一些作者根本不在意被揭穿。
Kambhampati举例提到,在放射学期刊的病例报告中,竟然出现了「抱歉,我是AI模型,无法获取实时信息或患者数据。」这样的表述。
用AI撰写的信件,是否应该发表?
《Science》最近对超过5000名研究人员进行了调查,询问他们何时能接受用AI撰写的论文,结果意见各异。
无论是撰写摘要、整篇论文,还是编辑、总结,大家的看法各不相同。
有人抱怨道:「上周我让ChatGPT撰写一篇综述,却竟然编造了一个不存在的研究结论。」
这正是科学界最为担忧的问题。
AI可能会一本正经地编造信息。例如,要求AI总结某个领域的进展时,它可能会将相似研究的结论拼凑在一起,甚至虚构数据。
如果某类研究在训练数据中占比过高,AI可能会进一步强化这种偏见。
当越来越多的人依赖AI进行写作时,论文的语言风格可能会趋同,甚至讨论部分的逻辑框架也会变得相似,这将扼杀创新思维。
斯坦福AI医学教育主任Dr. Jonathan H. Chen表示:「现在一切都非常模糊,我们身处于一个灰色地带,就像是西部荒野。」
这引发了一个问题:如果一篇论文完全由AI撰写,没有任何人类作者,期刊是否应当直接拒稿?
斯坦福大学精神病学与行为科学教授Keith Humphreys分享了他曾被《Addiction》期刊的一封信件欺骗的经历。
这封信件评论了一篇刚发表的论文,内容相当有道理。按照惯例,他将信件转给论文作者,请他们回复。
论文作者却表示从未听说过这位作者,并指出学术圈子不大,几乎没人认识这位人士。
他们搜索了信件作者的出版记录,发现其有众多发表作品,都是各大期刊的读者信和评论,涉及心脏病学、急救医学、内分泌学、消化病学、肝病学、免疫学、重症监护、精神病学、外科以及泌尿学等多个领域。
「这些作品在六个月内全部完成,作者似乎精通各个领域。」Humphreys说道。
他猜测,作者很可能是将期刊文章交给AI,让其生成给编辑的信件。他随后回复信件作者,要求其如果使用了AI,必须做出声明。
然而,作者并未回复。
Humphreys最终也没发表这封信件。
但问题是,这封信写得相当不错,并不符合传统意义上的欺诈。
同事们认为,既然现在每个人都能使用聊天机器人,为什么还要发表它们生成的内容?任何人都可以自己生成类似的分析。
Humphreys认为,AI生成的社论可能具有一定的洞见。
但是同事的一句话使他警觉:「我关心一篇社论的原因在于署名。顶尖学者愿意冒职业风险,敢于表达尖锐或不受欢迎的观点。」
Humphreys对此深表赞同:「AI本身没有意义,也不具备声誉,我对其缺乏信任,它不具备道德价值。」
在AI开始代笔的当下,我们更需要反思:科研写作中,什么才是不可替代的核心?
或许这并非华丽的辞藻,而是对科学问题的深刻理解以及探索未知的真诚。
参考资料:
https://www.science.org/doi/10.1126/sciadv.adt3813
https://www.nytimes.com/2025/07/02/health/ai-chatgpt-research-papers.html
https://www.nature.com/articles/d41586-025-01463-8
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。