ChatGPT威胁科研透明，《自然》等期刊提出新要求

skysun000001 2023-02-16 发布于北京

展开全文

随着科研人员迈入高级对话AI的新世界，出版机构必须认可它们的合法使用，并为防止滥用制定清晰准则。

多年来，人工智能（AI）已能熟练使用语言，生成的文本与人类组织的语言难分伯仲。去年，《自然》报道过一些科研人员将对话机器人作为科研助手，帮助组织他们的想法，生成对工作的反馈，协助写代码，以及汇总研究文献（Nature 611, 192–193; 2022）。

然而，11月推出的对话AI ChatGPT，将这类统称为大型语言模型（LLM）的工具带到了更多用户的面前。开发该工具的美国加州公司OpenAI让 ChatGPT免费使用，即使不懂技术的用户也能轻松上手。这个软件的用户已达上百万乃至上千万，产生了大量有趣甚至时而令人害怕的写作实验，激发了人们对这些工具日渐增长的激动和畏惧情绪。

ChatGPT能写出漂亮的学生论文，概括论文摘要，回答问题的水平能通过医学专业考试，还能生成有意义的程序代码。ChatGPT编写的研究摘要已经好到科研人员也难以发现作者竟然是计算机。但人类社会需要担心的是，ChatGPT也会让垃圾邮件、勒索软件等恶意内容更容易产生。虽然OpenAI已经尝试对ChatGPT的能力范围进行限制，但用户显然找到了突破这些限制的方法。

科研圈面临的一个严重问题是，学生和科研人员会谎称LLM生成的文章是他们自己写的，或是以过分简化的方式利用LLM（如很片面的文献综述）来产出很不可靠的工作。已有多篇预印本论文和正式发表的论文以正式署名的方式来承认ChatGPT的贡献。

这便是为何研究人员和出版机构应当立即制定准则，规定如何使用LLM才是合乎道德的。《自然》和所有施普林格·自然的期刊制定了以下两条准则，并加入了我们最新版的作者指南（见go.nature.com/3j1jxsw，或扫描文末二维码）中。根据《自然》新闻团队的报道，其他科研出版机构也会采取类似立场。

第一条，不接受任何LLM工具作为对研究论文有贡献的作者。这是因为署名权意味着对研究负有责任，而AI工具无法担负这种责任。

第二条，使用LLM工具的研究人员应在方法或致谢单元里声明。如果论文中没有这两个单元，也可以在前言或其他合适的部分说明对LLM的使用。

模式识别

编辑和出版机构能发现哪些内容是由LLM生成的吗？现在的回答是“有可能”。如果仔细检查，ChatGPT生成的原始内容是有蛛丝马迹的，尤其是在涉及多个段落且主题与科研内容有关的时候。这是因为LLM主要根据训练数据中的统计关联和它们看到的“提示”（prompt）来归纳词汇模式，意味着它们输出的内容可能会淡而无味，还会出现低级错误。此外，他们也无法索引输出内容的来源。

但在将来，AI研究人员或能找到克服这些问题的办法，已有一些实验在尝试结合对话机器人和引用来源的工具，还有一些实验在训练对话机器人处理专业性的科学文本。

有些工具或能用来分辨出由LLM生成的内容，而《自然》的出版机构——施普林格·自然也是正在开发这些技术的出版社之一。但LLM还会升级，而且进步速度非常快。有人希望LLM的发明者能以某种方式在其生成内容上加水印，但这在技术上也不能保证万无一失。

从最初开始，科学的运作就需要对方法和证据保持开放和透明，无论时下风靡哪种技术。如果研究人员和他们的同事使用以根本上不透明的方式工作的软件，他们就应该问问自己：产生知识的过程所依赖的透明度和可信度还能在多大程度上得到保证？

这也是为何《自然》要在现在推出这些准则：归根结底，科研必须在研究方法上保持透明，还需要作者坚持科研诚信和真理。因为到头来，这才是科学赖以进步的根本。

扫描下方二维码，查看《自然》作者指南

原文以Tools such as ChatGPT threaten transparent science; here are our ground rules for their use标题发表在2023年1月24日《自然》的社论版块上

© nature

doi: 10.1038/d41586-023-00191-1