用ChatGPT作弊，小心被抓，反剽窃水印技术让学生噩梦提前到来

天承办公室 2023-03-03 发布于江苏

展开全文

机器之心报道

机器之心编辑部

利用 ChatGPT 等 AI 模型作弊引发了人们广泛的担忧，而水印正成为解决该问题的一把「利剑」。

近一段时间以来，对话式 AI 模型 ChatGPT 的风头无两。有人用 ChatGPT 写代码、改 bug；还有人用 ChatGPT 写神经网络，做到了一字不改结果很好用。然而，ChatGPT 在学校作业、论文发表等领域引发了人们广泛的担忧，并采取了相应的措施。

1 月初，纽约市教育官员宣布禁止学生在公立学校使用 ChatGPT 的消息引发了争论；人们对 ChatGPT 的担忧已经蔓延到了 AI 学界自身，全球知名机器学习会议之一的 ICML 最近也宣布禁止发表包含由 ChatGPT 和其他类似系统生成内容的论文，以免出现「意外后果」。

针对这些反馈，ChatGPT 的提出者 OpenAI 正在努力开发缓解措施，帮助人们检测由 AI 自动生成的文本。OpenAI CEO Sam Altman 提出将尝试水印技术和其他技术来标记 ChatGPT 生成的内容，但又表示不可能做到完美。

大型语言模型的潜在危害，可通过给模型的输出加水印来缓解，即把信号嵌入到生成的文本中，这些信号对人类来说是不可见的，但算法可以从短范围的 token 中检测到。

本文中，来自马里兰大学的几位研究者针对 ChatGPT 等语言模型输出的水印进行了深入研究。他们提出了一种高效水印框架，水印的嵌入对文本质量的影响忽略不计，可以使用高效的开源算法进行检测，而无需访问语言模型的 API 或参数。此外，本文方法可以检测到比较短的合成文本（少至 25 个 tokens），同时使得人类文本在统计学上不可能被标记为机器生成。

论文地址：https:///pdf/2301.10226v1.pdf

本文中提出的水印具有以下属性：

可以在不了解模型参数或不访问语言模型 API 的情况下通过算法检测，因此即使模型不开源，检测算法也能开源。同时得益于 LLM 不需要加载或运行，检测成本低且速度快；
可以使用标准语言模型生成带水印的文本，无需重新训练；
只从生成文本的连续部分检测到水印，这样当使用生成的一部分创建更大的文档时，水印依然可以检测到；
如果不修改生成 tokens 的很大一部分，则无法删除水印；
对已经检测到的水印计算出严格的统计学置信度。

论文作者：我们有 99.999999999994%信心