【原】他山之石｜如何看待人工智能世界中写作教育的未来？

胖胖老师图书馆 2023-02-23 发布于上海

展开全文

本文翻译自John Spencer最新的博文《 The Future of Writing in a World of Artificial Intelligence #ChatGPT》，翻译有删减。

早在 12 月，我就向我的一位也是教授的朋友展示了 ChatGPT。

“我并不担心人文课程中的人工智能，”她说。

“完全没有？”

她摇了摇头。“我知道有些同事正在回到蓝皮书并禁止设备。或者他们正在研究可以在一篇文章中检测ChatGPT的程序。但我只是想知道我们可能需要如何改变这篇文章。”

然后我们谈到了苏格拉底和他对写作的关注。

其中一个主要原因是苏格拉底认为写作会导致人们过分依赖书面文字，而不是他们自己的记忆和理解。他认为，阅读文本的人只能按照作者想要的方式解释它，而不是与所提出的想法进行对话并得出自己的结论。此外，苏格拉底担心写作可能被用来传播错误的想法和观点，并可能被用来操纵人们。

听起来很耳熟？这些与人们对人工智能的许多担忧相同。

“我以前经历过这种情况，”她补充道。“当我意识到学生可以下载整篇论文时，我开始要求学生做他们上交的预写。我改成了你在网上找不到的高兴趣提示。现在我看到 ChatGPT 可以对这些高兴趣提示产生响应，我将认真思考如何将 AI 视为一种工具。

我们一起规划了一个解决方案，其中包括将人工智能生成的文本和学生生成的文本混合在一起。这与我在本文后面描述的内容类似。这篇文章没有死，但它正在改变。它将在未来几年继续发展。目前，人工智能的使用迫使我们问：“人工智能什么时候是一种学习工具，什么时候又在作弊？

AI什么时候在帮助人作弊？

当我还是一名初中新教师时，有几位老师警告我不要让我的学生使用拼写检查。如果我们让学生使用拼写检查，学生就会越来越依赖这个工具，他们会变得糟糕的拼写者。我也有类似的担忧。如果我们过于依赖技术来修复拼写错误，学生会费心使用正确的拼写吗？

那个学期，我让学生提交了一份写作样本。然后，我计算单词和拼写错误的数量，以找到拼写错误的比率。然后，我让学生在学期末进行手写评估。在将初始学生样本与学期结束时的样本进行比较时，拼写错误的数量显著减少。事实证明，这个作弊工具实际上是为学生提供有关拼写的即时反馈。他们不是盲目地点击拼写检查，而是在内化反馈。

我们现在一直使用拼写检查。曾经是“作弊”的工具，现在是我们用来写作的常用工具。

事实是，学生们已经在写作中使用人工智能。我们不倾向于将拼写检查视为AI。但它是智能算法的原始示例。虽然拼写检查软件不如新一代人工智能先进，但它仍然依靠机器学习和模式识别来提高其准确性。某些拼写检查软件还可能使用自然语言处理技术来检测上下文错误，例如拼写正确但误用的单词。如果多年来您对Word和Google文档的拼写检查和语法检查似乎有所改善，那是因为它们有所改善。

学生们已经在写作过程的每个阶段使用更先进的人工智能。在进行研究时，Google中的自动填充选项可以缩小对学生的搜索范围。在 Google 文档中输入内容时，自动填充选项通常会为学生完成句子。当学生编辑他们的作业时，语法检查会就需要更改的内容提供建议。某些学生甚至可能会在编辑阶段使用 Grammarly 来润色他们的写作。这里的人工智能是如此微妙，以至于我们有时会错过它。但机器学习已经在推动学生写作过程的各个方面。

请注意，所有这些工具在某些时候都被认为是作弊。数学中的计算器和统计学中的电子表格也是如此。起初，每一次技术进步都被认为是一种作弊形式。然而，最终，这些工具成为学习和创造过程的基本要素。

不知何故，ChatGPT给人的感觉却不同。作为新一代的人工智能，它建立在深度学习之上。新一代人工智能依赖于旨在反映人脑的算法。这就是 ChatGPT 感觉如此人性化的部分原因。深度学习模型从大量数据集中学习，并以未明确编程的方式进行模式识别。换句话说，该算法正在学习，现在可以进行预测并产生全新的想法。深度学习中的术语“深度”是指在神经网络中使用多层，允许系统在每一层学习和表示越来越复杂的特征。如果拼写检查是一层深度的，则 ChatGPT 是多层的。

因此，如果感觉 ChatGPT 比以前的 AI 更像作弊，那是因为它的功能更接近人类思维。Clippy很可爱，甚至表现得有点人性化，但它的语气，但目前的聊天机器人会感觉好像你实际上是在和一个人说话。

那么，这给我们留下了作弊的启示呢？人工智能什么时候只是一种增强学习的工具，什么时候它被选择和取代学习过程中的一个重要部分？在连续统一体上思考它可能会有所帮助。我喜欢马特·米勒（Matt Miller）的方式，其在《教科书的沟渠》（Ditch That Textbook）一书中将其概念化：

正如米勒所描述的那样，“我们将不得不划清界限——作为教育工作者、学校，甚至作为学区——来确定我们将允许什么，以及我们不允许什么。我喜欢最后一个关于学生将来如何使用人工智能的问题，因为它可能因任务而异。在撰写博客文章时，我可能会咨询 ChatGPT 以获取想法，甚至用它来解释定义（然后我修改和重写它）。但是，我不希望ChatGPT写这个。我希望它成为我自己的声音。另一方面，我可以看到人工智能的吸引力，可以在我生成大纲后回复我的电子邮件，甚至创建技术写作的初稿。事实是，我们都将以混合方式使用AI。

论文写作的混合方法

这种混合方法摆脱了拥抱人工智能或完全阻止人工智能的“非此即彼”选项。相反，它专注于明智地使用人工智能来增强学习，同时也拥抱人类元素。

混合方法可能包括人工手写和 AI 生成的书写的混合。学生可以创建草图笔记，并在交互式笔记本或日记中将绘图和文本混合在一起。这些低技术含量的选择侧重于写作，作为一种“让学习可见”的方式。在这里，学生选择老式工具，因为简单性为更深入的思考提供了更多的灵活性。但这些学生也可能使用聊天机器人来产生新的想法，或者使用人工智能生成的响应，然后他们修改和放大。他们可能会使用人工智能作为起点，并在成品中添加自己独特的声音。这可能发生在同一个课程期间。混合模式下的学生可以在人类和人工智能之间来回切换。

学习如何明智地使用人工智能的一部分是找到使用人工智能的最佳环境。这首先要认识到人类和机器学习的优势。机器学习在综合来自多个来源的信息并生成清晰易读的文本方面做得很好。机器学习还可以帮助编辑和构思。但是，如果机器学习提供人工智能，那么人类则提供真正的智能。我们在声音和语气（尤其是幽默）方面做得很好。我们理解上下文，并且可以以同理心写作。虽然人工智能在创造力方面做得很好，但我们是更好的发散思想家。以下是将人类思维与人工智能相结合的混合方法。

初步概念理解

我有时认为这是预写。这是学生在提出问题和参与研究之前访问他们先前知识的阶段。混合方法可能从共享文档上的 K-W-L 图表开始。学生记下他们所知道的关于这个主题的一切。接下来，他们写下他们想知道的有关该主题的所有信息。在这一点上，学生将使用聊天机器人（如 ChatGPT）提出问题并了解该主题，而不是进入研究。聊天机器人的动态性质允许澄清根据学生的理解量身定制的问题。

对于这个例子，我将给出一篇社会研究论文，问：“我们有多容易受到第三次世界大战的影响？作为他们在第一次世界大战中的部队的一部分。

所以学生可能会问，“第一次世界大战的原因是什么？

ChatGPT给出的答案是：

军国主义：欧洲主要大国之间的军备竞赛，特别是德国和英国，在战前已经升级了很多年。对军事力量的信念导致人们越来越重视建立国家武装力量。
联盟：欧洲主要大国之间已经形成了一个联盟体系，这意味着如果一个国家开战，它的盟友也会被卷入其中。主要联盟是三国协约国（法国、俄罗斯和英国）和三国同盟（德国、奥匈帝国和意大利）。
帝国主义：对世界各地殖民地和领土的竞争导致了欧洲列强之间的紧张关系，特别是德国和英国。
民族主义：对民族优越感的信念和对自决的渴望导致了种族和民族群体之间的紧张和冲突，特别是在巴尔干地区。
弗朗茨·斐迪南大公遇刺：1914 年，一名塞尔维亚民族主义者暗杀了奥匈帝国王位继承人弗朗茨·斐迪南大公，这为战争的爆发提供了导火索。

学生可能会要求 ChatGPT 简化它，并提示“向八年级的人解释一下”。

军国主义：这意味着欧洲国家总是试图建立自己的军队并使其尽可能强大。这有点像一场比赛，看谁能拥有最大、最强大的军队。
联盟：欧洲一些国家相互达成协议，如果其中一个国家开战，其他国家将帮助他们。这就像一项团队运动，如果一名球员遇到麻烦，其他球员会伸出援手。
帝国主义：这意味着一些国家想要接管世界其他地区，比如非洲或亚洲的殖民地。这引起了紧张局势，因为不同的国家想要相同的领土，他们愿意为这些领土而战。
民族主义：这是人们对自己的国家有非常强烈的感觉，并认为它比其他任何国家都好的时候。这导致了不同群体之间的冲突，特别是在巴尔干地区，那里有许多不同的民族和族裔群体。
刺杀弗朗茨·斐迪南大公：这是引发战争开始的事件。弗朗茨·斐迪南大公是奥匈帝国的王位继承人，他被一群塞尔维亚民族主义者暗杀。这引发了一系列事件，最终导致了战争。

在这一点上，学生可能会问后续问题，比如“为什么暗杀会导致整个世界处于战争状态？或者这个人对军国主义感到困惑，问道：“你能给我举个军国主义的例子吗？或者，他们关注美国并说，“美国人关心第一次世界大战吗？这可能是一个随机的问题，比如，“在第二次世界大战发生之前，他们怎么称呼第一次世界大战？

此时，学生可以添加到他们的 K-W-L 图表中。他们可能会进行一些初步研究并观看视频或阅读文章。这个过程将是动态的，体现的是一种深度学习。

研究

在这个阶段，学生将通过产生问题和寻找答案来参与在线研究。他们可能会从一组初始问题开始，然后通过要求聊天机器人为他们提出研究问题来放大它。在在线研究期间，他们会阅读文章并添加到他们的研究图表中（带有问题、答案和引用），但也使用聊天机器人来澄清误解。学生可能会在团队中比较他们的信息，甚至可以完全人性化地参加苏格拉底研讨会。最后，学生将创建一个手绘素描笔记，显示想法之间的联系。换句话说，民族主义与帝国主义有什么关系？

组织想法和概述

在这个阶段，学生将集思广益并将它们组织成一个连贯的大纲。他们可能会做一个思维导图或用便签组织他们的想法。在某些时候，学生会为他们的论文创建一个初始大纲。为了透明起见，他们会截取最初的大纲，然后要求聊天机器人创建一个大纲。然后，在比较轮廓后，他们将修改自己的轮廓。学生甚至可以使用 ChatGPT 上的重新生成响应按钮生成多个大纲。

写作

在这个阶段，学生可以采取他们的初始大纲，并要求聊天机器人生成实际文本。他们会拍摄带有时间戳的初始屏幕截图，然后将文本复制并粘贴到共享文档（Google文档）中。从这里，学生将修改文本以添加自己的声音。他们需要添加额外的句子，甚至可能分解段落。使用他们的研究图表，学生将添加事实和引文，然后进行解释。最初的聊天机器人文本将是黑色的，但人类文本将是学生选择的颜色。

编辑和修订

当学生走向复习时，他们可以参与 20 分钟的同伴反馈过程：

编辑和修改的一个关键方面是如何提问，“这是如何被接受的？”或者“实际人类如何回应这篇文章？”大多数反馈可能是人类擅长的类型，例如声音、参与度、语气和清晰度。但学生也可以要求聊天机器人提供具体反馈。它可能是这样的，“我怎样才能让我的论点更好？”或者“我可以做一些改变来使文章更流畅。学生可能会与老师进行一对一的写作会议，但随后会回到 AI 以获得额外的有针对性的反馈。

添加多媒体

如果学生想改变他们的论文，他们可以通过做视频或音频论文来增加人情味。您可以给学生提供视频论文的示例，例如新媒体上的一些频道。在这里，他们将图像、视频和文本与独特的人声相结合。他们可能会绘制一些幻灯片来说明关键点，甚至以Common Craft视频的风格制作动画。同样，这种方法将技术与人情味融合在一起。但学生可以使用 AI 作为工具，根据命令提示符生成图像。他们还可能会要求聊天机器人提出图像或视频的想法，以与他们的声音一起使用。

问责制呢？

请注意，这种方法将问责制从监督和惩罚转变为信任和透明度。学生使用 AI 生成的文本，但随后对其进行屏幕截图（然后带有时间戳）并将其复制并粘贴到 Google 文档中。然后，他们使用颜色编码过程修改AI生成的文本，从而可以轻松可视化文本中有多少是人为生成的。在使用这个过程时，我发现学生重新排列了段落，添加了全新的段落，并放大了他们的写作，远远超出了最初的人工智能生成的文本。

我之所以提到这一点，是因为我已经有几个人联系我，问我是否会测试他们的人工智能检测软件。这些程序承诺通过分析一篇文章并检测它是否是人为生成的来检测作弊。在一分钟内，您会收到一个分数，描述 AI 生成了多少工作。把它想象成类固醇的转变。奇怪的是，这些程序是人工智能的一种形式。复杂的算法会查看一系列因素，以确定某些东西是否是人工智能生成的。

它首先检查语义连贯性。人类的思想往往更合乎逻辑，但也包含随机的题外话。换句话说，我们倾向于随机追踪兔子的踪迹。它还着眼于语气和风格。人类作家往往具有独特的风格和基调，这些风格和基调是由他们的经历、个性和背景塑造的，而人工智能生成的写作可能更通用且缺乏个性。我们还使用更多的口语，比如前面提到的兔子踪迹。我们也倾向于更频繁地改变动词时态。最后，这些检测程序查看文本复杂性。人类语言往往比人工智能生成的语言更复杂和多样，后者可能更公式化或重复。人工智能检测器可以分析句子长度、词汇和语法等因素，以确定写作是否与人类语言一致。

我已经测试了其中三个程序，结果很糟糕。我使用了自己未发表的文章，一系列学生作品以及ChatGPT生成的一堆AI提示。然后，我使用了一些包含两者混合的片段。在每种情况下，我发现这些算法在人类与人工智能混合时都很难确定AI生成的提示。但更令人担忧的是，有许多误报。人工智能不断将未发表的人类工作识别为人工智能生成的。

这是一个令人不安的趋势，因为我们想到在人工智能时代“抓骗子”。我们本质上是委托先进的算法来判断学生的学术诚信。想象一下，作为一个完全从头开始写东西的学生，却发现你没有上课并面临学术试用，因为算法在确定什么是人类方面很糟糕。这种方法依赖于监视、检测和惩罚。即使算法在检测人工智能生成的文本方面有所改进，我也不确定这是学校应该强调的方向。

幸运的是，有一种更人性化的问责方法。这是我的教授朋友在第一次听说 ChatGPT 时提出的信任和透明方法。她没有惊慌失措并进入封锁方法，而是问道：“我们如何让学生使用这些工具并让他们的思维可见？

学生使用人工智能的注意事项

如果您登录 ChatGPT，主屏幕会清楚地显示哪些 AI 做得好，哪些做得不好。我喜欢这样一个事实，即这项技术从一开始就清楚地表明了它的一些局限性。但是，关于 ChatGPT 还有一些限制，学生应该考虑。

ChatGPT经常过时。它的神经网络依赖于停止在2021年的信息。这意味着ChatGPT缺乏对新兴知识的理解。例如，当我询问有关俄罗斯和乌克兰的提示时，该回复缺乏有关当前的任何最新信息。
ChatGPT 可能不准确。它将弥补空白。我最近和一位在麻省理工学院工作的人交谈，她描述了她从 ChatGPT 得到的一些不准确的回复。这可能是由于它提取的庞大数据集中的错误信息。但这也可能是人工智能固有创造力的意外后果。当工具有可能生成新内容时，新内容总是可能包含错误信息。
ChatGPT 可能包含有偏见的内容。像所有机器学习模型一样，ChatGPT 可能反映了其训练数据中的偏差。这意味着它可能会给出反映社会偏见的回应，例如性别或种族偏见，即使是无意的。早在2016年，微软就推出了一个名为Tay的AI机器人。几个小时后，Tay开始在Twitter上发布性别歧视和种族主义的咆哮。那么，发生了什么？事实证明，机器学习开始根据与Twitter上的人们的互动来学习人类意味着什么。随着巨魔和机器人向Tay发送令人反感的内容，人工智能学会了种族主义和性别歧视。虽然这是一个极端的例子，但更深入的学习机器总是包含偏见。没有所谓的“中立”人工智能，因为它从更大的文化中提取数据。许多人工智能系统使用安然数据文件作为初始语言训练。这些电子邮件属于公共领域，包含更真实的言论形式。但这也是一种偏向保守派和男性的言论形式，因为安然是一家总部位于德克萨斯州的能源公司。
ChatGPT缺乏上下文知识。虽然 ChatGPT 可以分析给定句子或段落中的单词，但它可能并不总是理解使用这些单词的上下文。这可能会导致响应在技术上是正确的，但在更大的对话中没有意义。如果学生写个人叙述，他们比任何人工智能都更了解上下文。当为校报或博客撰写有关本地问题的文章时，人工智能不会拥有学生新闻团队所展示的本地知识。这就是为什么学生学习如何将知识情境化至关重要的原因。
ChatGPT 需要了解命令提示符。这听起来很简单，但很容易错过。ChatGPT 不是读心器，所以如果学生用它来回答问题，他们需要非常擅长设计他们的命令提示符。
ChatGPT缺乏同理心。 ChatGPT 可能无法理解或识别对话的情感背景。这可能导致不适当或不敏感的反应。因此，当学生将其用于复习过程时，它可能会给出不敏感的反馈。当学生提出问题并参与研究时，它可能缺乏意识和同理心（考虑一个学生
聊天 GPT 缺乏常识：我不知道如何描述这一点，但我在 ChatGPT 上得到的一些答案看起来很愚蠢和荒谬。ChatGPT 的响应完全基于它从文本数据中学到的模式和关联。它可能并不总是具有常识或实践知识来理解对话的背景或提供准确的回答。
ChatGPT可能不环保。深度学习需要巨大的处理能力。随着人工智能变得越来越普遍，它有可能加速气候变化。《连线》杂志这样描述它，“深度学习本质上需要大量的数据，尽管芯片的创新意味着我们可以比以往更快、更高效地做到这一点，但毫无疑问，人工智能研究需要消耗能源。另一方面，某些技术人员将人工智能视为一种潜在的解决方案，以提高电网效率并减少我们共同消耗的能源量。

我们无法预测在一个由人工智能主导的世界里，写作会是什么样子。更深入的学习机器，如ChatGPT，仍处于早期发展阶段。机器学习将在未来几十年变得更加先进和复杂。目前，许多AI工具不能在K-12环境中使用。例如，ChatGPT 要求用户年满 18 岁才能注册。但我们确实知道人工智能正在迅速发展，目前在校外使用的许多工具都将具有符合CIPA和COPPA的教育等效物。