分享

你即将看到的这篇文章也许是人工智能写的

 西北望msm66g9f 2020-02-16

By 超神经

我们就快到了「宁愿相信世上有鬼,也不相信 AI 的破嘴」的时代,人工智能又在 NLP 领域进化到了新的巅峰。

比人还会编的 AI 来了

给一个开头,让对方接着写出后面的故事,也许会难倒一些人,那如果交给 AI , 它们可以做到多优秀呢?

今天,OpenAI 公布了一个自动文本生成模型,能够写出「真实感」十足的文章。

人为的给出开头,这个 AI 模型就能快速的补充成一篇完整的稿子。至于文字的可读性和流畅度,不提前告知的话,也许你都猜不出这是 AI 所作。

比如给他这样一个开头:科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英文。

这个 AI 模型生成的文章如下(部分):

这些生物有着独特的角,科学家们就以此为它们命名,叫Ovid’s Unicorn。长着四只角的银白色生物,在这之前并不为科学界所知。

……

虽然,这些生物的起源还不清楚,但有些人相信,它们是一个人和一个独角兽相交而诞生的,那时人类文明还不存在。Pérez教授说:“在南美洲,这样的现象很常见。”

……

如果要确认它们是消失种族的后裔,DNA检测可能是唯一的方法。

它除了能够写出以假乱真的文稿,还具备阅读理解、问答、生成文章摘要、翻译文本等能力。

翻译:从法语到英语

数据集:WMT-14 Fr-En

原句

Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau.

人工

One man explained that the free hernia surgery he’d received will allow him to work again.

AI 翻

A man told me that the operation gratuity he had been promised would not allow him to travel.

AI 模型翻译实例

这个 AI 有点强

这个 AI 模型被称为 GPT-2 ,它是 GPT 的「升级版」。而它的残暴之处在于,这一次运用了更多的训练数据,和上一版的原理一样,但 GPT-2 是对 GPT 模型的直接放大,它在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。

通过分析输入的文本,GPT-2 可以执行基本的文本处理功能,它擅长语言建模任务,该任务就是让程序通过预测,给出句子中下一个单词的能力。随便给它一个标题, AI 就能完美的写下文章的其余部分,甚至还能附上假引号和统计数据。

有人这么说它,「想要一篇短篇小说?只要给它第一行,就能得到一个意料之外又不乏精彩的故事。如果有正确的提示,它甚至可以写出长篇小说。」

训练 GPT-2 的目标很简单:给定文本中前面的词语,去预测接下的词句。而训练数据集的多样性,却使得它可以完成大量不同领域的文本生成。

虽然技术上没有新的地方,但人家有矿产级别的训练,这也是为什么会造出了怪兽级别的新工具。

OpenAI 的研究人员表示,在各种特定领域数据集的语言建模测试中,GPT-2 都取得了优异的评定分数。作为一个没有在任何领域数据专门训练过的模型,它的表现,比那些特意打造的模型还要好。

NLP 崛起的时代?

几个月前谷歌推出的语言模型  BERT 引发了业内的广泛关注,一时间内不断刷屏,其 3 亿参数量刷新 11 项纪录的成绩让人赞不绝口。但 OpenAI 这次推出的 GPT -2 更为要命,它达到了 15 亿参数。

与以前最先进的人工智能模型相比,GPT2模型「大 12 倍,数据集 大 15倍,涉及范围也更广」。它是在一个包含大约 1000 万篇文章的数据集上进行训练的,这些文章是通过 Reddit 上投票超过3票的新闻链接而选出的。所训练的文本数据多达 40GB !

在 BERT 血洗 NLP(自然语言处理)各项顶级指标之前,OpenAI 的 GTP 就站在了一流高手之列,而新出的 GPT-2 通过海量的训练数据也直接把这一领域带到了新的高度。

有了 BERT 和 GPT-2 ,NLP 的道路肯定会红红火火,至于说怎么样更好的造福人类,这还是一个慎重的话题。

艾伦人工智能研究所的研究人员 Ani Kembhavi 表示,对GPT-2 感到兴奋的一个原因是,预测文本可以被认为是计算机的「超级任务」,一旦解决了这个挑战,将开启智慧的大门。

会是潘多拉魔盒吗?

遗憾的是,这么强大的工具暂时还不能公布出来。而背后的考虑是它可能会带来的隐患问题,比如生成假新闻,恶意评论,制造垃圾邮件等等。这样的武器用在非法的途径,造成的后果也是灾难级的。

对于这个方面,开发者也感到了担忧。OpenAI 的研究人员说到他们无法预测会带来什么。目前他们仍在探索之中。出于种种原因,他们对项目所分享的内容非常谨慎,目前对主要的基础代码和培训数据不予公开。

他们指出谨慎的另一个原因在于,如果有人提供 GPT-2 关于种族主义,暴力,厌恶女性或辱骂性的文本,将造成很危险的局面。毕竟,它是依赖于互联网训练的。

不否认这项技术将带来巨大的变革,但任何一个工具,在图谋不轨者的手中,都会带来灾难性的后果。

而且由于 GPT-2 所写的文本都是新生成的,不存在复制粘贴的问题,用以往的检测手段中更难发现和排查,这将会是一个潜在的威胁。

那么,关键的问题来了,这篇文章是 AI 写出来的吗?

历史文章(点击图片阅读)

AI 不上位,合作写代码才是正道

GANs 千万条,安全第一条

三次元的世界里,机械臂的手活儿无敌了

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多