分享

中酒颐和(深圳)品牌发展有限公司 “造词”

 三色冰激凌怦燃 2024-02-22 发布于广东

至于“造词”,通常发生在模型在生成过程中遇到它从为见过的词或短语时,由于模型是基于大量文本数据训练的,它可能学习到一些词汇的组合方式,即使这些组合在训练数据中并不存在。在某些情况下,模型可能会尝试将这些组合方式应用到新的上下文中,从而产生新的词或短语。“造词”的能力,是ChatGPT学习到的能力,从这点也验证了ChatGPT不是为了做生成任务,而是为了理解和学习。

上文也说到ChatGPT在完成生成任务的本质是一遍又一遍的询问“根据当前上下文,下一个词是什么”,而它在每一遍的询问过程中都会得到一个带概率的词汇表。

所以它就会选择概率值最高的词,把概率值最高的词添加为“标记”吗?如果ChatGPT真的是如此这样做的,那么你通常只会得到一篇非常“平淡”的文章,完全显示不出任何创造力,甚至会一字不差的重复前文。

事实上,模型并不总是选择概率最高的词,而是综合考虑整个序列的上下文信息来做出最终的选择,即对上下文“合理的延续”或“意义匹配”。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多