分享

GPT投喂大文本的3种方法!99%的人不知道!

 勇无止境879 2024-01-30 发布于广西

获取GPT入门指南!

大家好,我是五竹。

今天再来和大家聊聊GPT大文本投喂。说投喂之前先科普一个重要的概念:token。

什么是token呢?解释起来很晦涩难懂,我也说不清楚。你只要知道对于很多AI大模型来说,输入和输出的文本都会被切分成一系列的 token 进行处理。token 可以是一个汉字、一个单词、甚至是一个标点符号。

做GPT二次开发的都知道,token越多,GPT接口调用的成本越高,所以某种意义上来说token又是钱。

那么文本和token之间的转换关系呢?下面是我粗略的估算:一个简体中文字相当于2个token;一个繁体中文相当于3个token一个普通的英文单词相当于1个token,例如(love算一个token);

而GPT3.5上下文支持的最大token是16K,折算成中文差不多8000个字,也就是在一个对话框中,前后内容超过了8000字后,GPT对上下文的理解就开始错乱,我经验告诉我,上限更低,不到6000就开始胡言乱语了GPT4.0上下文支持的最大token是32K,相当于1.6万个中文。

再说另外一种场景,GPT单次可接收的最大中文数量是多少呢?我查了很多资料,也没有一个明确的说明,下面是GPT4.0自己的回答。

图片
但从实际测试来看,大概2500~2800之间。超过这个字数,GPT要么直接报错,要么默认不读取超过的内容。
那么对于大文本又该如何投喂呢?下面分享三个方法。
1.分段投喂。下面是分段投喂的指令
稍后,我会投喂给你一篇文章,但文章的内容太长,我将分三次投喂,投喂结束后,你要等待我的要求,对文章做进一步的处理。你明白了吗?
图片
图片
图片
不过,对于GPT3.5来说,这个指令不稳定!
2.将文档整理出TXT,投喂给GPT。此方法也只适用于Plus用户,但是效果一般。
图片
3.以本地知识库的形式集成到GPTs中
图片
目前我知道的方法就只有这三种,欢迎大家留言补充~文中如有不足之处,还请批评指正!

我是五竹,一位持续探索自媒体副业的大龄程序员。不算优秀,但贵在真实。咱们下篇见~。

既然都看到这了,文末点个赞呗,您随手的一个赞,能让五竹开心一整天图片,谢谢各位读者大大图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多