获取GPT入门指南! 大家好,我是五竹。 今天再来和大家聊聊GPT大文本投喂。说投喂之前先科普一个重要的概念:token。 什么是token呢?解释起来很晦涩难懂,我也说不清楚。你只要知道对于很多AI大模型来说,输入和输出的文本都会被切分成一系列的 token 进行处理。token 可以是一个汉字、一个单词、甚至是一个标点符号。 做GPT二次开发的都知道,token越多,GPT接口调用的成本越高,所以某种意义上来说token又是钱。 那么文本和token之间的转换关系呢?下面是我粗略的估算:一个简体中文字相当于2个token;一个繁体中文字相当于3个token;一个普通的英文单词相当于1个token,例如(love算一个token); 而GPT3.5上下文支持的最大token是16K,折算成中文差不多8000个字,也就是在一个对话框中,前后内容超过了8000字后,GPT对上下文的理解就开始错乱,我经验告诉我,上限更低,不到6000就开始胡言乱语了。GPT4.0上下文支持的最大token是32K,相当于1.6万个中文。 再说另外一种场景,GPT单次可接收的最大中文数量是多少呢?我查了很多资料,也没有一个明确的说明,下面是GPT4.0自己的回答。
|
|