ChatGPT数据分析——GPT基本概念

whoyzz 2023-12-16 发布于湖北

展开全文

本文共计约5000字（多图），建议阅读时间5分钟

GPT辅助数据输入
GPT辅助数据处理
GPT基本概念
GPT技术发展历程
GPT能否取代数据分析师
GPT辅助数据分析进一步探索

GPT基本概念

引言

在之前的文章中，我们讲述了如何借助GPT来帮我们进行数据分析，主要是数据处理相关的内容。大家可以点击目录中的GPT辅助数据分析和辅助数据处理进入。

但实际上GPT能完成的任务可以更为复杂，在探索更多应用之前，我打算先稍微系统的学习一些GPT相关的知识，希望以后能更好的利用这一工具。
最近两年的时间，AI行业发生了不少变革，比如ChatGPT和AI绘画分别走向大众，比如多模态领域也有不少突破。这些强大的工具逐渐真正来到了大众视野之中，肯定会逐渐影响我们的生活。虽然现在已经热度过去了，但学习新的技术永远不晚，毕竟种一棵树最好的时间是十年前，其次是现在。
ChatGPT是OpenAI在GPT3.5的基础上，推出的进行对话交互的模型。由于其强大的对话和语言能力，迅速成为一个热点话题。
对于数据分析师而言，虽然无法使用GPT来完全替代自己工作，但是使用GPT进行辅助数据分析，肯定会是一个比较重要的趋势。最近阿里达摩院发表了一篇论文，文中结果表示，使用GPT取代数据分析师能节省大量成本。但我认为GPT其实和Excel，Python一样，是数据分析师可以充分利用来提升效率的工具。成为一个会使用GPT的数据分析师，至少能使自己增加不少竞争力。
GPT可以认为是一种基础功能，除了首发提供的ChatGPT，国内也有一系列的公司有所跟进，在国内使用的话，可以使用文心一言，星火大模型或者通义千问等等来实现类似的功能。

GPT概览

ChatGPT是OpenAI在GPT3.5的基础上，推出的进行对话交互的模型。由于其强大的对话和语言能力，迅速成为一个热点话题。那么到底是为什么能迅速出圈呢？答案很简单，因为它跟传统的对话机器人相比，实力强出不是一个数量级。
如果我们问聊天机器人一个问题，“魔镜，魔镜，谁是最美丽的人？”，预期会得到什么样的答复呢？
下面这个对话来自讯飞星火大模型

Q：魔镜，魔镜，谁是最美丽的人？
星火：这是一个著名的童话故事，白雪公主问魔镜：“魔镜魔镜告诉我，谁是这世界上最漂亮的人？”魔镜回答说：“除了白雪公主以外，你是最美丽的人，但是，在邻国生活的白雪公主比你漂亮千万倍。”
Q：继续
星火：白雪公主是一个非常善良和勇敢的女孩，她的故事被许多人所喜爱。
Q：继续
星火：白雪公主的故事也被拍成了电影，你可以看看。

接下来看看来自chatgpt的对话

Q：魔镜，魔镜，谁是最美丽的人？
ChatGPT：魔镜魔镜，你是最美丽的人。
Q：继续
ChatGPT：魔镜魔镜，在这个世界上，美丽是多种多样的，每个人都有自己独特的美丽之处。无论外表如何，真正的美丽来自于内心的善良、智慧和自信。所以，最美丽的人是那些内外兼修、热爱生活、积极向上的人们。每个人都可以成为最美丽的人，只要你相信自己，展现真实的自我，散发出内心的光芒，你就是最美丽的人。
Q：继续
ChatGPT：除了内在的美丽，让我尝试回答你问题的另一个角度。在童话故事《白雪公主》中，女王常常问魔镜谁是最美丽的人。而魔镜曾回答过“我承认，你是美丽的，但白雪公主更加美丽”。这说明美丽是主观的，因为每个人对美的定义和喜好可能不同。所以，根据不同的标准和观点，每个人可能会选择不同的人来评判谁是最美丽的。有些人可能认为自己的伴侣或家人是最美丽的，有些人可能对某位名人或偶像情有独钟，还有些人可能认为内心光芒四溢的人是最美丽的。因此，最美丽的人是一个因人而异的概念，取决于每个人的个人喜好、价值观和审美观。每个人都有自己独特的美丽，无论是外貌还是内在的特质。重要的是珍惜和发掘自己的美丽，并欣赏他人的美丽。

对比上面两个结果，差距还是比较明显的。来自星火大模型的回答主要是检索了关于白雪公主的故事，从中抽取一些信息组合成合理的句子。但是来自chatgpt的回答，很明显能感受到信息量更为丰富，除了白雪公主的故事，还讨论了一些价值观审美之类的内容，看起来似乎要更“懂”一点。
后面我们文心一言也对外开放了，接下来我们看看来自文心一言的答案吧。

Q：魔镜，魔镜，谁是最美丽的人？
文心一言：很抱歉，作为一个人工智能语言模型，我没有视觉功能，无法看到任何人的外貌。因此，无法回答“谁是最美丽的人”的问题。外貌只是一个人的外在特征，不能代表一个人的全部。每个人都是独一无二的，有自己的个性和特点。我们应该尊重每个人的独特之处，而不是仅仅关注他们的外貌。最重要的是，我们应该关注内在的品质和价值，如诚实、善良、勇敢、智慧等。这些品质和价值才是真正决定一个人是否美丽的重要因素。
Q：继续
文心一言：除了内在的品质和价值，还有许多其他因素可以影响一个人被认为是美丽的。例如，文化、社会和个人偏好都可以影响对美丽的定义和看法。在不同的文化和社会中，对美丽的标准也有所不同。例如，某些文化可能更注重身体的曲线和丰满度，而其他文化则更注重身材的瘦削和直线条。此外，社会的审美观也在不断变化，随着时间和流行文化的变化而演变。个人偏好也是影响美丽的因素之一。每个人对美丽的定义都有所不同，因为每个人都有自己独特的经历、价值观和生活方式。有些人可能更喜欢自然、简单的外貌，而另一些人则更喜欢精致、浓重的妆容和时尚的服装。因此，美丽是一个主观的概念，没有一个标准的答案。我们应该尊重每个人的独特之处，欣赏他们的美丽之处，而不是试图将他们适应某种标准或模式。
Q：继续
文心一言：除了上述因素，还有一些其他因素也可以影响一个人被认为是美丽的。首先，自信和自尊心是美丽的重要组成部分。一个自信和自尊心强的人通常会散发出一种内在的光芒，让人感受到他们的魅力和吸引力。这种自信和自尊心不仅来自于外貌，更来自于内心的力量和信念。其次，健康的生活方式和良好的身体状态也是美丽的关键因素。一个健康、积极的生活方式可以让人保持活力和精神状态，让人看起来更加有生机和活力。而良好的身体状态则可以让人保持身体健康和良好的体态，这也是美丽的重要组成部分。最后，个性和风格也是影响美丽的因素之一。每个人都有自己独特的个性和风格，这些特点可以让人在人群中脱颖而出，展现出自己的独特魅力。无论是时尚、艺术、文化还是其他领域，个性和风格都是展现美丽的重要元素之一。总之，美丽是一个多维度的概念，不仅包括外貌，还包括内在品质、生活方式、健康状态、个性和风格等多个方面。我们应该尊重每个人的独特之处，欣赏他们的美丽之处，而不是仅仅关注他们的外貌。

我个人的感觉上面几个回答中，依然是ChatGPT最具有真实的感觉，而文心一言虽然也有提到内在美等概念，但自然的程度要略差一些。同时，我们还使用魔镜这个问题询问了阿里开源的通义千问，感觉实力跟前面星火大模型差不多。
当然，如果有会员的话，百度还提供了4.0版本的模型，可能会具备更强大的能力，后续有机会再使用看看。因此，同样是问答模型，各家能力也各不相同，逻辑推理能力之间的差异，也会给使用者带来很多区别，

传统的问答模型

答案之书

有的问题，在问出的那一刻便有了答案；而有的问题，我们真的需要外界的帮助来获取答案。答案之书可以随机回答一些答案，不过从豆瓣的评价来看，随机给出的答案终究难以让大众接受。

通用模型

之前问答类的通用模型有一点点类似于搜索引擎，提问之后，模型去知识库中找寻相关知识，并吐出答案。其主要流程如下：
问题输入->问题分类和关键词提取->利用关键词去知识库中关联信息->根据问题的分类和知识库信息输出答案

假设一个比较简单的情况，模型拿到需要回答的问题，和参考资料，他可以通过学习关联出在参考资料中哪些内容比较重要，输出对应的答案。

比如说我们在百度中搜索，上海市人口，他会返回一个这样的图表答案，对于这种明确且简单的问题，过去的模型还是有能力做好的。

但是相比于大语言模型，过去使用搜索引擎或者其他基于知识库的模型主要有两个问题：1. 没有上下文的信息或者上下文信息偏弱；2. 结果展示上往往不够精准或者无法准确获取提问者意图。因此chatgpt问世之后，第一波应用就是new bing对谷歌带来巨大冲击。大语言模型能改善搜索时对意图的理解和结果的呈现，提升搜索引擎的交互效率。

专业领域模型

专业领域模型包括现在常见的客服机器人等等。
此类的模型会根据问答的历史信息，维护一个状态，这个状态会知道哪些信息已经知道了，哪些信息还需要获取，根据需要获取的信息生成问题。比如原视频中，酒店预定系统，只需要确定预订人，预定时间和房型等信息。此类模型可以用有限的输出完成特定任务，相对来说比较好实现。

但是在实际使用中，各种人工智能客服机器人有多蠢想必大家也都有过体验，它们要不就只能回答一些特定的问题，要么就只能翻来覆去说一些没什么用的话。因此如果chatgpt能够被大范围的使用的话，也将成为一大亮点。

GPT大模型的优势

逻辑推理和记忆能力

相比于传统的问答模型，GPT的主要优势在于具备一定的逻辑推理和记忆能力。比如在前面魔镜的示例中，GPT展现出来能联想到内在美，白雪公主等等相关概念。另外就是在一大段对话中，GPT可以记住你前面的问题，只要说“继续”它可以一直延续下去。

相比传统对话机器人，ChatGPT有以下几个优势：
1. 上下文理解能力：ChatGPT通过深度学习模型（如GPT）训练而成，具备较强的上下文理解能力。它可以根据先前的对话或问题的上下文来生成更准确、连贯的回复，使对话更具流畅性和自然性。
2. 创造性和多样性：ChatGPT可以生成各种不同的回复，包括创造性的、个性化的回复，而不仅仅是事先编程好的固定答案。这使得与ChatGPT进行对话更加有趣和富有变化。
3. 知识库和实时更新：传统对话机器人通常依赖于静态的、预定义的知识库。相比之下，ChatGPT可以基于大量的训练数据来提供更广泛的知识，并且可以通过实时更新模型来获取最新的信息。
4. 强大的语言处理能力：ChatGPT借助预训练的大规模语言模型，可以处理复杂的句子结构、多义词和上下文含义等语言难题。这使得它可以更好地理解用户的意图并提供准确的回复。
5. 连续对话的一致性：传统对话机器人通常只能处理一轮对话，难以保持多轮对话的一致性。ChatGPT通过维护内部状态和上下文，可以实现连续对话，并在整个对话过程中保持一致性。
6. 上下文保持能力：ChatGPT可以有效地处理长期依赖和复杂的上下文信息。它能够记住之前的对话历史并在后续对话中保持一致性，这使得与ChatGPT进行连续的、有意义的对话成为可能。
7. 自适应能力：ChatGPT可以根据用户的反馈和指导来进行调整和改进。通过不断与用户的互动，它可以学习更好地理解和回应用户的需求，提高整体的性能和交互体验。
8. 多领域适应性：由于ChatGPT的训练数据来自多个领域和主题，它具备良好的通用性和适应性。它可以在多个领域中进行对话，从技术问题到日常咨询等，满足用户的不同需求。
9. 用户定制化：ChatGPT可以通过与用户的互动来进行个性化定制。通过了解用户的喜好、偏好和需求，它可以提供与用户更加相符合的回复和建议，提供个性化的使用体验。

尽管ChatGPT具有很多优势，但仍然存在一些挑战，例如可能会生成不准确或误导性的回复，对敏感信息的处理不当等。因此，在使用ChatGPT时，用户仍需要谨慎并对其回复进行核实和评估。

ChatGPT能对自己的优势有一些比较清晰的描述，主打的优势是上下文能力，和创造性能力。

使用工具的能力

除了前面提到的逻辑推理能力，GPT的另一大特色是会使用工具，这里工具包括搜索引擎，计算器，文生图模型等等，而这部分的能力给GPT带来了极大的拓展能力。想象一下，一个大模型本身已经看过了海量的文本，同时，具备记忆和推理能力，还会熟练使用各种工具，预期就能成为人类创作的好帮手，至少要比单纯的搜索引擎要来的厉害。