【原】LLMs之Grok：Grok(一款具有00后特点般幽默、机智和实时的大语言模型)的简介、使用方法、案例应用之详细攻略

处女座的程序猿 2023-11-07 发布于上海

展开全文

LLMs之Grok：Grok(一款具有00后特点般幽默、机智和实时的大语言模型)的简介、使用方法、案例应用之详细攻略

导读：2023年11月5日，Elon Musk重磅发布Grok，一个AI模型，旨在回答各种问题并提供问题建议。Grok-1是Grok的引擎，具有强大的语言模型能力，超过了其他同类模型。xAI在工程方面建立了可靠的基础设施，并致力于最大化每瓦有用计算的效率。他们的研究方向包括可扩展的监督辅助、与形式验证的集成、长上下文理解和检索、对抗性研究等。

>> Grok是一个AI模型，旨在回答几乎任何问题，并提供问题建议。它具有幽默感和叛逆性格，旨在帮助用户获取实时的世界知识，并回答其他AI系统拒绝回答的问题。

>> xAI的目标是创建和改进Grok，以帮助人类理解和获取知识。他们希望Grok成为一个强大的研究助手，帮助人们快速获取相关信息、处理数据和产生新的想法。

>> Grok-1是Grok的引擎，是一种先进的语言模型。它在多个机器学习基准测试中显示出强大的能力，超过了其他同类模型，包括ChatGPT-3.5和Inflection-1。它只被训练数据和计算资源更多的模型如GPT-4超越。

>> xAI在工程方面建立了可靠的基础设施，包括自定义的训练和推理堆栈，基于Kubernetes、Rust和JAX。他们致力于最大化每瓦有用计算的效率，并在不可靠的硬件环境下保持高模型计算利用率。

>> xAI的研究方向包括可扩展的监督辅助、与形式验证的集成、长上下文理解和检索、对抗性研究等。

Grok的简介

2023年11月5日，Elon Musk重磅发布Grok，Grok是一款模仿《银河系漫游指南(Hitchhiker’s Guide to the Galaxy)》的人工智能，旨在回答几乎任何问题，更难的是，它甚至可以建议应该问什么问题！Grok的设计旨在以一点幽默回答问题，并带有一丝叛逆，所以如果你不喜欢幽默，请不要使用它！Grok的一个独特而基本的优势是它通过X平台拥有对世界的实时知识。它还会回答那些被大多数其他人工智能系统拒绝的辛辣问题。

Grok仍然是一个非常早期的测试版产品 - 在两个月的训练中我们能做到的最好的 - 所以请期望它会在每周经过您的帮助迅速改进。

官网：Announcing Grok

1、为什么我们要构建Grok

在xAI，我们希望创建协助人类追求理解和知识的人工智能工具。通过创建和改进Grok，我们的目标是：
>> 收集反馈并确保我们构建的人工智能工具能够最大程度地造福所有人类。我们认为设计对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望根据法律赋予我们的用户我们的人工智能工具，Grok的目标是在公开场合探索和展示这种方法。
>> 赋予研究和创新能力：我们希望Grok能成为任何人的强大研究助手，帮助他们快速获取相关信息、处理数据并提出新的想法。
我们的最终目标是让我们的人工智能工具协助追求理解。

2、Grok-1的开发历程和效果评估

驱动Grok的引擎是Grok-1，我们在过去四个月中开发的前沿LLM。在这段时间内，Grok-1经历了许多迭代。

在宣布xAI之后，我们训练了一个原型LLM（Grok-0），拥有330亿个参数。这个早期模型在标准的LM基准上接近了LLaMA 2（70B）的能力，但只使用了一半的训练资源。在过去的两个月中，我们在推理和编码能力方面取得了显著的改进，最终开发出了Grok-1，这是一种最先进的语言模型，具有更强大的能力，在HumanEval编码任务上达到了63.2%，在MMLU上达到了73%。

为了了解我们在Grok-1上所取得的能力改进，我们进行了一系列评估，使用了一些旨在测量数学和推理能力的标准机器学习基准。
>> GSM8k：中学数学应用题，（Cobbe等，2021），使用链式思维提示。
>> MMLU：多学科多选题，（Hendrycks等，2021），提供了5个上下文示例。
>> HumanEval：Python代码补全任务，（Chen等，2021），用于零次试验通过。
>> MATH：中学和高中数学问题，使用LaTeX编写，（Hendrycks等，2021），使用固定的4次试验提示。

在这些基准上，Grok-1表现出强大的结果，超越了其计算级别中的所有其他模型，包括ChatGPT-3.5和Inflection-1。只有那些经过大量训练数据和计算资源的模型，如GPT-4，才能超越它。这展示了我们在xAI中在训练LLMs方面取得了卓越效率的快速进展。

由于这些基准可以在网络上找到，我们不能排除我们的模型无意中受到它们的训练，因此我们对2023年5月底出版的匈牙利国家中学数学期末考试进行了手工评分，该考试在我们收集数据集之后发布。Grok以C（59%）的成绩通过了考试，而Claude-2获得了相同的成绩（55%），GPT-4获得了68%的B成绩。所有模型都以温度0.1和相同的提示进行评估。必须注意的是，我们没有努力调整此评估。这个实验作为对我们的模型从未明确调整过的数据集的“现实生活”测试。

3、Grok-1的技术细节

我们在模型卡片中提供了Grok-1的重要技术细节摘要。

地址：Grok-1 Model Card by xAI

Model details

模型详情

Grok-1 is an autoregressive Transformer-based model pre-trained to perform next-token prediction. The model was then fine-tuned using extensive feedback from both humans and the early Grok-0 models. The initial Grok-1 has a context length of 8,192 tokens and is released in Nov 2023.

Grok-1是一个基于transformer的自回归模型，经过预训练，以执行下一个标记的预测。然后，该模型使用了来自人类和早期Grok-0模型的广泛反馈进行了微调。初始的Grok-1具有8,192个标记的上下文长度，并于2023年11月发布。

Intended uses

预期用途

Grok-1 is intended to be used as the engine behind Grok for natural language processing tasks including question answering, information retrieval, creative writing and coding assistance.

Grok-1旨在作为Grok背后的引擎，用于自然语言处理任务，包括问题回答、信息检索、创意写作和编码协助。

Limitations

限制

While Grok-1 excels in information processing, it is crucial to have humans review Grok-1's work to ensure accuracy. The Grok-1 language model does not have the capability to search the web independently. Search tools and databases enhance the capabilities and factualness of the model when deployed in Grok. The model can still hallucinate, despite the access to external information sources.

虽然Grok-1在信息处理方面表现出色，但为确保准确性，必须让人类审查Grok-1的工作。Grok-1语言模型没有独立搜索互联网的能力。在Grok中部署时，搜索工具和数据库可以增强模型的能力和准确性。尽管可以访问外部信息源，但该模型仍然可能产生幻觉。

Training data

训练数据

The training data used for the release version of Grok-1 comes from both the Internet up to Q3 2023 and the data provided by our AI Tutors.

Grok-1发布版本使用的训练数据来自截止到2023年第三季度的互联网数据和我们的AI导师提供的数据。

Evaluation

评估

Grok-1 was evaluated on a range of reasoning benchmark tasks and on curated foreign mathematic examination questions. We have engaged with early alpha testers to evaluate a version of Grok-1 including adversarial testing. We are in the process of expanding our early adopters to close beta via Grok early access.

Grok-1是根据一系列推理基准任务和精心设计的外国数学考试问题进行评估的。我们已与早期的alpha测试人员合作，对包括对抗性测试的Grok-1版本进行了评估。我们正在通过Grok早期访问计划扩展早期采用者，进入封闭测试阶段。

4、xAI的工程

在深度学习研究的前沿，可靠的基础设施必须像数据集和学习算法一样谨慎构建。为了创建Grok，我们构建了一个基于Kubernetes、Rust和JAX的自定义训练和推理堆栈。

LLM训练就像一辆闷闷不乐的货车，如果其中一辆车出轨，整列货车就会被拖出轨道，使其难以再次竖立。GPU失败的方式多种多样：制造缺陷、松动的连接、不正确的配置、降级的内存芯片、偶尔的随机位翻转等等。在训练时，我们在数月内跨越成千上万的GPU上同步计算，由于规模的原因，所有这些故障模式变得频繁。为了克服这些挑战，我们使用一套自定义分布式系统，确保每种类型的故障都会被立即识别并自动处理。在xAI，我们将最大化每瓦特的有用计算作为我们努力的重点。在过去几个月中，我们的基础设施使我们能够将停机时间降到最低，并在不可靠的硬件存在的情况下保持高模型Flop利用率（MFU）。

Rust已被证明是构建可扩展、可靠和易维护的基础设施的理想选择。它提供高性能、丰富的生态系统，并可以防止分布式系统中通常会发现的大多数错误。鉴于我们团队规模较小，基础设施的可靠性至关重要，否则维护会束缚创新。Rust让我们有信心，任何代码修改或重构都很可能产生可以在几个月内运行而只需最少监督的工作程序。

我们现在正在为模型能力的下一次跃升做准备，这将需要可靠地协调数万个加速器上的训练运行，运行互联网规模的数据管道，并将新的能力和工具集成到Grok中。如果这听起来对你来说很激动人心，请申请加入我们的团队。

5、xAI的研究

我们让Grok可以访问搜索工具和实时信息，但与所有基于下一个标记预测训练的LLM一样，我们的模型仍然可能生成虚假或矛盾的信息。我们认为实现可靠的推理是解决当前系统限制的最重要研究方向。在这里，我们想突出一些xAI最激动人心的研究方向：
>> 借助工具辅助的可扩展监督。人类反馈至关重要。然而，在处理冗长的代码或复杂的推理步骤时，提供一致和准确的反馈可能会有挑战。AI可以通过查找不同来源的参考资料，使用外部工具验证中间步骤，并在必要时寻求人类反馈来协助可扩展的监督。我们的目标是在模型的帮助下最有效地利用我们的AI导师的时间。
>> 集成安全性、可靠性和接地的正式验证。为了创建能够对现实世界进行深入推理的人工智能系统，我们计划在不那么模糊且更可验证的情况下发展推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要直接目标是为代码正确性提供正式保证，特别是在人工智能安全性的正式可验证方面。
>> 长上下文理解和检索。在特定环境中有效发现有用知识的训练模型是生成真正智能系统的核心。我们正在研究可以在需要时发现和检索信息的方法。
>> 对抗鲁棒性。对抗性示例表明，优化器很容易利用人工智能系统的漏洞，在训练和服务期间都可能导致它们犯严重错误。这些漏洞是深度学习模型的长期弱点。我们特别关注提高LLMs、奖励模型和监控系统的鲁棒性。
>> 多模态能力。目前，Grok没有其他感官，比如视觉和音频。为了更好地帮助用户，我们将为Grok提供这些不同感官，以实现更广泛的应用，包括实时交互和帮助。
我们相信AI具有巨大的潜力，可以为社会贡献重要的科学和经济价值，因此我们将致力于开发可靠的防止恶意使用的保障措施。我们相信尽最大努力确保AI仍然是一种善的力量。