看点｜Claude 3超越GPT-4！擅长推理、数学、编码，教育变革比想象中来得更快

课程教学研究 2024-03-05 发布于浙江

展开全文

Claude或在教育领域有更多的可能性。

美国人工智能初创公司Anthropic 周一宣布，推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。这三种模型在推理、数学、编码、多语言理解和视觉方面成绩亮眼，树立了新的行业标准。

Anthropic称：“每个模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。”

Anthropic称，Opus在行业基准测试中表现优于OpenAI的GPT-4和谷歌的Gemini Ultra，比如在推理、数学和编码能力，接近人类的理解能力。

Claude 3是多模态大模型，提供复杂视觉功能，可以处理各种视觉格式，包括照片、图表、图形和技术图表。

Claude 3可以应用于需要高度智能和复杂任务处理的场景，如企业自动化、复杂金融预测、研究和开发、教育辅导等。

更好的推理、数学、编码能力，意味着Claude 3在教育领域有更多的可能性。教育领域的变革，或许比想象中来得更快。

亚马逊云旗下的生成式AI服务Amazon Bedrock之前已经接入了Claude，服务于全球客户。很快，客户将使用 Claude 3模型，以进一步推动快速创新。

亚马逊云举例，韩国的电信公司和无线运营商KT开发了一项名为AI Call Report 的服务，该服务可以改善家校互通。

具体来看，AI Call Report 使用Amazon Bedrock 上的Claude来实时记录（在同意的情况下）、总结和翻译教师、学生和家长之间的通话，从而改善教师能够专注于与学生和家庭的互动，并最大限度地减少以前的手动和费力的过程。该服务将于今年三月韩国新学年开始时在学校推出。

再如，对话式人工智能公司Perplexity AI，它在 Bedrock 上使用Claude 2 来快速测试和部署对其一般问答功能的改进，提供听起来更自然的回复，并构建新功能。

Claude 3强在哪里？

Anthropic称，Opus在人工智能系统的大多数常见评估基准上都优于同行，包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性。

Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务。

Claude 3 有200k的对话长度，相当于能够单次处理超过15万英文单词，而GPT-4 Turbo的上下文窗口为128k，约9.6万个英文单词。

Haiku相应速度快，它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文（约 10k 代币）。未来正式发布有望进一步提高性能。

Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高，它擅长执行需要快速响应的任务，例如知识检索或销售自动化；Opus 的速度与 Claude 2 和 2.1 相似，但智能水平更高。

Opus和Sonnet周一已经向159个国家和地区开放，而Haiku将在未来几周内推出。

（Claude的模型家族）

视觉能力突出

Claude 3 擅长复杂视觉功能，他们可以处理各种视觉格式，包括照片、图表、图形和技术图表。比如一些客户的知识库各种格式排版，例如 PDF、流程图或演示幻灯片。

值得注意的是，Claude 3不生成图像；但它允许用户上传图像和其他文档进行分析。Claude 3能够“认”出来图里的是什么东西，直接描述，回答用户的问题，这和GPT-4l类似。

（用Claude 3进行数据分析）

更高的准确性

大模型的幻觉问题一直是行业难题之一，即有时候会一本正经的胡说八道。

Anthropic则将答案分为正确答案、错误答案（或幻觉）和承认不确定性，如果不知道，模型表示它不知道答案，而不是提供不正确的信息。

Anthropic提到，与 Claude 2.1 相比，Opus 在这些具有挑战性的开放式问题上的准确性（或正确答案）提高了一倍，同时也减少了错误答案的水平。

除了产生更值得信赖的回复之外，未来，Anthropic还将在 Claude 3 模型中启用引用，以便他们可以指向参考材料中的精确句子来验证他们的答案。

从OpenAI离开，走了不同的道路

Anthropic创始人Daniela Amodei和Dario Amodei均是OpenAI前高层，后者曾是OpenAI的研究副总裁，他们当初离开OpenAI是不满依附于微软，他们于2021年创立该公司，目标是开发与OpenAI竞争的生成式人工智能模型。该公司也是OpenAI之外最受关注的人工智能公司。

在过去的一年时间里，Anthropic完成了五笔不同的融资交易，总额约为73亿美元，该公司在去年12月底估值达到了184亿美元，投资者包括谷歌、Salesforce和亚马逊等。

Claude与ChatGPT从一开始就走了不同的道路。

在模型训练上，Claude与ChatGPT虽然都是靠强化学习(RL)来训练偏好模型，并进行后续微调。

但是，在训练方法上，Claude又与ChatGPT略有不同，ChatGPT采用人类反馈强化学习（RLHF），Claude采用的原发人工智能方法，是基于偏好模型而非人工反馈来进行训练的，因此，这种方法又被称为“AI反馈强化学习”，即RLAIF。

底层的不同，造成了 Claude与ChatGPT有不同的体验。

来源｜多知网

作者｜Penny