分享

看点|Claude 3超越GPT-4!擅长推理、数学、编码,教育变革比想象中来得更快

 课程教学研究 2024-03-05 发布于浙江

Claude或在教育领域有更多的可能性

美国人工智能初创公司Anthropic 周一宣布,推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。这三种模型在推理、数学、编码、多语言理解和视觉方面成绩亮眼,树立了新的行业标准。

Anthropic称:“每个模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。

Anthropic称,Opus在行业基准测试中表现优于OpenAI的GPT-4和谷歌的Gemini Ultra,比如推理、数学和编码能力,接近人类的理解能力。

Claude 3是多模态大模型,提供复杂视觉功能,可以处理各种视觉格式,包括照片、图表、图形和技术图表。

Claude 3可以应用于需要高度智能和复杂任务处理的场景,如企业自动化、复杂金融预测、研究和开发、教育辅导等。

更好的推理、数学、编码能力,意味着Claude 3在教育领域有更多的可能性。教育领域的变革,或许比想象中来得更快。

亚马逊云旗下的生成式AI服务Amazon Bedrock之前已经接入了Claude,服务于全球客户。很快,客户将使用 Claude 3模型,以进一步推动快速创新。

亚马逊云举例,韩国的电信公司和无线运营商KT开发了一项名为AI Call Report 的服务,该服务可以改善家校互通。

具体来看,AI Call Report 使用Amazon Bedrock 上的Claude来实时记录(在同意的情况下)、总结和翻译教师、学生和家长之间的通话,从而改善教师能够专注于与学生和家庭的互动,并最大限度地减少以前的手动和费力的过程。该服务将于今年三月韩国新学年开始时在学校推出。

再如,对话式人工智能公司Perplexity AI,它在 Bedrock 上使用Claude 2 来快速测试和部署对其一般问答功能的改进,提供听起来更自然的回复,并构建新功能。

01

Claude 3强在哪里?

Anthropic称Opus在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性。

图片

Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务。

Claude 3 有200k的对话长度,相当于能够单次处理超过15万英文单词,而GPT-4 Turbo的上下文窗口为128k,约9.6万个英文单词。

Haiku相应速度快,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k 代币)。未来正式发布有望进一步提高性能。

Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅长执行需要快速响应的任务,例如知识检索或销售自动化;Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

Opus和Sonnet周一已经向159个国家和地区开放,而Haiku将在未来几周内推出。

图片

Claude的模型家族

02

视觉能力突出

Claude 3 擅长复杂视觉功能,他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。比如一些客户的知识库各种格式排版,例如 PDF、流程图或演示幻灯片。

值得注意的是,Claude 3不生成图像;但它允许用户上传图像和其他文档进行分析。Claude 3能够“认”出来图里的是什么东西,直接描述,回答用户的问题,这和GPT-4l类似。

图片

(用Claude 3进行数据分析)

03

更高的准确性

大模型的幻觉问题一直是行业难题之一,即有时候会一本正经的胡说八道。

Anthropic则将答案分为正确答案、错误答案(或幻觉)和承认不确定性,如果不知道,模型表示它不知道答案,而不是提供不正确的信息。

Anthropic提到,与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误答案的水平。

除了产生更值得信赖的回复之外,未来,Anthropic还将在 Claude 3 模型中启用引用,以便他们可以指向参考材料中的精确句子来验证他们的答案。

04

从OpenAI离开,走了不同的道路

Anthropic创始人Daniela Amodei和Dario Amodei均是OpenAI前高层,后者曾是OpenAI的研究副总裁,他们当初离开OpenAI是不满依附于微软,他们于2021年创立该公司,目标是开发与OpenAI竞争的生成式人工智能模型。该公司也是OpenAI之外最受关注的人工智能公司。

在过去的一年时间里,Anthropic完成了五笔不同的融资交易,总额约为73亿美元,该公司在去年12月底估值达到了184亿美元,投资者包括谷歌、Salesforce和亚马逊等。

Claude与ChatGPT从一开始就走了不同的道路。

在模型训练上,Claude与ChatGPT虽然都是靠强化学习(RL)来训练偏好模型,并进行后续微调。

但是,在训练方法上,Claude又与ChatGPT略有不同,ChatGPT采用人类反馈强化学习(RLHF),Claude采用的原发人工智能方法,是基于偏好模型而非人工反馈来进行训练的,因此,这种方法又被称为“AI反馈强化学习”,即RLAIF。

底层的不同,造成了 Claude与ChatGPT有不同的体验。

来源多知网 

作者Penny

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多