LLMs之OpenAI o1:OpenAI o1的简介、安装和使用方法、案例应用之详细攻略
概述2024年9月12日,OpenAI正式推出流传已久的OpenAI o1-preview,这是一个全新的推理模型系列,用于解决复杂问题。9月12日起正式上线。 我们开发了一系列新的AI模型,旨在在回答问题之前花费更多时间进行思考。这些模型能够推理复杂任务,并解决科学、编码和数学领域中比以往模型更难的问题。 今天,我们在ChatGPT和我们的API中发布了这一系列的首款模型。这是一个预览版,我们预计会定期更新和改进。与此次发布同时推出的,还有正在开发中的下一次更新的评估。 官网地址:https:///index/introducing-openai-o1-preview/ 工作原理我们训练这些模型在回答问题之前花费更多时间思考,类似于人类的思考过程。通过训练,它们学会了改进思维过程,尝试不同的策略,并能够识别错误。 在我们的测试中,下一次模型更新在物理、化学和生物等高难度基准任务中表现与博士生相当。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)预选考试中,GPT-4o仅正确解决了13%的问题,而推理模型的正确率达到了83%。在编程能力测试中,该模型在Codeforces竞赛中达到了89百分位。你可以在我们的技术研究文章中了解更多。 作为早期模型,它目前还没有许多使ChatGPT更实用的功能,例如浏览网络获取信息和上传文件及图像。在许多常见场景中,GPT-4o将在短期内表现得更为强大。 但对于复杂推理任务而言,这是一次重大突破,代表了AI能力的新水平。鉴于此,我们将计数重置为1,并将这一系列命名为OpenAI o1。 安全性在开发这些新模型的过程中,我们采用了一种新的安全训练方法,利用其推理能力,使其遵循安全性和对齐性指南。通过能够在上下文中推理安全规则,它可以更有效地应用这些规则。 我们通过测试模型在用户试图绕过其安全规则时能否继续遵守安全规则(称为“越狱”)来衡量其安全性。在我们最难的越狱测试中,GPT-4o得分为22(满分为100),而我们的o1-preview模型得分为84。你可以在系统卡片和我们的研究文章中了解更多。 为了与这些模型的新能力相匹配,我们加强了我们的安全工作、内部治理以及与联邦政府的合作。这包括使用我们的准备框架(新窗口打开)、一流的红队测试以及董事会层面的审查流程,包括安全与安保委员会的审查。 为了推动我们对AI安全的承诺,我们最近与美国和英国的AI安全机构正式签署了协议。我们已经开始落实这些协议,包括为这些机构提供研究版本的早期访问权限。这是我们合作中的重要第一步,帮助建立研究、评估和测试未来模型的流程,以确保在公开发布之前和之后都能进行审查。 适用对象这些增强的推理能力在解决科学、编程、数学等领域的复杂问题时可能特别有用。例如,o1可以被医疗研究人员用来标注细胞测序数据,物理学家可以使用它生成量子光学所需的复杂数学公式,开发者可以用它来构建和执行多步骤的工作流程。 OpenAI o1-minio1系列擅长准确生成和调试复杂代码。为了为开发者提供更高效的解决方案,我们还推出了OpenAI o1-mini,这是一个更快速、更廉价的推理模型,特别擅长编码。作为一个更小的模型,o1-mini的成本比o1-preview低80%,对于需要推理但不需要广泛世界知识的应用来说,它是一个强大且具有成本效益的模型。 如何使用OpenAI o1测试地址:https:///?model=o1-preview 从今天开始,ChatGPT Plus和团队用户可以在ChatGPT中访问o1模型。o1-preview和o1-mini可以手动在模型选择器中选择。上线时,每周的消息限额分别为30条(o1-preview)和50条(o1-mini)。我们正在努力提高这些限额,并使ChatGPT能够自动为给定提示选择合适的模型。 一个新的ChatGPT下拉菜单的图片,显示了新的“o1-preview”模型选项,背景为亮黄色和蓝色的抽象图案 ChatGPT企业版和教育版用户将在下周获得对这两个模型的访问权限。 符合API使用等级5的开发者(新窗口打开)今天可以在API中开始使用这两个模型进行原型开发,每分钟限额为20次请求。我们将在进一步测试后提高这些限额。当前这些模型的API不包括函数调用、流式传输、系统消息支持等功能。要开始使用,请查看API文档(新窗口打开)。 我们还计划向所有ChatGPT免费用户开放o1-mini的使用权限。 未来计划这是这些推理模型在ChatGPT和API中的早期预览。除了模型更新,我们预计还将增加浏览、文件和图像上传等功能,使其对所有用户更加实用。 我们还计划继续开发和发布GPT系列的模型,以及新的OpenAI o1系列模型。 |
|