【原】LLMs之OpenAI o1：OpenAI o1的简介、安装和使用方法、案例应用之详细攻略

处女座的程序猿 2024-09-13 发布于上海

展开全文

LLMs之OpenAI o1：OpenAI o1的简介、安装和使用方法、案例应用之详细攻略

导读：OpenAI 推出全新推理模型系列 OpenAI o1，旨在提升 AI 模型的推理能力，使其能够更深入地思考问题，并解决更复杂的任务，尤其在科学、编码和数学领域表现出色。
背景痛点：现有 AI 模型在解决复杂问题时，推理能力不足，难以处理科学、编码、数学等领域中的难题。
解决方案：OpenAI 推出全新推理模型系列 OpenAI o1，旨在提升模型的推理能力，使其能够更深入地思考问题，并解决更复杂的任务。
核心思路步骤:
>> 训练方法：通过训练，模型学习更长时间地思考问题，尝试不同的策略，并识别错误。
>> 推理能力提升：模型能够像人类一样，进行更深入的推理，并解决更复杂的问题。
>> 安全保障：采用新的安全训练方法，利用模型的推理能力，使其更好地遵循安全和对齐准则。
优势：
>> 强大的推理能力：在科学、编码、数学等领域表现出色，例如在国际数学奥林匹克竞赛中取得了优异的成绩。
>> 安全可靠：新的安全训练方法有效提升了模型的安全性和可靠性，并通过严格的测试和评估来确保其安全性。
>> 广泛应用：适用于各种需要推理能力的应用场景，例如医疗研究、物理学研究、软件开发等。
OpenAI o1-mini:
>> 针对开发人员推出的更轻量级推理模型，专注于代码生成和调试。
>> 速度更快，成本更低，适合需要推理能力但不需要广泛世界知识的应用场景。
未来展望:
>> 持续更新模型，并添加更多功能，例如网页浏览、文件和图片上传等。
>> 继续开发和发布 GPT 系列模型，以及 OpenAI o1 系列模型。
总结：OpenAI o1-preview 是 OpenAI 在推理能力方面取得的重大突破，为解决复杂问题提供了新的解决方案。其强大的推理能力、安全可靠性以及广泛的应用场景，使其成为未来 AI 发展的重要方向。

概述

2024年9月12日，OpenAI正式推出流传已久的OpenAI o1-preview，这是一个全新的推理模型系列，用于解决复杂问题。9月12日起正式上线。

我们开发了一系列新的AI模型，旨在在回答问题之前花费更多时间进行思考。这些模型能够推理复杂任务，并解决科学、编码和数学领域中比以往模型更难的问题。

今天，我们在ChatGPT和我们的API中发布了这一系列的首款模型。这是一个预览版，我们预计会定期更新和改进。与此次发布同时推出的，还有正在开发中的下一次更新的评估。

官网地址：https:///index/introducing-openai-o1-preview/

工作原理

我们训练这些模型在回答问题之前花费更多时间思考，类似于人类的思考过程。通过训练，它们学会了改进思维过程，尝试不同的策略，并能够识别错误。

在我们的测试中，下一次模型更新在物理、化学和生物等高难度基准任务中表现与博士生相当。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克（IMO）预选考试中，GPT-4o仅正确解决了13%的问题，而推理模型的正确率达到了83%。在编程能力测试中，该模型在Codeforces竞赛中达到了89百分位。你可以在我们的技术研究文章中了解更多。

作为早期模型，它目前还没有许多使ChatGPT更实用的功能，例如浏览网络获取信息和上传文件及图像。在许多常见场景中，GPT-4o将在短期内表现得更为强大。

但对于复杂推理任务而言，这是一次重大突破，代表了AI能力的新水平。鉴于此，我们将计数重置为1，并将这一系列命名为OpenAI o1。

安全性

在开发这些新模型的过程中，我们采用了一种新的安全训练方法，利用其推理能力，使其遵循安全性和对齐性指南。通过能够在上下文中推理安全规则，它可以更有效地应用这些规则。

我们通过测试模型在用户试图绕过其安全规则时能否继续遵守安全规则（称为“越狱”）来衡量其安全性。在我们最难的越狱测试中，GPT-4o得分为22（满分为100），而我们的o1-preview模型得分为84。你可以在系统卡片和我们的研究文章中了解更多。

为了与这些模型的新能力相匹配，我们加强了我们的安全工作、内部治理以及与联邦政府的合作。这包括使用我们的准备框架（新窗口打开）、一流的红队测试以及董事会层面的审查流程，包括安全与安保委员会的审查。

为了推动我们对AI安全的承诺，我们最近与美国和英国的AI安全机构正式签署了协议。我们已经开始落实这些协议，包括为这些机构提供研究版本的早期访问权限。这是我们合作中的重要第一步，帮助建立研究、评估和测试未来模型的流程，以确保在公开发布之前和之后都能进行审查。

适用对象

这些增强的推理能力在解决科学、编程、数学等领域的复杂问题时可能特别有用。例如，o1可以被医疗研究人员用来标注细胞测序数据，物理学家可以使用它生成量子光学所需的复杂数学公式，开发者可以用它来构建和执行多步骤的工作流程。

OpenAI o1-mini

o1系列擅长准确生成和调试复杂代码。为了为开发者提供更高效的解决方案，我们还推出了OpenAI o1-mini，这是一个更快速、更廉价的推理模型，特别擅长编码。作为一个更小的模型，o1-mini的成本比o1-preview低80%，对于需要推理但不需要广泛世界知识的应用来说，它是一个强大且具有成本效益的模型。

如何使用OpenAI o1

测试地址：https:///?model=o1-preview
API地址：https://platform./playground/chat?models=o1-mini

从今天开始，ChatGPT Plus和团队用户可以在ChatGPT中访问o1模型。o1-preview和o1-mini可以手动在模型选择器中选择。上线时，每周的消息限额分别为30条（o1-preview）和50条（o1-mini）。我们正在努力提高这些限额，并使ChatGPT能够自动为给定提示选择合适的模型。

一个新的ChatGPT下拉菜单的图片，显示了新的“o1-preview”模型选项，背景为亮黄色和蓝色的抽象图案 ChatGPT企业版和教育版用户将在下周获得对这两个模型的访问权限。

符合API使用等级5的开发者（新窗口打开）今天可以在API中开始使用这两个模型进行原型开发，每分钟限额为20次请求。我们将在进一步测试后提高这些限额。当前这些模型的API不包括函数调用、流式传输、系统消息支持等功能。要开始使用，请查看API文档（新窗口打开）。

我们还计划向所有ChatGPT免费用户开放o1-mini的使用权限。