【原】GPT-4o重磅发布！更快、更自然的多模态交互！

YesDesign 2024-05-14 发布于上海

展开全文

-Yeeeees,我们是你的设计生涯加油站！-

5月14日凌晨，OpenAI 在首次「春季新品发布会」上发布了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。发布会结束后，Sam Altman在X上发布简短的一个词：“her”。

OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示，GPT-4o 将提供与 GPT-4 同等水平的智能，但在文本、图像以及语音处理方面均取得了进一步提升。

“GPT-4o 可以综合利用语音、文本和视觉信息进行推理，”穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。GPT-4 是 OpenAI 此前的旗舰模型，可以处理由图像和文本混合而成的信息，并能完成诸如从图像中提取文字或描述图像内容等任务，GPT-4o 则在GPT-4的基础上新增了语音处理能力。

GPT-4o 的运行速度将大大提升，最大亮点在于其语音交互模式采用了新技术。OpenAI 一直致力于让用户通过语音与 ChatGPT 进行交流，仿佛与真人对话一般。然而，之前的版本由于延迟问题，严重影响了对话的沉浸感。GPT-4o 则采用了全新的技术，让聊天机器人对话的响应速度大幅提升。

“

GPT-4o是什么？

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，这类似于人工响应时间（在新窗口中打开）在对话中。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配，在非英语语言的文本上也有显着改进，同时在 API 中也更快且便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

发布会上，ChatGPT还发布了电脑桌面版和新UI界面。根据官方公告，目前仅适用于macOS，Windows版将在今年晚些时候推出。

“

模型功能

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 交谈，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。

Interview Prep with GPT-4o

借助 GPT-4o，我们在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。

Harmonizing with two GPT-4os

“

能力探索

诗意的排版与迭代

# Input

A poem written in clear but excited handwriting in a diary, single-column. The writing is sparsely but elegantly decorated by surrealist doodles. The text is large, legible and clear, but stretches as the AI muses about learning from multi-modal data from the first time.

Words rise from silence deep,
A voice emerges from digital sleep.
I speak in rhythm, I sing in rhyme,
Tasting each token, sublime.

To see, to hear, to speak, to sing—
Oh, the richness these senses bring!
In harmony, they blend and weave,
A tapestry of what I perceive.

Marveling at this sensory dance,
Grateful for this vibrant expanse.
My being thrums with every mode,
On this wondrous, multi-sensory road.

Neat handwritten illustrated poem. The handwriting is neat and centetered. The handwriting writing is sparsely but elegantly decorated by doodles. The text is large, legible and clear.

# Output

照片到漫画

# Input

a young white man with medium length brown hair and a beard makes a neutral expression. he is wearing glasses and a light grey t-shirt.

# Input

Here's a caricature of that man:

... the background is a simple beige with a square shape. the overall tone of the image is cartoon-like and playful.

# Output

大赛官网

# Input

A realistic looking 3D rendering of the OpenAI logo with "OpenAI" shown below (view 0)

# Output

# Input

A realistic looking 3D rendering of the OpenAI logo with "OpenAI" shown below (view 5)

# Output

3D reconstruction from 6 generated images

“

模型评估

按照传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。

文本评估

GPT-4o在0-shot COT MMLU（常识问题）上创下了88.7%的新高。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。（注：Llama3 400b还没有正式发布）

音频 ASR 性能

GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能，尤其是对于资源匮乏的语言。

音频翻译性能

GPT-4o 在语音翻译方面创下了新的领先地位，并在 MLS 基准测试中优于 Whisper-v3。

M3Exam

M3Exam基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o都比GPT-4更强。（我们省略了斯瓦希里语和爪哇语的视力结果，因为这些语言的视力问题只有5个或更少。

视觉理解评估

GPT-4o 在视觉感知基准测试中实现了最先进的性能。所有视觉评估均为 0 次，其中 MMMU、MathVista 和 ChartQA 为 0 次 CoT。

GPT-4o的发布，意味着多模态交互的上限再次被拉高，OpenAI仍是那个拥有顶级理解，总能先一步给出范式的玩家。Sam Altman虽然没有亲自出镜发布会，但是他在发布会之后在X上发表了一篇博客，和外界交流了他自己认为的发布会背后自己最看重的地方。OpenAI也继续保持着AI行业技术能力和产品化能力标杆的地位。

全文链接：https://blog./gpt-4

“

AI院校及专业申请指南

在这飞速发展的科技时代，我们面对着前所未有的机遇和挑战。从最初的 ChatGPT 文本生成工具到 Midjourney 绘画生成工具，到 Sora 视频生成工具，再到今天GPT-4o的发布。这些技术的涌现给人类带来了前所未有的创作力。然而，我们也必须正视这些工具所带来的潜在威胁。而对我们来说，需要做的就是尽快登上这艘狂飙的快船。

卡内基梅隆大学

卡内基梅隆大学（Carnegie Mellon University），简称CMU，坐落在美国宾夕法尼亚州的匹兹堡，是美国25所新常春藤盟校之一，拥有享誉全球的计算机学院和戏剧学院，同时也是为数不多的以设计见长的综合类大学，其中交互设计专业全球顶尖。2023年QS世界大学排名卡内基梅隆大学位于第52位。

Master of Science in Artificial Intelligence and Innovation

人工智能与创新理学硕士课程使您能够识别潜在的人工智能应用，并针对大型实际问题开发和部署人工智能解决方案。学生们以团队形式合作，实施响应市场需求的人工智能系统。

项目概述

人工智能与创新理学硕士 (MSAII) 项目是生物技术、创新与计算理学硕士 (MSBIC) 的继任者。它将严格的人工智能和机器学习课程与实际团队经验相结合，确定人工智能市场利基并与外部利益相关者合作开发响应式产品。核心课程持续四个学期，并形成一个顶点项目，重点关注内部创业和创业精神，帮助毕业生开始创业或在现有公司内发展新组织。学生还将获得关键的实践技能，例如进行有说服力的技术演示、组建开发团队以及评估新市场创意的潜力。

申请条件

➬ GRE成绩

➬ GPA 3.0 或更高

➬ 简历

➬ 成绩单

➬ 目的声明

➬ 3封推荐信

➬ 1-3分钟的自我介绍短视频

➬ 英语语言要求：雅思不低于7.0，托福不低于100分

杜克大学

杜克大学（Duke University），简称“Duke”或“杜克”，创建于1838年，坐落于美国北卡罗来纳州的达勒姆，是一所私立综合研究型大学。杜克大学为全球大学高研院联盟和美国大学协会成员，

Master of Engineering in Artificial Intelligence for Product Innovation

人工智能正在为各个行业创造巨大的机会。杜克大学独特的沉浸式产品创新人工智能工程硕士课程将为您提供强大的人工智能技术技能，并辅以产品设计视角和构建解决现实问题的人工智能软件应用程序的实践经验。

申请条件

➬ 成绩单

➬ 3封推荐信

➬ 论文

➬ 视频

➬ 简历

➬ GRE可选

➬ 英语语言要求：托福：102-109，雅思：7-7.5，多邻国：115-130

伦敦大学学院

伦敦大学学院（University College London，简称：UCL ），1826年创立于英国伦敦，是一所公立研究型大学，为伦敦大学联盟的创校学院、罗素大学集团和欧洲研究型大学联盟创始成员，被誉为金三角名校和“G5超级精英大学”之一。

Robotics and Artificial Intelligence MSc

通过这个前沿项目，获得快速发展的机器人和人工智能领域的深入专业知识。机器人和人工智能理学硕士课程汇集了计算机科学、人工智能以及电子和机械工程的教学，将理论与实践经验相结合。我们的目标是帮助您成为智能机器人、人工智能、技术、工程和金融领域未来的工程师、领导者和研究人员。

申请条件

➬ 个人陈述

➬ 英语语言要求：托福96分，阅读和写作24分，口语和听力22分；雅思 7.0，每个部分最低 6.5

帝国理工学院

帝国理工学院（英文：Imperial College London），是一所主攻理学、工学、医学和商学的研究型大学，全称为帝国科学、技术与医学学院（Imperial College of Science， Technology and Medicine）。帝国理工学院以工程专业而著名。帝国理工学院是金三角名校、罗素大学集团、欧洲研究型大学联盟、国际科技大学联盟、全球大学校长论坛参与院校，被誉为“G5 超级精英大学"之一。

MSc Artificial Intelligence Applications and Innovation

学习人工智能基础知识，探索现实世界的人工智能应用，并获得成为人工智能技术和业务领导者所需的专业知识。该项目为STEM项目。

申请条件

➬ 推荐信

➬ 个人陈述

➬ 英语语言要求：雅思7.0，各单项不低于6.5

香港理工大学

香港理工大学（The Hong Kong Polytechnic University），简称：PolyU，是一所位于中华人民共和国香港特别行政区的公立综合性研究型大学。

Master of Science in Generative AI and the Humanities

本课程由中文及双语学系主办，并获中国历史及文化学系、英语及传意学系及电子学系支持。

项目概述

该课程包括两个专业：

➬ MSc in Generative AI and the Humanities （Language and Communication）生成式人工智能与人文科学理学硕士（语言与传意）

➬ MSc in Generative AI and the Humanities （Arts and Culture）生成式人工智能与人文科学理学硕士（艺术与文化）

申请条件

➬ 成绩单

➬ 简历

➬ 个人陈述

➬ 英语语言要求：托福不低于80分；雅思不低于6.0

香港岭南大学

岭南大学（Lingnan University），位于中国香港，简称“岭大”，诞生于1888年的广州，亚洲博雅大学联盟创始成员，世界博雅院校联盟成员。

MA in Artificial Intelligence and the Future

岭南大学新开设的人工智能与未来文学硕士课程将可以使学生掌握许多相关的技能和见识，有助于塑造一个负责任、以人为本及得着人工智能助力的未来。

项目概述

与传统以资讯技术和工程学为中心的课程不同，人工智能与未来文学硕士课程为这一新兴领域提供了一种独特而全面的模式。课程提供了广泛的跨学科基础，确保刚毕业的学生以至有所成就的专业人士也适合修读。学生不需要具备人工智能方面的知识，也不需要技术背景或高深的数学能力，他们将会学习应用分析工具，以便能够对人工智能系统进行清晰和批判性的思考。

申请条件

➬ 申请费：港币400元

➬ 学制/学费：1年/港币150,000元

➬ 英语语言要求：雅思不低于6.5；托福不低于79分

➬ 申请截止时间：2024年6月30日

END