GPT-4o，科幻走进现实

学到老图书馆nd 2024-05-14 发布于湖北

展开全文

5月14日凌晨，无数人蜂拥进OpenAI的“春季新品发布会”直播间，共同见证OpenAI最新旗舰大模型GPT-4o面世。

GPT-4o的“o”是“omni”的缩写，源自拉丁语“omnis”，表示“全部、一切”之意，我们可以理解为“全知全能”，由此可见OpenAI的野心。

为了帮助大家更通俗易懂地了解GPT-4o，沃垠AI从两个角度进行了梳理总结。

第一个角度是基于OpenAI此次发布会和官网发布信息整理的13条要点，第二个角度是沃垠AI创始人冷逸从实际应用层面出发，总结的10条观点，分享给大家：

来自冷逸的思考总结

1、GPT-4o的发布，是人工智能多模态能力的一大重要进步，对于全人类而言都是重要进步。

2、AI支持文本、图片（视觉）、音频和视频等多模态输入并不新鲜，Gemini、通义、讯飞都可以做到，但他们多数是通过独立的模型来实现的，而GPT-4o是统一到了一个新模型里，所有输入和输出都是由同一神经网络处理，变革了新的人机交互模式。

3、单论实时对话、翻译，很多工具或许比GPT-4o还做得好，但GPT-4o的惊喜之处在于，它还能理解人类的情绪、语气、语调和语速，这是AI真正的有把自己当人看啊，开始模仿人类的真实反应，仿生人有了雏形。

4、简单说，传统大模型（哎，怎么一下子就变传统了

）只是让AI有了嘴巴，现在GPT-4o让AI不仅有了嘴巴，还有眼睛、耳朵，就差鼻子了，比《流浪地球》里的Moss还多了2个器官。当然，Moss有量子计算，这是人工智能的核弹技术。

5、4o是人工智能的重大进步。通往AGI的路上，多模态是极其重要的一步。多模态被攻克后，接下来就是计算机理解物理世界和物理规律，推理能力的提升，以及并发计算能力的提升，随着这些技术的突破，将不断逼近AGI。5年之内看到AGI，会非常有可能。

6、这个技术，对机器人是极大利好。只要有摄像头、麦克风，接入GPT-4o，即使手搓的机器人雏形就已经非常智能了。这对机器人产业来说，是来自底层技术的超级大利好。

7、OpenAI开启了一条新的推广模式，即我发布最新产品就免费、开放，这对于很多做底层模型模仿和套壳的公司来说是致命的打击。OpenAI一迭代，就会死一片创业公司，何况现在还免费。

8、难说这个决策，没有受到国内幻方DeepSeek-V2和智谱GLM-3的影响，上个周他们均将自己的API费用降到了1元/百万tokens，而且注册就送千万tokens。这都是中国移动互联网初的老打法了。

9、短期内，手机将是GPT-4o最好的应用载体（目前GPT APP还未开放4o版），想想GPT-4o模型结合智能机的一堆硬件可以做多少事啊，场景太丰富了。目前已上市的所谓AI手机，都将被重新革新。

10、不仅如此，任何1个有摄像头、麦克风的iot设备，都可以接入GPT-4o，做很多有智慧的事。

基于OpenAI发布会和官网的信息梳理

1、OpenAI此次发布的重点主要集中在三个方面：一是发布多模态模型GPT-4o、二是推出ChatGPT新UI、三是推出桌面版GPT。

2、在未来几周内，GPT-4o模型将分阶段集成到OpenAI的各个产品中，免费提供给我们使用。

3、不过，即使是免费，OpenAI也是限制了一定的消息数量的，当我们使用GPT-4o模型超过一定的消息数之后，模型就会被切换回GPT-3.5。但如果我们是付费用户的话，拥有的GPT-4o消息数上限就是免费用户的五倍。

4、目前，GPT-4o可以支持包括中文在内的20种语言。

5、比起GPT-4，GPT-4o的优势在于它更擅长打组合拳，可以处理文字、音频、图像的任意组合输入，然后生成对应的组合来进行回答，包括通过语音来回答。

6、在传统的基准测试中，GPT-4o在文本、推理和编码智能等方面，都达到了GPT-4 Turbo级别的性能，而在多语言、音频和视觉能力方面，则是创下了新高。

文本评估

GPT-4o在0次COT MMLU上创下了88.7%的新高；在传统的5次无CoT MMLU上，GPT-4o创下了87.2% 的新高。（注：Llama3 400b仍在训练中）

音频ASR性能

GPT-4o在所有语言上显著提高了语音识别性能，尤其是对于资源匮乏的语言。

音频翻译性能

在语音翻译方面，GPT-4o创下了新的好成绩，并处于领先地位，它在MLS基准测试中的表现也优于Whisper-v3。

Whisper-v3是由OpenAI开发并开源的语音识别模型。它是Whisper 系列模型的最新版本，专门用于自动语音识别，即把人类的语音转换成书面文本。

M3Exam零样本结果

GPT-4o在M3Exam基准测试中，表现出来的结果比GPT-4更强。

M3Exam基准测试，由来自其他国家标准化考试的多项选择题组成，包括多语言评估和视觉评估。

视觉理解评估

GPT-4o在视觉感知基准测试中达到了最先进的水平，所有视觉评估均为0次，其中MMMU、MathVista和 ChartQA为0次CoT。

7、曾经，我们通过语音和GPT-3.5对话的平均延迟是2.8秒，和GPT-4对话的平均延迟是5.4秒，之所以有这么长的延迟，是因为模型逻辑是：先通过一个简单模型将音频转录为文本—GPT-3.5或GPT-4接收文本后再输出文本—接着由另一个简单模型将文本转换成音频。中间转来转去的，又容易丢失信息，所以才会存在延迟，以及无法输出类似于人类的情感表达。

8、现在，我们通过语音和GPT-4o对话的平均响应时间是300毫秒，基本和人类的反应速度一致。这是因为GPT-4o的所有输入和输出都在该模型中由同一神经网络进行处理，不像GPT-3.5或GPT-4一样需要转来转去的，没有了“中间商赚差价”自然就更快、更及时了。

9、在直播间演示和官网发布的场外演示中，我们可以发现，GPT-4o能够随时加入或打断人们的对话，而且它也能识别说话人的情绪、语调，然后根据场景或人们的指令生成各种不同的语调、情绪的声音来进行回复，哪怕要求它唱歌也是可以的。

我们可以通过手机摄像头、实时共享屏幕等方式，让GPT-4o扫描各种视觉信息，实现和它的视频互动，这种交互方式就类似我们和GPT-4o进行“视频通话”，而GPT-4o会像人类一样和我们聊天。

Brockman让两个ChatGPT互相对话，在01:28时，一个女人出现在了Brockman身后，而GPT-4o也看到了这个女人，并且告诉了Brockman，女人做了哪些小动作。

在Brockman简单调试之后，两个ChatGPT直接根据刚才的对话开始了对唱，并且唱得还不错。

10、虽然情感识别和输出确实是GPT-4o所展现出来的一种强大的能力，但它潜力并不止于此。我们还可以把它用于文字处理、图像内容描述、图片文字提取、生成HTML代码、分析交易数据寻找物理地址、甚至草拟法律文件等场景。

11、OpenAI官网的功能展示一些GPT-4o的应用场景，我们选取了部分予以展示：

生成3D动图

诗歌排版

照片生成漫画

照片设计成电影海报（还是上面那两张照片）

为GPT-4o设计纪念币

设计字体

12、开发者可以在API里同步使用GPT-4o，价格是GPT-4 Turbo的一半，速度是GPT-4 Turbo的两倍。虽然，当前GPT-4o的API不直接包含语音功能，但OpenAI计划在未来约一个月内向Plus用户推出基于GPT-4o改进的语音体验。

13、最后，让吃瓜群众津津乐道的是，OpenAI抢在谷歌I/O大会前一天发布GPT-4o的行为跟“下战帖”没什么两样，不知道谷歌看完今天的发布会是什么心情？有没有“压力山大”？坐等明天谷歌的“回击”了。

官网地址：

https://chat./

GPT-4o官方介绍：

https:///index/hello-gpt-4o/

直播回放：

https://www./watch?v=DQacCB9tDaw

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：学到老图书馆nd > 《AI》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

学到老图书馆nd

关注对话

TA的最新馆藏

数学老师卖萌出谜语，语文老师也甘拜下风！快来挑战你的智商吧！
超慢跑：小步幅、低心率、高步频的训练精髓与健康益处
颈动脉狭窄斑块，2个月后基本消失？关键是做好了这五件事！
200个谜语脑筋急转弯大全，快来挑战一下吧！
高血压科普
根除幽门螺杆菌，2 种药就够了！

喜欢该文的人也喜欢更多

热门阅读换一换