分享

GPT-4o,科幻走进现实

 学到老图书馆nd 2024-05-14 发布于湖北
图片
5月14日凌晨,无数人蜂拥进OpenAI的“春季新品发布会”直播间,共同见证OpenAI最新旗舰大模型GPT-4o面世。

GPT-4o的“o”是“omni”的缩写,源自拉丁语“omnis”,表示“全部、一切”之意,我们可以理解为“全知全能”,由此可见OpenAI的野心。

为了帮助大家更通俗易懂地了解GPT-4o,沃垠AI两个角度进行了梳理总结。

第一个角度是基于OpenAI此次发布会和官网发布信息整理13条要点,第二个角度是沃垠AI创始人冷逸从实际应用层面出发,总结的10条观点,分享给大家:

图片
来自冷逸的思考总结

1、GPT-4o的发布,是人工智能多模态能力的一大重要进步,对于全人类而言都是重要进步。

2、AI支持文本、图片(视觉)、音频和视频等多模态输入并不新鲜,Gemini、通义、讯飞都可以做到,但他们多数是通过独立的模型来实现的,而GPT-4o是统一到了一个新模型里,所有输入和输出都是由同一神经网络处理,变革了新的人机交互模式。

3、单论实时对话、翻译,很多工具或许比GPT-4o还做得好,但GPT-4o的惊喜之处在于,它还能理解人类的情绪、语气、语调和语速,这是AI真正的有把自己当人看啊,开始模仿人类的真实反应,仿生人有了雏形。

4、简单说,传统大模型(哎,怎么一下子就变传统了图片)只是让AI有了嘴巴,现在GPT-4o让AI不仅有了嘴巴,还有眼睛、耳朵,就差鼻子了,比《流浪地球》里的Moss还多了2个器官。当然,Moss有量子计算,这是人工智能的核弹技术。

5、4o是人工智能的重大进步。通往AGI的路上,多模态是极其重要的一步。多模态被攻克后,接下来就是计算机理解物理世界和物理规律,推理能力的提升,以及并发计算能力的提升,随着这些技术的突破,将不断逼近AGI。5年之内看到AGI,会非常有可能。

6、这个技术,对机器人是极大利好。只要有摄像头、麦克风,接入GPT-4o,即使手搓的机器人雏形就已经非常智能了。这对机器人产业来说,是来自底层技术的超级大利好。

7、OpenAI开启了一条新的推广模式,即我发布最新产品就免费、开放,这对于很多做底层模型模仿和套壳的公司来说是致命的打击。OpenAI一迭代,就会死一片创业公司,何况现在还免费。

8、难说这个决策,没有受到国内幻方DeepSeek-V2和智谱GLM-3的影响,上个周他们均将自己的API费用降到了1元/百万tokens,而且注册就送千万tokens。这都是中国移动互联网初的老打法了。

9、短期内,手机将是GPT-4o最好的应用载体(目前GPT APP还未开放4o版),想想GPT-4o模型结合智能机的一堆硬件可以做多少事啊,场景太丰富了。目前已上市的所谓AI手机,都将被重新革新。

10、不仅如此,任何1个有摄像头、麦克风的iot设备,都可以接入GPT-4o,做很多有智慧的事。

图片
基于OpenAI发布会和官网的信息梳理

1、OpenAI此次发布的重点主要集中在三个方面:一是发布多模态模型GPT-4o、二是推出ChatGPT新UI、三是推出桌面版GPT。

2、在未来几周内,GPT-4o模型将分阶段集成到OpenAI的各个产品中,免费提供给我们使用。

3、不过,即使是免费,OpenAI也是限制了一定的消息数量的,当我们使用GPT-4o模型超过一定的消息数之后,模型就会被切换回GPT-3.5。但如果我们是付费用户的话,拥有的GPT-4o消息数上限就是免费用户的五倍。

4、目前,GPT-4o可以支持包括中文在内的20种语言
图片
图片
图片

5、比起GPT-4,GPT-4o的优势在于它更擅长打组合拳,可以处理文字、音频、图像的任意组合输入,然后生成对应的组合来进行回答,包括通过语音来回答。

6、在传统的基准测试中,GPT-4o在文本、推理和编码智能等方面,都达到了GPT-4 Turbo级别的性能,而在多语言、音频和视觉能力方面,则是创下了新高。

  • 文本评估
图片

GPT-4o在0次COT MMLU上创下了88.7%的新高;在传统的5次无CoT MMLU上,GPT-4o创下了87.2% 的新高。(注:Llama3 400b仍在训练中)

  • 音频ASR性能
图片

GPT-4o在所有语言上显著提高了语音识别性能,尤其是对于资源匮乏的语言。

  • 音频翻译性能
图片

在语音翻译方面,GPT-4o创下了新的好成绩,并处于领先地位,它在MLS基准测试中的表现也优于Whisper-v3。

Whisper-v3是由OpenAI开发并开源的语音识别模型。它是Whisper 系列模型的最新版本,专门用于自动语音识别,即把人类的语音转换成书面文本。

  • M3Exam零样本结果

图片

GPT-4o在M3Exam基准测试中,表现出来的结果比GPT-4更强。

M3Exam基准测试,由来自其他国家标准化考试的多项选择题组成,包括多语言评估和视觉评估。

  • 视觉理解评估

图片

GPT-4o在视觉感知基准测试中达到了最先进的水平,所有视觉评估均为0次,其中MMMU、MathVista和 ChartQA为0次CoT。

7曾经,我们通过语音和GPT-3.5对话的平均延迟是2.8秒,和GPT-4对话的平均延迟是5.4秒,之所以有这么长的延迟,是因为模型逻辑是:先通过一个简单模型将音频转录为文本—GPT-3.5GPT-4接收文本后再输出文本—接着由另一个简单模型将文本转换成音频。中间转来转去的,又容易丢失信息,所以才会存在延迟,以及无法输出类似于人类的情感表达。


8、现在,我们通过语音和GPT-4o对话的平均响应时间是300毫秒,基本和人类的反应速度一致。这是因为GPT-4o的所有输入和输出都在该模型中由同一神经网络进行处理,不像GPT-3.5或GPT-4一样需要转来转去的,没有了“中间商赚差价”自然就更快、更及时了。

9、在直播间演示和官网发布的场外演示中,我们可以发现,GPT-4o能够随时加入或打断人们的对话,而且它也能识别说话人的情绪、语调,然后根据场景或人们的指令生成各种不同的语调、情绪的声音来进行回复,哪怕要求它唱歌也是可以的。

我们可以通过手机摄像头、实时共享屏幕等方式,让GPT-4o扫描各种视觉信息,实现和它的视频互动,这种交互方式就类似我们和GPT-4o进行“视频通话”,而GPT-4o会像人类一样和我们聊天。

Brockman让两个ChatGPT互相对话,在01:28时,一个女人出现在了Brockman身后,而GPT-4o也看到了这个女人,并且告诉了Brockman,女人做了哪些小动作。

在Brockman简单调试之后,两个ChatGPT直接根据刚才的对话开始了对唱,并且唱得还不错。


10虽然情感识别和输出确实是GPT-4o所展现出来的一种强大的能力,但它潜力并不止于此。我们还可以把它用于文字处理、图像内容描述、图片文字提取、生成HTML代码、分析交易数据寻找物理地址、甚至草拟法律文件等场景。

图片

11、OpenAI官网的功能展示一些GPT-4o的应用场景,我们选取了部分予以展示:

  • 生成3D动图
图片

  • 诗歌排版
图片

  • 照片生成漫画
图片
图片
图片
图片

  • 照片设计成电影海报(还是上面那两张照片)
图片

  • 为GPT-4o设计纪念币
图片

  • 设计字体

图片
图片
12、开发者可以在API里同步使用GPT-4o,价格是GPT-4 Turbo的一半,速度是GPT-4 Turbo的两倍。虽然,当前GPT-4o的API不直接包含语音功能,但OpenAI计划在未来约一个月内向Plus用户推出基于GPT-4o改进的语音体验。

13、最后,让吃瓜群众津津乐道的是,OpenAI抢在谷歌I/O大会前一天发布GPT-4o的行为跟“下战帖”没什么两样,不知道谷歌看完今天的发布会是什么心情?有没有“压力山大”?坐等明天谷歌的“回击”了。图片

图片
官网地址:
https://chat./
GPT-4o官方介绍:
https:///index/hello-gpt-4o/
直播回放:
https://www./watch?v=DQacCB9tDaw

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多