OpenAI连发两则重磅消息,首先ChatGPT可以看、听、说了。 ![]() 新版ChatGPT开启一种更直观的交互方式,可以向AI展示正在谈论的内容。 比如拍一张照片,询问如何调整自行车座椅高度。 ![]() 官方还给出另一个实用场景思路:打开冰箱拍一张照片,询问AI晚餐可以吃什么,并生成完整菜谱。 更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和安卓都支持。 与此同时,多模态版GPT-4V模型更多细节也一并放出。 其中最令人惊讶的是,多模态版早在2022年3月就训练完了…… ![]() 看到这里,有网友灵魂发问:有多少创业公司在刚刚5分钟之内死掉了? ![]() 看听说皆备,全新交互方式更新后的ChatGPT移动APP里,可以直接拍照上传,并针对照片中的内容提出问题。 比如“如何调整自行车座椅高度”,ChatGPT会给出详细步骤。 ![]() 如果你完全不熟悉自行车结构也没关系,还可以圈出照片的一部分问ChatGPT“说的是这个吗?”。 就像在现实世界中用手给别人指一个东西一样。 ![]() 不知道用什么工具,甚至可以把工具箱打开拍给ChatGPT,它不光能指出需要的工具在左边,连标签上的文字也能看懂。 ![]() 提前得到使用资格的用户也分享了一些测试结果。 可以分析自动化工作流程图。 ![]() 但是没有认出一张剧照具体出自哪部电影。 ![]() △认出的朋友欢迎在评论区回复 语音部分的演示还是上周DALL·E 3演示的联动彩蛋。 让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。 ![]() △DALL·E3演示 ChatGPT这次讲的故事文字摘录如下: ![]() 过程中更具体的多轮语音交互细节,以及语音试听可参考视频。 多模态GPT-4V能力大揭秘结合所有公布的视频演示与GPT-4V System Card中的内容,手快的网友已经总结出GPT-4V的视觉能力大揭秘。 ![]()
同时也总结了GPT-4V目前的局限性。
同时System Card中也重点声明了“目前在科学研究和医疗用途中性能不可靠”。 ![]() 另外后续还要继续研究,是否应该让模型识别公众人物,是否应该允许模型从人物图像中推断性别、种族或情感等问题。 有网友已经想好,等更新了要问的第一件事是Sam Altman照片的背包里装的是什么。 ![]() 那么,你想好第一件事问什么了么? 参考链接: — 完 — 量子位 QbitAI · 头条号签约 |
|