搜索

分享

QQ空间 QQ好友新浪微博微信

调什么自行车？ChatGPT 再度进化！能看，能听，还能说，大招还在后面

洪澜 2023-09-27 发布于美国

展开全文

文丨Congerry

OpenAI又深夜放大招，ChatGPT现在可以看，听和说话了！

打开ChatGPT，页面直接变成了下图，可以直接和它对话了。

听到你说话后，它还可以直接语音回复。

不仅如此，现在给ChatGPT发图，它也可以看懂了。

如何调低自行车座椅呢？

ChatGPT看到自行车图后，就会给出方法：

1. 找到座管底部（车架正上方）的快速释放杆或螺栓。

2. 如果有快速释放杆，打开它。如果是螺栓，则需要一把内六角扳手。

3. 将座椅向下滑动到所需高度。

4.拧紧快速释放杆或螺栓，将座椅固定到位。

5 骑车前，确保座椅平直，不会晃动。

如果您有工具，请展示给我看，我会进一步指导您。

如果你不分不清快速释放杆，同样可以拍照给它，问：（圈住的地方）是快速释放杆吗？

ChatGPT：不，那不是杠杆，而是螺栓。松开后，调整座椅高度，然后再次拧紧螺栓。在骑车之前，请确保座椅是直的，并且是牢固的。

那应该用什么工具呢？直接把工具箱的工具拍给ChatGPT，问：这是我的手册和工具箱，我有正确的工具吗？它会告诉你。

ChatGPT：是的，您的工具是正确的。在工具箱的左侧部分，有一套标有 'DEWALT '的工具。在这套工具中，找到 4 毫米内六角（六角）钥匙。用它拧松座椅座圈上的螺栓，调整座椅高度。之后记得将其拧紧。

最后就可以完成自行车座椅调整。

消息以及应用案例一出，网友评价，刚刚五分钟，很多初创公司会因此而死。

ChatGPT是如何实现语音交互能力的呢？

ChatGPT使用了一个新的文本到语音模型，可以根据给定的文本和几秒钟的语音样本，生成类似真人的语音输出。

此外，它还集成了开源语音识别系统Whisper，能够准确把用户的语音输入转换成文本。

为使语音更加丰富多样，ChatGPT还与专业声音演员合作，创造了五种不同风格的语音。这些能力加强了ChatGPT与用户的自然语音交互，使对话更加流畅和接近人类交流。

不过OpenAI表示，虽然 Whisper 可以在英语以外的语言中使用，但不鼓励在其他语言中使用，尤其是那些没有拉丁字符的语言。

而ChatGPT实现“看”的能力，就得益于GPT-4 with vision（GPT-4V），一个大型多模态语言模型，能够处理图像和文本输入，并生成文本输出。。

GPT-4V(ision) 模型是在 GPT-4 模型的基础上，增加了图像处理模块，该模块能够从图像中提取特征，并将这些特征与文本特征结合起来进行处理。

虽然GPT-4V很强大，但是OpenAI 警告不要在敏感场景中使用 GPT-4V。在 GPT-4V(ision) 的系统卡中，OpenAI 将该模型的图像识别描述为 '不可靠'。

例如，在分析化学结构时，它错误地识别了芬太尼、卡芬太尼和可卡因等物质，但有时也能正确识别毒蘑菇等危险成分。

该模型容易产生幻觉，并能以权威的口吻陈述不正确的事实。'论文称：'这表明该模型并不可靠，不应被用于任何高风险任务，如识别危险化合物或食品。

在医学上，GPT-4V(ision)同样不可靠。

尽管有瑕疵，但新版ChatGPT还是完成了进化！

不过对于永不满足的网友来说，已经在期待输入视频了......

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：洪澜 > 《技术创新》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

洪澜

关注对话

TA的最新馆藏

蔡澜：人绝对可以貌相
爷爷每多活一天，就能为家里带来566元的收入…
胜利纪念日：俄罗斯如何将战争灌进奶瓶？
湖北一业委会主任侵占公共收益40万元换届后拒绝交账并潜逃落网后获刑
出国旅行不可缺少的一个证件：IDP国际驾照。
特务

喜欢该文的人也喜欢更多

热门阅读换一换