![]() 打开ChatGPT,页面直接变成了下图,可以直接和它对话了。 听到你说话后,它还可以直接语音回复。 不仅如此,现在给ChatGPT发图,它也可以看懂了。 如何调低自行车座椅呢? ChatGPT看到自行车图后,就会给出方法: 如果您有工具,请展示给我看,我会进一步指导您。 ChatGPT:不,那不是杠杆,而是螺栓。松开后,调整座椅高度,然后再次拧紧螺栓。在骑车之前,请确保座椅是直的,并且是牢固的。 那应该用什么工具呢?直接把工具箱的工具拍给ChatGPT,问:这是我的手册和工具箱,我有正确的工具吗?它会告诉你。 ChatGPT:是的,您的工具是正确的。在工具箱的左侧部分,有一套标有 'DEWALT '的工具。在这套工具中,找到 4 毫米内六角(六角)钥匙。用它拧松座椅座圈上的螺栓,调整座椅高度。之后记得将其拧紧。 最后就可以完成自行车座椅调整。 消息以及应用案例一出,网友评价,刚刚五分钟,很多初创公司会因此而死。 ChatGPT是如何实现语音交互能力的呢? ChatGPT使用了一个新的文本到语音模型,可以根据给定的文本和几秒钟的语音样本,生成类似真人的语音输出。 此外,它还集成了开源语音识别系统Whisper,能够准确把用户的语音输入转换成文本。 为使语音更加丰富多样,ChatGPT还与专业声音演员合作,创造了五种不同风格的语音。这些能力加强了ChatGPT与用户的自然语音交互,使对话更加流畅和接近人类交流。 不过OpenAI表示,虽然 Whisper 可以在英语以外的语言中使用,但不鼓励在其他语言中使用,尤其是那些没有拉丁字符的语言。 而ChatGPT实现“看”的能力,就得益于GPT-4 with vision(GPT-4V),一个大型多模态语言模型,能够处理图像和文本输入,并生成文本输出。。 GPT-4V(ision) 模型是在 GPT-4 模型的基础上,增加了图像处理模块,该模块能够从图像中提取特征,并将这些特征与文本特征结合起来进行处理。 虽然GPT-4V很强大,但是OpenAI 警告不要在敏感场景中使用 GPT-4V。在 GPT-4V(ision) 的系统卡中,OpenAI 将该模型的图像识别描述为 '不可靠'。 例如,在分析化学结构时,它错误地识别了芬太尼、卡芬太尼和可卡因等物质,但有时也能正确识别毒蘑菇等危险成分。 该模型容易产生幻觉,并能以权威的口吻陈述不正确的事实。'论文称:'这表明该模型并不可靠,不应被用于任何高风险任务,如识别危险化合物或食品。 在医学上,GPT-4V(ision)同样不可靠。 尽管有瑕疵,但新版ChatGPT还是完成了进化! 不过对于永不满足的网友来说,已经在期待输入视频了...... |
|