#DALL·E 和 CLIP#、#OpenAI# DALL·E 可以基于文本直接生成图像; CLIP 则能够完成图像与文本类别的匹配。 OpenAI 联合创始人、首席科学家 Ilya Sutskever 表示:人工智能的长期目标是构建「多模态」神经网络,即 AI 系统能够学习多个不同模态的概念(主要是文本和视觉领域),从而更好地理解世界。 而 DALL·E 和 CLIP 使我们更接近「多模态 AI 系统」这一目标。 自带魔法棒的 DALL·E→ 以下是Mixlab 多模态专栏作者:大铮博士的部分专栏内容。今天,我们主要聊聊 DALL·E,如果大家感兴趣,欢迎文末留言,我们再更新关于 CLIP 的介绍。 CHUNFANG:大家最近在聊的热门词儿 DALL·E 是什么?具备什么功能? 大铮:DALL·E 能按照文字的描述,画出十分自然的图像。 目前的模型对于选词比较敏感,官方释出的例子是类似完形填空的形式,给句子中的名词位置挖了空,并提供了候选的词汇。 我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子: 第一个句子是:“一个长得像猪的闹钟”。 于是,DALL·E 生成了这样的图片: https:///blog/dall-e/ 专栏作者:大铮 复旦大学 | 计算机应用技术在读博士 研究:机器学习、深度学习、媒体大数据分析 |
|
来自: Mixlab交叉学科 > 《待分类》