【原】即梦AI表现力如何？

王智远同学 2024-09-15 发布于北京

展开全文

文：王智远 | ID:Z201440

你用过AI文生图、文生视频吗？

从年初Sora视频生成模型推出后，国内大公司，字节、快手，纷纷推出了自己的产品。

从个人效率角度来说，我之前没怎么想过用生成图片、视频；虽然试过很多次，但发现，现在生成的图片质量还达不到商业使用标准，如果真要用，可能还要用设计软件二次加工。

说到剪映，大家应该都很熟悉。一提到它，就会想到剪视频。因为它简单好用，许多专业做视频的人都把它作为首选。

几个月前，剪映Dreamina把中文名改为「即梦」，还加入了很多新功能，比如用AI制作图片和视频，还有故事创作。刚开始我对新功能不是很感兴趣，但这两天，在剪视频过程中，又体验了一下。

发现有亮点，也有缺点，那么，表现力究竟如何呢？

首先，即梦AI主界面还是保持了剪映的简单风格，整体布局分成左右两部分。

左边给创作者用的工具，你可以在这里调整模型，设置提示词、控制镜头，还能选择画面大小、生成次数等；右边用来预览生成的视频和图片；点击任何一个图片或视频，你都可以再次编辑或重新生成，这非常符合我们工作的习惯。

我特别喜欢「HD超清」和「细节修复」两个功能，它们能让生成的画面看起来更真实。

主页下面，有一个用户社区。这里分成灵感和短片两大类，每类下面都有用户上传的各种风格的作品。

比如：在灵感类别里，有国风美学、海报设计、动漫游戏、未来科技、绘本插画；短片类目现在还没有细分。我觉得这种分类，是为了更好地展示作品，让用户找到自己感兴趣的内容。

我比较喜欢写真人像类别，不知道它以后是不是能辅助摄影师做修图使用。

大致看了看社区的作品，质量挺高的。大多数图片和短片点开后，都可以直接下载，还会显示一些提示词，你可以直接复制使用，大多数提示词是中文，这表明国产AI软件对中文的理解能力已经很不错了。

它一共分为四个能力，即：图片生成、智能画布、视频生成、故事创作。

我先试了生成图片功能。用时，得输入一段描述文字，选一个模型（我用最新的即梦通用 V2.0，还是beta版），等几秒钟，系统就会出来四张AI生成的图片；如果看着不顺眼，还可以再编辑或者重新生成。

这些图片，你还可以拿来当参考，进一步调整人物的长相、景深和姿势，甚至还能局部重画，或者直接用这个图片去生成视频。

我让Kimi帮我写了一个提示词，用来描述一个女性，内容如下：

一个金色波浪长发的女性，穿着白色蕾丝长裙，站在有古典风格的室内，背景是柔和的自然光，看起来既梦幻又精致。她的眼神深邃，表情温柔，好像在讲一个古老又美丽的故事。图片的细节丰富，色彩鲜明，光影处理得也很细腻，给人一种高级的感觉。

尺寸我选择3:4，大概15秒就出来了4张不同的AI图片。

从一个外行的角度看，我觉得这些图片有点像动漫风格；可能因为那个“梦幻而精致的写真风格”的关键词。所以，我微调了一下，加上了中国人、接地气。

后来出现的效果，如上述对比，你觉得怎么样？

个人认为还算可以，AI表现力相对稳定；不只试了人像，其他类型也试过，都能准确生成。不过在细节上，有时候会有点小瑕疵。

02‍

说完文生图，第二点，聊聊即梦AI的图生图功能。

所谓图生图。即，上传一张图片，AI会根据这张图片的风格、色彩和内容作为参考，然后生成一些新的、创意的图像。

这不是简单地复制原图，而是在原图的基础上加入创新。

手头没有合适的图片，我就拿自己开玩笑了。我用一张我个人的形象照作为底图，在选择参考时，选了「人物长相」。

接着，我让Kimi Chat帮我写了个指令，想让它生成一张专业形象的照片。提示词是这样的：

“穿着一套剪裁得体的商务西装，展现出专业的形象。”

注意了：当你进行图生图，上传不同的照片时，要选择合适的模型。这里有通用1.4、2.0和2.0 Pro可选。对于人像，我选择了1.4这个模型。

这个模型的描述是，它能从摄影写实到描绘风格都做得很好，主要是用来处理人像的，它可以根据需求，在写实和风格化之间找到平衡，呈现出你想要的人像效果。

所以，它人像能力应该比较强，整个过程挺快的，不到30秒就出来四张图。

第一次生成的时候，嘴部有点扭曲，我点击「细节修复」来局部调整；但说实话，生成的图片和我个人还是差挺远的。

不能就此断定模型不好，我又试了一次，在原图基础上，我改了提示词为：做出加油动作，然后做鬼脸，吐舌头并眨右眼，它生成的结果是第三张。

朋友们，这看着像吗？看来人像能力的确有点拉胯啊。

没关系，换个场景试试。

美国有个网络红人叫握拳宝宝（Sammy Griner）。我下载了他的一张照片，用来做背景图。这次选择的模型是即梦通用XL Pro，精细度调到了八。

提示词是这样的：

做出加油的动作，然后做鬼脸，吐舌头并眨右眼。下面是AI生成的，我精修过的图片。

我觉得这次效果还不错，因为原图分辨率不高，我以为它最多只能识别出脸部轮廓，没想到它能生成这么清晰的照片。

然后，我又试了一个新的指令，在AI生成的图片基础上，我加了新的提示词，稍微难一点：

“请生成一幅现实主义风格的图像，画一个五岁的男孩在春天的公园里。他手里拿着一个五彩斑斓的风筝，做出加油的动作，然后做鬼脸，吐舌头并眨右眼；背景是绿油油的草地和远处模糊的蓝天。”

这个提示词挺复杂的，包括现实主义风格、特定年龄的人物、服装细节、动作和背景环境。最后生成的第三张图，我觉得效果还可以。

需要注意，那张图是经过「细节处理」和「超清处理」后才达到的效果，所以，这是文生图和背景图的结合，背景上还加了新的提示词，最后的结果经过两次编辑才完成的。

虽然处理后的图片里，孩子没有吐舌头和眨眼，但绿油油的草地和远处模糊的蓝天还是被保留了。

因此，可以说，即梦AI的图生图模型，在控制整体画面上做得不错，但在细节处理上还有提升的空间；这可能是因为它没有足够多的图片来进行训练。

除此外，我没有对影视1.4和通用2.0模型进行测试；根据官方描述，影视1.4模型主要用于处理影视风格的多重叙事，通用2.0模型则是针对更精准的描述词，适用于多样的风格组合。

我认为，这两个模型应该是针对特定场景设计的，你可以试试看。

03‍

它的第三个能力叫做智能画布。什么是智能画布呢？

想象一下，你有一张照片。上传到智能画布后，就可以自由地编辑和修改这张照片，还能加入各种元素，这个功能的主要目的是让创作过程变得直观又高效。

智能画布虽然和图生图有点像，但还是有区别。它不只是简单地生成新图片，更像是一个高级编辑工具；它能实时响应你的需求，让你能深度定制和创意地表达自己的想法。

我试了一下，下载一张月球的照片来重绘。

上传后，我有两个选项：一是直接重绘图片本身的细节，二是输入提示词来指导重绘。

我选择了第一种，用的画笔比较粗，结果生成的细节太粗糙了；所以，我把画笔调细到20，再试了一次，但效果还是不太理想；不过，当我用上「HD无损超清」和「细节修复」功能后，效果就好多了。

所以，给想试智能画布的朋友们提个醒：虽然它的生成效果和效率都不错，但局部重绘的功能还有问题。

以月球细节为例，如果你自己选择重绘的范围，可能会得到一些风格很奇怪的图片。

它的处理逻辑是先整体再细节，我猜这可能是因为局部重绘没有输入关键词的选项，所以AI得自己猜测重绘的风格，而这个猜测的准确率并不是很高。

此外，即梦AI的扩图功能很强大，你可以不停地扩展图片。在扩图时，输入关键词就能指导扩图，我给它输入了关键词「更大」，结果生成的照片如第三张，视觉广阔了，下面出现一个小人。

如果不输入关键词，AI就会按照原图的风格来进行扩图。

据此，可以说，智能画布能力比图生图能力强，局部处理能力比较弱；尽管如此，智能画布功能整体上为用户提供了一个强大而灵活的创作可能，所以，用户可以更加自由的基于图片，表达创意。

04‍

那么，即梦AI第四个能力是什么呢？AI视频生成。

这可是重头戏。生成视频的方式，跟生成图片差不多，也是分成两种模式：文本生成视频\图片生成视频。

如果是文本生成视频，你只要通过简单的文本描述，AI就能制作出一段视频；除了描述内容外，你还可以选择运镜模式、视频的播放速度和视频的比例。

实际测试了一下，做出一段视频大概需要两分钟左右，但这里面有点技巧，比如：你得详细说明想要的视频风格、背景以及运作方式等。

现在基本上能生成的视频长度有3秒、6秒、9秒和12秒。我之前用握拳宝宝（Sammy Griner）的图片试过了，所以就用图片生成视频的模式来做实验。

用图片生成视频的好处是给AI一个明确的方向，因此，生成的视频质量还不错，但是细节上依然不能恭维。

比如下面这张图：

这是我在视频模式下截的图，可以明显看出，握拳宝宝（Sammy Griner）的脸变得有点鬼畜，看起来挺吓人的。

尽管AI视频生成有调整口型、视频延长、补帧、提升分辨率（HD）等功能，但即梦AI目前还不能像处理图片那样，在视频的某个部分进行优化。

测试完图片生成视频，接着试试文生成视频。

提示词：请制作一段视频，内容是一个穿着中国古风服饰的帅哥，在公园里快乐地奔跑跳跃，脸上洋溢着开心的笑容，眼睛里闪着甜美的光芒。

没有开通会员，所以一次只能生成一个视频,我直接选择了12秒长，标准模式，视频比例是3：4，运镜随机，速度适中。

得说，生成速度挺快，大概一分钟就做好了。但总体感觉就那么回事；好的地方是，关键词都识别出来了；不好的地方是，视频质量太差，一看就知道是AI生成的。

还有，视频里的面部动作还有点吓人。看来AI在这方面还得多加努力。假设要对比的话：两种模式生成的视频基础还行，但如果要求高一点，就难以让人满意了。

文本生成视频的效果，比图片生成视频差很多，人物和背景都显得不够真实，图片生成视频虽然也有很多问题，尤其是人物动作和环境方面，还有很大的改进空间。

我还看了一下“即梦AI”的会员价格。

基础版一年659元，平均每个月54元；标准版一年1899元，平均每个月158元；高级版一年5199元，平均每个月大约430元。

话说，除能在短视频中加一些赛博朋克的东西，它还能做什么？谁会愿意为这么高的AI视频会员买单？即使有人愿意，又能用AI视频做出什么样的东西来？

总结

AI视频发展之路，还很长。

我认为，至于它真正走向商业化，还要看到更多的实际性应用场景。

————

近期热文：

1.《支小宝，来了》

2.《Excel尽头是飞书多维表格》

长按识别下方图片

加入MANDUN星球，同时可加入智远的付费社群

觉得有价值，欢迎点个在看，每个人都应该拥有独立思考的能力，舍满取半，欢迎分享给更多人。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：王智远同学 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

王智远同学

关注对话

TA的最新馆藏

饥渴的大厂，面对大模型还需新招
我已经无法形容Qwen3的强大了
如何看待百度Create AI 这轮传播？
夸克用AI相机改变「拍照问」习惯
作秀式公关值得借鉴吗？
不读书，去哪里寻找书里的东西？

喜欢该文的人也喜欢更多

热门阅读换一换