你用过AI文生图、文生视频吗? 从年初Sora视频生成模型推出后,国内大公司,字节、快手,纷纷推出了自己的产品。从个人效率角度来说,我之前没怎么想过用生成图片、视频;虽然试过很多次,但发现,现在生成的图片质量还达不到商业使用标准,如果真要用,可能还要用设计软件二次加工。说到剪映,大家应该都很熟悉。一提到它,就会想到剪视频。因为它简单好用,许多专业做视频的人都把它作为首选。几个月前,剪映Dreamina把中文名改为「即梦」,还加入了很多新功能,比如用AI制作图片和视频,还有故事创作。刚开始我对新功能不是很感兴趣,但这两天,在剪视频过程中,又体验了一下。发现有亮点,也有缺点,那么,表现力究竟如何呢? 01 首先,即梦AI主界面还是保持了剪映的简单风格,整体布局分成左右两部分。 左边给创作者用的工具,你可以在这里调整模型,设置提示词、控制镜头,还能选择画面大小、生成次数等;右边用来预览生成的视频和图片;点击任何一个图片或视频,你都可以再次编辑或重新生成,这非常符合我们工作的习惯。我特别喜欢「HD超清」和「细节修复」两个功能,它们能让生成的画面看起来更真实。主页下面,有一个用户社区。这里分成灵感和短片两大类,每类下面都有用户上传的各种风格的作品。比如:在灵感类别里,有国风美学、海报设计、动漫游戏、未来科技、绘本插画;短片类目现在还没有细分。我觉得这种分类,是为了更好地展示作品,让用户找到自己感兴趣的内容。我比较喜欢写真人像类别,不知道它以后是不是能辅助摄影师做修图使用。大致看了看社区的作品,质量挺高的。大多数图片和短片点开后,都可以直接下载,还会显示一些提示词,你可以直接复制使用,大多数提示词是中文,这表明国产AI软件对中文的理解能力已经很不错了。它一共分为四个能力,即:图片生成、智能画布、视频生成、故事创作。我先试了生成图片功能。用时,得输入一段描述文字,选一个模型(我用最新的即梦通用 V2.0,还是beta版),等几秒钟,系统就会出来四张AI生成的图片;如果看着不顺眼,还可以再编辑或者重新生成。这些图片,你还可以拿来当参考,进一步调整人物的长相、景深和姿势,甚至还能局部重画,或者直接用这个图片去生成视频。我让Kimi帮我写了一个提示词,用来描述一个女性,内容如下:一个金色波浪长发的女性,穿着白色蕾丝长裙,站在有古典风格的室内,背景是柔和的自然光,看起来既梦幻又精致。她的眼神深邃,表情温柔,好像在讲一个古老又美丽的故事。图片的细节丰富,色彩鲜明,光影处理得也很细腻,给人一种高级的感觉。尺寸我选择3:4,大概15秒就出来了4张不同的AI图片。从一个外行的角度看,我觉得这些图片有点像动漫风格;可能因为那个“梦幻而精致的写真风格”的关键词。所以,我微调了一下,加上了中国人、接地气。个人认为还算可以,AI表现力相对稳定;不只试了人像,其他类型也试过,都能准确生成。不过在细节上,有时候会有点小瑕疵。 02 说完文生图,第二点,聊聊即梦AI的图生图功能。 所谓图生图。即,上传一张图片,AI会根据这张图片的风格、色彩和内容作为参考,然后生成一些新的、创意的图像。这不是简单地复制原图,而是在原图的基础上加入创新。手头没有合适的图片,我就拿自己开玩笑了。我用一张我个人的形象照作为底图,在选择参考时,选了「人物长相」。接着,我让Kimi Chat帮我写了个指令,想让它生成一张专业形象的照片。提示词是这样的:“穿着一套剪裁得体的商务西装,展现出专业的形象。”注意了:当你进行图生图,上传不同的照片时,要选择合适的模型。这里有通用1.4、2.0和2.0 Pro可选。对于人像,我选择了1.4这个模型。
这个模型的描述是,它能从摄影写实到描绘风格都做得很好,主要是用来处理人像的,它可以根据需求,在写实和风格化之间找到平衡,呈现出你想要的人像效果。所以,它人像能力应该比较强,整个过程挺快的,不到30秒就出来四张图。第一次生成的时候,嘴部有点扭曲,我点击「细节修复」来局部调整;但说实话,生成的图片和我个人还是差挺远的。不能就此断定模型不好,我又试了一次,在原图基础上,我改了提示词为:做出加油动作,然后做鬼脸,吐舌头并眨右眼,它生成的结果是第三张。美国有个网络红人叫握拳宝宝(Sammy Griner)。我下载了他的一张照片,用来做背景图。这次选择的模型是即梦通用XL Pro,精细度调到了八。做出加油的动作,然后做鬼脸,吐舌头并眨右眼。下面是AI生成的,我精修过的图片。我觉得这次效果还不错,因为原图分辨率不高,我以为它最多只能识别出脸部轮廓,没想到它能生成这么清晰的照片。然后,我又试了一个新的指令,在AI生成的图片基础上,我加了新的提示词,稍微难一点:“请生成一幅现实主义风格的图像,画一个五岁的男孩在春天的公园里。他手里拿着一个五彩斑斓的风筝,做出加油的动作,然后做鬼脸,吐舌头并眨右眼;背景是绿油油的草地和远处模糊的蓝天。”这个提示词挺复杂的,包括现实主义风格、特定年龄的人物、服装细节、动作和背景环境。最后生成的第三张图,我觉得效果还可以。 需要注意,那张图是经过「细节处理」和「超清处理」后才达到的效果,所以,这是文生图和背景图的结合,背景上还加了新的提示词,最后的结果经过两次编辑才完成的。虽然处理后的图片里,孩子没有吐舌头和眨眼,但绿油油的草地和远处模糊的蓝天还是被保留了。因此,可以说,即梦AI的图生图模型,在控制整体画面上做得不错,但在细节处理上还有提升的空间;这可能是因为它没有足够多的图片来进行训练。除此外,我没有对影视1.4和通用2.0模型进行测试;根据官方描述,影视1.4模型主要用于处理影视风格的多重叙事,通用2.0模型则是针对更精准的描述词,适用于多样的风格组合。我认为,这两个模型应该是针对特定场景设计的,你可以试试看。 03 它的第三个能力叫做智能画布。什么是智能画布呢? 想象一下,你有一张照片。上传到智能画布后,就可以自由地编辑和修改这张照片,还能加入各种元素,这个功能的主要目的是让创作过程变得直观又高效。智能画布虽然和图生图有点像,但还是有区别。它不只是简单地生成新图片,更像是一个高级编辑工具;它能实时响应你的需求,让你能深度定制和创意地表达自己的想法。上传后,我有两个选项:一是直接重绘图片本身的细节,二是输入提示词来指导重绘。我选择了第一种,用的画笔比较粗,结果生成的细节太粗糙了;所以,我把画笔调细到20,再试了一次,但效果还是不太理想;不过,当我用上「HD无损超清」和「细节修复」功能后,效果就好多了。所以,给想试智能画布的朋友们提个醒:虽然它的生成效果和效率都不错,但局部重绘的功能还有问题。以月球细节为例,如果你自己选择重绘的范围,可能会得到一些风格很奇怪的图片。它的处理逻辑是先整体再细节,我猜这可能是因为局部重绘没有输入关键词的选项,所以AI得自己猜测重绘的风格,而这个猜测的准确率并不是很高。此外,即梦AI的扩图功能很强大,你可以不停地扩展图片。在扩图时,输入关键词就能指导扩图,我给它输入了关键词「更大」,结果生成的照片如第三张,视觉广阔了,下面出现一个小人。
如果不输入关键词,AI就会按照原图的风格来进行扩图。据此,可以说,智能画布能力比图生图能力强,局部处理能力比较弱;尽管如此,智能画布功能整体上为用户提供了一个强大而灵活的创作可能,所以,用户可以更加自由的基于图片,表达创意。 04 那么,即梦AI第四个能力是什么呢?AI视频生成。 这可是重头戏。生成视频的方式,跟生成图片差不多,也是分成两种模式:文本生成视频\图片生成视频。如果是文本生成视频,你只要通过简单的文本描述,AI就能制作出一段视频;除了描述内容外,你还可以选择运镜模式、视频的播放速度和视频的比例。实际测试了一下,做出一段视频大概需要两分钟左右,但这里面有点技巧,比如:你得详细说明想要的视频风格、背景以及运作方式等。现在基本上能生成的视频长度有3秒、6秒、9秒和12秒。我之前用握拳宝宝(Sammy Griner)的图片试过了,所以就用图片生成视频的模式来做实验。用图片生成视频的好处是给AI一个明确的方向,因此,生成的视频质量还不错,但是细节上依然不能恭维。这是我在视频模式下截的图,可以明显看出,握拳宝宝(Sammy Griner)的脸变得有点鬼畜,看起来挺吓人的。尽管AI视频生成有调整口型、视频延长、补帧、提升分辨率(HD)等功能,但即梦AI目前还不能像处理图片那样,在视频的某个部分进行优化。提示词:请制作一段视频,内容是一个穿着中国古风服饰的帅哥,在公园里快乐地奔跑跳跃,脸上洋溢着开心的笑容,眼睛里闪着甜美的光芒。没有开通会员,所以一次只能生成一个视频,我直接选择了12秒长,标准模式,视频比例是3:4,运镜随机,速度适中。得说,生成速度挺快,大概一分钟就做好了。但总体感觉就那么回事;好的地方是,关键词都识别出来了;不好的地方是,视频质量太差,一看就知道是AI生成的。还有,视频里的面部动作还有点吓人。看来AI在这方面还得多加努力。假设要对比的话:两种模式生成的视频基础还行,但如果要求高一点,就难以让人满意了。文本生成视频的效果,比图片生成视频差很多,人物和背景都显得不够真实,图片生成视频虽然也有很多问题,尤其是人物动作和环境方面,还有很大的改进空间。基础版一年659元,平均每个月54元;标准版一年1899元,平均每个月158元;高级版一年5199元,平均每个月大约430元。话说,除能在短视频中加一些赛博朋克的东西,它还能做什么?谁会愿意为这么高的AI视频会员买单?即使有人愿意,又能用AI视频做出什么样的东西来?我认为,至于它真正走向商业化,还要看到更多的实际性应用场景。———— 
 觉得有价值,欢迎点个在看,每个人都应该拥有独立思考的能力,舍满取半,欢迎分享给更多人。
|