大家好,我是大雷。一个艺术背景、喜欢捣鼓各类 AI 产品的AI产品经理。2月16日,OpenAI把Sora视频模型扔进了这场AI 视频模型大战,直接让科技圈和部分圈外区域地震。我这个混迹在内容和AI边缘的人,既兴奋又震惊,心想这波操作,又不知道干翻了多少创业者。Sora从时长、一致性、逻辑性上,就把友商按在地上摩擦。大家原以为2024年的AI视频,能搞定基本的生成时长和一致性就牛逼哄哄了。哪成想AI的进步速度比我写稿子还快!(过年没写完的稿子拖到现在,Sora一出,感觉自己的计划都得重来了。)就这样,我花了两天多点的时间,用AI把一个近4分钟的动画短片给搞出来了,生成了1550张图,采用了154张图;然后生成了67段视频, 采用了26段视频。简单来说就是想的不一定画得出来,画出来了的不一定动得出来。故事比较简单,主要讲的是Zootopia隔壁城市的一所小学内转来了一个新同学——小白龙。它的外貌有些与众不同,还会经常在不经意间闯祸,给自己和身边人带来麻烦。终于在新年夜的这天晚上,发生了一件大事...一、制作流程在时间和金钱的双重压力下,我找到了一条适合我的制作捷径。(AI 就是烧钱!开发的人烧钱!用的人也烧钱!)这次的视频制作,效率是王道,其他的对我来说太烧钱烧时间。按照我俩在字节的摸爬滚打经验,他曾经是编导,我是分镜,搞定故事大纲和脚本是分分钟的事,花时间的在后面的生成部分。我的 Midjourney 提示词也没什么特别技巧,主要就是围绕皮克斯、迪士尼、3D 风格来写。"a small white Chiense dragon, anthropomorphic, Smile with surprise, wearing a school uniform, looking at a blurry gift box in the foreground, super close-up shot, camera focus on his face, 3D render, Unreal Engine, Pixar 3D style, blurry classroom scene, bright sunshine --ar 16:9 --niji 6"重点就是"a small white Chiense dragon, anthropomorphic, 3D render, Unreal Engine, Pixar 3D style"动画主要用的是 Runway,因为看中它的控制笔刷。(笔刷控制。在我做的时候,Runway还没有更新自动识别区域的笔刷,还得靠自己手动选择)Runway 我就更没什么技巧,纯靠运气我只能说。最后,凭AI能生成的画面来定剧情内容,一切以技术实现效果为准。剪辑最后在剪映里完。AE、PR 这些复杂的通通不考虑,这次就得快快快。Midjourney和Runway年花两千来块(Midjourney会员年花费约¥2014,Runway月费约¥102),月折合270左右。二、背景故事参与这个活动的背景就是,我在“通向 AGI 之路”的群里,每天盼着AJ老师分享AI小知识。那一个周末是打算挤时间去啃啃哈佛的计算机基础课,给我那点初学者级别的编程技能补补课,所以那个杭州的活动我就没去线下参加。然后有一天,我看到AJ老师发了个什么AI春晚的东西。我顿时就兴奋了,心想:这什么神仙活动?这么独到的创意?这么难得的机遇?!立马长按识别二维码冲进群里,还拉上了大雍一起加入。- 凭借我在视频和动画领域的经验,尤其是对《疯狂动物城》的热爱,我相信自己能够贡献力量。
因此,我带着探索的心态,踏上了这次AI短片创作之旅。三、初步构思进群后,真是遇到了一帮活力十足的小伙伴,尤其是 AJ、电子酒、电子茶老师等等,他们不仅有想法,还能干。大家都是有工作、甚至有的人有家庭,还能百忙之中抽出时间来做,真的是热爱。在看好大致的计划和时间节点后,我和大雍脑洞大开开始酝酿剧本。无论是什么类型的视频内容,我们更喜欢优质的内容大于炫技。因为优质的故事内容,才能让人留下深刻印象。优秀的内容能够吸引并保持观众的兴趣,而出色的表现手法则能够增强这种兴趣,使得作品更加生动和有吸引力。很多视频非常的有创意、酷炫,尤其是在 AI 的加持后,让以前的很多不可能、或者高成本的特效,成为了普通人或小团队创作者的可能。但是目前市面上,大部分创作者还是把它当作炫技工具偏多。作为内容创作者,尤其是在迪士尼、皮克斯动画电影熏陶下长大的人,我还是想回归到故事的本事,让 AI 发挥它的工具作用,把我所构思的内容展现出来。(我认为故事相当精彩的动画电影,还有好多好多就不一一列举了)要在短时间内构思出一个好故事真的不容易,更不用说是一个既要精彩又要温馨感人的短故事了。于是我想到了学学圣诞节广告短片的方法,毕竟人家怎么在短短几分钟内讲好一个故事是有技巧的。理论上,圣诞节和春节本质上也是差不多的,都是关于家庭、温情和欢聚。最终我们决定以小龙的独特能力为核心,展开故事。这个特性既是小龙的弱点,也是我们故事中的转折点,能够在春节这个温馨的背景下,带给大家既温情又充满惊喜的体验。小龙因为一次次意外的喷火而引发的连锁反应,最终却用这个能力解决问题,尤其是用火点燃烟花,营造幸福温馨的氛围,这不也符合春节气氛吗?四、内容中遇到的最大困难在确定了大纲之后,我们开始着手脚本编写,和使用Midjourney生成分镜。最初,我过于乐观地估计了自己能够投入到这个项目中的时间。快到交稿时间的时候,在电子酒老师催促进度的时候,我甚至开始质疑自己是否能够继续下去,内心既是愤怒又是自责。第二天还有其他重要事务待办,如果不牺牲睡眠时间,几乎没有任何可能可以继续推进项目。这句话仿佛为我打开了情绪的闸门,让我找到了释放压力的出口。我向他坦白了自己的困境和绝望的情绪。随后,我在AI春晚的大群里求助,并公开了我的飞书文档,开放编辑权限,希望能吸引到有时间、有能力、愿意帮忙的人。求助信息一出,没想到立刻就有好多网友响应!他们的反应速度和热情完全出乎我的预料。我迅速分配了任务,大家也都毫不吝惜地使用自己的token来支援我。包括 AJ 老师,也主动提出可以拉着家里小朋友配音试试看。最后,所有的配音都交给了 AJ 和她的小朋友们!实在是太太太棒了。为了尽量减少大家的token和时间的消耗,我提出了一些简单的要求,确保大家能够明白大致的创作方向。随着经验的积累,我的制作速度也越来越快。有了脚本的基础和之前的分镜经验,我选取和制作片段的效率大大提高。到了第二天,发现时间还有剩余,我便继续修改添加了一些新内容,以期使最终的展示效果更上一层楼。回望这一路的艰辛,如果没有AJ、电子酒老师和那些热心网友的及时援助,我的这个项目很可能就流产了。最终,这部作品荣获AI 春晚的最佳动画类节目的殊荣,让我超感动。这种凝聚力和行动力让我无法用言语表达当时的感动,它把春节的温馨和团圆的气氛体现得淋漓尽致。电子酒,电子茶,大雍,AJ 和小朋友们,Damon,程宇Alex,AI 译然,Komu,秀秀。五、解决技术上遇到的问题在讲述创作过程之后,我想分享一下解决技术难题的经验。AI 最大的优势在于显著提高了效率和大幅度降低了制作成本。虽然现在有很多技术限制,但是我觉得至少实现了我想要的 60%。采用传统的3D动画制作方法,我可能需要十年以上的时间来学习和制作,从建模到渲染再到剪辑。而AI视频生成工具让我能够将抽象的想法具体化,同时提升视频的视觉质量。无法保持一致性在面对一致性的挑战时,尤其是当创作完全依赖于AI生成的叙事性视频,如我的小白龙故事,维持角色和场景的一致性几乎是不可能的。当前技术的限制意味着,除非采取先实拍再通过AI转绘的方法,否则纯AI生成的视频很难达到理想的一致性水平。而我这种有虚构生物的故事也很难通过转绘的方式实现。面对这种局限,我采取了几种策略来尽量缓解这个问题。首先,我尽可能保持叙事性内容中角色的关键特征和外轮廓的一致,比如我的主角小白龙,我确保其始终展现出其年幼、迪斯尼皮克斯风格、白色龙的形象。同时,我保持角色的位置一致性,例如小白龙始终站在右侧面向左侧,其他角色都基本都站在左侧面向右侧,这样做可以降低观众识别角色时的困难。在我的故事中,除了主角小白龙外,其他小动物角色大多只出现一次,从而减轻观众的记忆负担。举个例子,对于那些想尝试制作以特定角色(如一对情侣)为中心的AI视频的创作者,建议尽量集中关注这两个角色,其他配角减少出场次数,并通过重复的视觉特征来加强观众对主要角色的印象。这样的策略在一定程度上可以弥补AI技术在一致性上的不足,使叙事更加流畅和连贯。产出不可控用AI生成内容就像阿甘在吃巧克力,他永远不知道下一颗是什么味道。就拿Midjourney来说,哪怕我脑海中有个清晰的画面,它也像是那位经常走神的朋友,怎么叮嘱都会给你带来意想不到的“惊喜”。为了让画面和故事连贯,我不得不停地 roll the dice,希望能碰到那个勉强合眼缘的结果,而不是出来个“大失败”。(但是为了效率,只能忍了,看到个差不多合眼的就赶紧选了!)拿表情控制来说,好比我想要的是皮克斯级别的细腻,结果AI给我的却是变成一摊液体的石头人。比如这个,我期待小白龙在教室里害羞地挥手,结果它给我一个僵硬的动作,做得我想笑。还有这个,什么东东??我在这里的提示词是:crying sadly, tears...
 当时让我联想到,也许我们未来对AI的指令不该局限于文字。随着技术的进步,将来我们或许能用“草图”或者“小片段”来指导AI,让它更准确地捕捉我们的创意。比如我这类有绘画基础的人,如果能直接用简单的草图来告诉AI我想要什么,那不是更直接、更高效吗?对于视频产品,或许可以尝试让用户用预置素材加上一些动作指令,比如让一个小人从屏幕的一侧走到另一侧,并用关键帧锁定它的行走路径。这种方法,虽然听起来有点像是回到了动画制作的石器时代,但至少能让AI的输出更加稳定、更接近我心中的预期。角色不易多、动作幅度小发现Midjourney 在生成的时候,最好不要生成过多角色。这里的过多甚至可能是 2 个。做人、做动物还好,但是像我这种有拟人角色的需求,简直就是和要靠买彩票暴富一样。比如那张小龙喷火到小兔子举着的礼物盒上,这个看似简单的需求,MJ 硬是生成不出让我满意的。 
  当然我可以理解的是,龙,尤其是中国龙,的数据样本真的很少。这对于用 MJ 的我来说,想要做个符合要求的小白龙的图真的很有挑战性。至于视频生成,如果想让角色做出一些比较大的动作,比如转头、掉眼泪、抬手,或是更生动的表情变化,现有的技术还有点捉襟见肘,还需要更先进的技术、更丰富的数据和更强大的计算能力。我的策略是,尽量规避制作那些需要大动作表现的视频。如果实在避免不了,那就尝试制作一些只涉及小动作的场景,然后通过以下几种方法来尽可能地增强表现力。这样,虽然不能完全弥补大动作的缺失,但至少能在视觉和叙事上做到不那么突兀。文字的补充通过加入台词和场景描述,可以有效补充AI生成图像无法达到的细节和深度。这种方法能够帮助观众更好地理解场景背景和角色心理,弥补视觉上的不足。
声音的补充声音是另一个能够极大提升视频环境氛围和代入感的元素。我通过添加合适的音效来丰富场景,如城市的空气声、街头的人声和汽车鸣笛,学校的铃声和孩子们的谈话声,以及户外的蝉鸣声等。这些细节的声音能够填补画面在表现力上的空缺,使得视频更加生动和真实。配乐的选择对于增强视频的整体效果同样至关重要。幸运的是,剪映提供了丰富的音乐库,让我能够找到与我的视频内容高度契合的背景音乐。视频的节奏与配乐的契合度也是一个不容忽视的方面。由于我的故事结构相对简单,我主要集中在如何让画面与音乐节奏相协调,以此来提升观众的观看体验。综上所述,通过巧妙地结合文字描述和声音元素,可以有效地补充和强化AI生成内容的表现力,让视频作品在视觉和听觉上都能给观众带来更加丰富和沉浸式的体验。六、结尾在这次的短期实验中,我制作的短片更像是一个动态绘本。在制作过程中遇到的许多问题和挑战,是在不断地制作、审视、反思中逐渐发现的,而这些都不是我一开始就能预见到的。通过分享我的经历,我希望能为那些梦想利用AI技术创作自己的短片或长篇作品的你提供一些参考和指南,帮助你规避一些可能的陷阱,节省探索解决方案的时间。我坚信,未来AI视频技术将开辟更广阔的想象空间和创新方式。不仅是Runway,还有未面向大众开放的Sora,现在已经有的Stable Diffusion, Stable Video, DomoAI, Pixverse, Pika, Suno等多种工具,它们各具特色,服务于不同的需求和人群,提供了多样化的创作可能。真正合适的工具,应该是那些能让我们表达创意、实现心中所想的。不管是通过多么复杂或传统的方法,如二维手绘、定格动画、甚至胶片电影,只要能够准确地呈现出我们心中的故事,那么任何工具或方式都是值得称赞的。我期望,随着Sora以及更多先进的AI视频制作工具的问世,未来能够利用成熟的技术再次创作出这部短片。 感谢你能看到这里,一同见证这段探索和创造的旅程。
|