分享

Sora即将公开发布,出版业能用它做什么?

 sun918 2024-03-25 发布于北京

文/支星晨 上海触讯信息科技有限公司副总经理

来源: 阅门户

本文约5000字,预计一盏茶时间阅读完毕

商务君按:近日,OpenAI首席技术官米拉·穆拉蒂在接受《华尔街日报》采访时表示,Sora将在今年推出,“可能要等几个月”。文生视频模型Sora的出现,再次引发出版业对生成式AI领域的关注,Sora会给出版业带来哪些影响?我们能用它来做什么?不会又有岗位要被人工智能取代了吧?!

Image

最近,在生成式AI领域,最热的新闻莫过于Sora的出现。

Sora是一个由OpenAI公司打造的文生视频的AI模型,与ChatGPT、midjourney等一样,是又一个AIGC(人工智能生成内容)的模型,只不过生成的模态不同,这回变成了视频,当然,这个“只不过”是需要打引号的,因为从图文到视频这一步实在是跨度太大、太惊艳了。

Image

OpenAI官网首图,Sora成为当前绝对的“明星模型”

输入一些提示语,Sora模型就能生成一段连贯的60秒视频,并且具备电影级的清晰度、镜头调度、立体感、人物与场景细节,甚至还能驾驭各类风格,不光能写实,还能做出动画短片、科幻片段,等等。

相信大家已经在网上看到了很多截取的效果片段,尤其是下面这一段,根据官方提供的提示语,Sora可以生成下面的视频:

提示语:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

是不是很神奇,尤其是最后人物脸上的细节,早就不是半年前midjourney上那种还可能出现三个耳朵、六根手指的图片时代能相提并论的了。

事实上,除了广为流传的那几段,我倒是觉得下面这些也很惊艳,皆由Sora直接生成且没有经过任何剪辑加工:

难怪有人开玩笑说,坐落于洛杉矶市郊山上的HOLLYWOOD地标可以换成SORAWOOD了。

Image

由本文作者使用midjourney通过AI生成的效果图

其实早在Sora之前,市面上并非完全没有AI生成视频的模型。如著名的Runway,其发布的Gen-2模型,在去年还火了一把,当时是因为其更新迭代了“动态笔刷”技术,即可以指定生成的视频中的某一部分进行动态渲染,实现更符合实际视频创作的需求。

Image

Runway演示AI视频的动态笔刷功能

然而,以Runway为代表的这些视频生成AI模型,主打的还是“图片生成视频”的概念,且视频长度只有2~4秒,这一点我跟周鸿祎老师的观点一致,这些模型还只是一种基于静态图像的“动态延伸”,有算法、有AI的参与,但是与midjourney这种生成图片的方式,其实并不完全一致,所以尽管这并不是新鲜领域,但是经过亲身体验,这些生成的视频,很多时候使用起来并不理想。

但是Sora则不同,它使用的世界模型技术,以及更复杂、更贴合人脑对动态画面的想象力,能让它脱颖而出,而且时长一下子达到了60秒,高度提升了不止一星半点。

Sora的出现,让很多出版行业的同仁们也跃跃欲试,但是很遗憾,还没有办法直接体验,目前只对部分专业人士开放了通道。相信在不远的将来,一定会迎来公测。

那么问题来了,文生视频模型,尤其是如此强悍的文生视频模型的出现,可能给出版业带来哪些影响和新思路?

Image

六种出版行业涉及的视频门类

要想回答这个问题,不妨撇开AI不谈,先捋一下,出版业目前在哪些地方用到了“视频”这种模态。

1.音像出版物

首先对于出版业,“视频”并不是一个陌生的模态,很久以前就有“音像出版物”的概念,载体是录像带、光盘,内容很多是影片、电视剧、电视节目等这类“长视频”。

2.电子出版物

后来到了互联网时代、移动互联时代,尤其是个人电脑、智能手机的发展,逐渐产生了“电子出版物”的概念,其涵盖的种类更复杂,但是视频这种模态本身,依然是电子出版物重要的组成部分,只不过以前放在光盘里,现在换成数字媒介罢了,存储介质可能是u盘之类的移动存储设备。

3.融合出版内容资源矩阵中的一部分

随着出版进入“融合”时期,纸质图书出现了配套多媒体资源的概念,在这些内容矩阵中,视频和音频一样,是最为常用的形态之一。这些配套的视频,往往是针对教辅类图书的解读、科技类图书的演示视频、社科图书的拓展阅读等。

4.在线视频课程

作为独立的内容存在于平台上,并不配套某本特定纸书,是这类视频与第三类视频最大的区别。当前,随着出版社自身的相关部门、人员、技术合作建立,已经有出版社构建了自己的多端平台,如APP、小程序等。其中,转化率最好的,除了电子书以外,就是视频课程,这些课程往往依托出版社本身纸书的庞大销量,作为学生家长的“配套选择”,为不少出版社在线上领域赚取了“第一桶金”。

这类视频,其实通过目前的“AI数字人”技术,已经完全可以实现在线生成,而不一定非要找真人拍摄。

5.图书AR(增强现实技术)的视频素材

这种类型可能不是每个编辑都非常熟悉。事实上,图书AR,在大概是五六年前已经“火”了一波。但我曾经在当时就提过一个观点,所有的新技术,都需要“天时地利人和”才能真正实现大规模商业化。AR技术,就有点“生不逢时”的感觉,由于当时的制作成本高,技术普及难度高,又需要APP的支持,很多读者使用起来不方便,最多是一种“噱头”。但是我认为,在不远的将来,AR应该能够“卷土重来”,原因我们等会儿再分析。

在图书AR的领域,最常见的,就是通过打开特定APP的摄像头,对准图书的插图,然后手机画面上出现相应的内容。而这里的“内容”,我们在各种媒体上看到过很多酷炫的3D、动画效果,但实际上,出版领域最具性价比的内容还是视频,通过制作这些视频,实现图书AR的效果,某种程度上还是很有吸引力的。然而即使是做一个视频,对于行业来说,也不是一笔小的经费,更别提做3D内容了。

6.出版社自媒体

到了2024年,出版社的公众号、小红书、抖音号、视频号看上去都很“红火”,然而问题是,又有几家出版社真的做到了这两点:持续输出、产生转化?

在自媒体领域,视频尤其是短视频,是需求量最大的内容,可是我看到的情况是,很多社还停留在“为了做账号而做账号”的阶段,有些编辑为了完成发布数量的考核指标,甚至出现了简单堆砌文字、图片充数的现象,更别提专门花时间去想视频脚本、去拍摄了。

Image

“短”视频更适合用AI生成

上面我们简单列举了六种出版行业涉及到的视频门类,而对于目前以Sora为代表的文生视频模型来说,显然,其中有些领域是它短期内还无法驾驭和干预的。尤其是音像出版物、电子出版物,它们的来源要求就不同,往往是既定的、摄制好的内容,而且审核要求也相对严格一些。

更重要的是,这些视频是典型的“长”视频,时间长度的要求决定了暂时不可能也没必要通过AI生成。

所以,在我看来,AI视频能最先给出版业带来冲击性影响力的,就是上述一些场景中,比较“短的”视频。比如书本配套的一些视频、图书AR的视频素材、出版社自媒体用到的视频。

这个“短”需要打个引号,是因为并不一定是从时长的角度区分的,而是有些流程简单、需求简单的视频,也可以让AI尝试去完成。

Image

形成出版社自己的AI视频资源库

AI的强项,首先一定是效率。

这就给我们带来一个启发。我国出版社在目前的融合发展大环境下,有一个问题是非常值得注意的,那就是:极度缺乏数字资源。

因此,AI在视频领域由Sora引起的这一波新的热潮,我相信会让更多可能这个行业里原本并不太看好人工智能的从业者,也不得不去认知其带来的深刻变革。

所以,通过此类模型,帮助出版社建立起自己的AI资源库,并通过标引等手段,植入社内CMS资源管理系统,成为编辑们日常可用可参考的素材,是非常有价值的探索。

并且出版业有个优势,就是(AIGC所需的)“生成指令”是天然存在的,海量的专业、精细的文本内容,都是孕育丰硕资源素材的黑土地。

Image

出版社做自媒体的新思路

出版社的自媒体,虽然很多社目前并没有做出很大的成绩,只有少数拥有一定规模的粉丝量,但是自媒体平台作为这个时代最为重要的线上营销渠道之一,肯定不能完全放弃这个领地。

前面我们已经提到,面对自媒体的短视频制作,很多数字部门的编辑是望而却步的,是因为对于“非专业人士”,这样一个工作,其实需要耗费非常多的精力,效果还未必好。

因此,Sora的出现,显然给这些编辑带来了福音,而且从客观上说,自媒体领域对内容的种种要求并不是特别高,很适合“试错”。

那么问题来了,目前Sora还没有公测,我们有什么思路,通过一些现有的视频AI工具去做一些尝试,为后面做准备(毕竟,按照现在的速度,Sora公测以及国内出现类似模型的时间肯定不会太晚)。

我觉得首先有必要强调一下“思路”的重要性,我们在自媒体做出版物相关的短视频,一定是有转化的需求的,而不是真的让你在平台上随便搞创作。那么很容易想到的,就是借助书中的内容,快速生成类似电影预告片的画面,然后配上一些辅助性的讲解,形成一个简单的图书营销视频。

举个例子,比如我们要做一个推广《小王子》这本书的视频,完全可以参考国外某位“大神”使用AIGC工具生成一个科幻大片的预告片的做法。

Image

国外一位“大神”使用midjourney和Runway,打造了十分惊艳的科幻片段

下面是我的思路:

第一步,别先想着打开工具,而是先思考大纲,我的想法是,做一个跟《小王子》内容有关的短动画,配上动人的音乐和解读,让读者感受这本书的魅力。那么这个时候可以借助类似“文心一言”这样的AI生成文字工具做一些规划,甚至写一下分镜脚本,当然还包括解说文本。

第二步,思考整理脚本,确认好以后,使用《小王子》里的内容素材,结合midjourney这类AI生成图片工具,生成一些备用图片。

第三步,根据脚本,仔细筛选图片,并试着开始使用以Runway为代表的的目前已经可以公开使用的AI生成视频工具,来生成一些片段视频。

第四步,还是整理、整合的工作,我的习惯是先定音乐,然后将全部的素材使用剪辑工具剪辑成符合音乐节奏的视频,最后将解说文本使用AI语音工具转化成需要的男声或女声解说,这样一个简单的短视频即可完成。

有机会我真的会尝试用这种方法做一个类似这样的图书宣推视频,等到文生视频模型可以实际公测使用的时候,我还会试着直接用文字生成一段视频,比较二者的异同,分享给诸位。

Image

理解AIGC的本质价值,避免定位偏差

此次Sora的发布,让我又想重提一下很多人对生成式AI在理解上存在的局限,他们往往想方设法让AI在一些垂直专业领域去“完全完成”某个任务,但这并不是,至少现在并不是这些AI模型存在的价值,目前的AIGC领域,其实更多的是能够“用比较专业的方式,完成大规模的工作”,核心在于降本增效。

从这个角度说,我个人目前只把市面上绝大多数的AIGC工具当作“一个工具”,或者“一个精明能干不知疲倦的合作者”,它们并不是真正意义上的思想家、教师、艺术创作者。放在出版业也是一样的道理,你不能真的把它当作一个影像内容的“约稿作者”。

举个例子,你需要一个俯瞰城市街景的短视频,而此时此刻你就站在一栋写字楼的窗边,以往没有AI的时候,其实你下意识地就会直接拿出手机或相机拍摄,可能不超一分钟,就能收获一段不错的素材。

现在有了AI,有的朋友下意识地变成了“AI脑”,他们可能会用各种AI工具捣鼓半天,拼命想办法让AI生成想要的效果,但是结果往往不尽人意,而且浪费了时间。

而这个时候,有的编辑则会来一句“好像也不好用嘛”,然后就不了了之了,这个是传统编辑在面对新技术的时候经常会出现的一种情况。

其实我们一定要明白一点:我们不是在做AI,我们还是在做产业。

我们不能靠AIGC解决一切,当然更不能守着自己的一亩三分地完全与新技术隔离,而是要从产业的角度,找到重塑价值链的思路与方法,我已经反复强调,想法远比工具更重要。就像前面我举的做《小王子》图书短视频的例子,还要学会在不同模态之间巧妙地整合技术、活学活用,真正让AI为我所用。

Image

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多