Sora即将公开发布，出版业能用它做什么？

sun918 2024-03-25 发布于北京

展开全文

文/支星晨上海触讯信息科技有限公司副总经理

来源：阅门户

本文约5000字，预计一盏茶时间阅读完毕

商务君按：近日，OpenAI首席技术官米拉·穆拉蒂在接受《华尔街日报》采访时表示，Sora将在今年推出，“可能要等几个月”。文生视频模型Sora的出现，再次引发出版业对生成式AI领域的关注，Sora会给出版业带来哪些影响？我们能用它来做什么？不会又有岗位要被人工智能取代了吧？！

最近，在生成式AI领域，最热的新闻莫过于Sora的出现。

Sora是一个由OpenAI公司打造的文生视频的AI模型，与ChatGPT、midjourney等一样，是又一个AIGC（人工智能生成内容）的模型，只不过生成的模态不同，这回变成了视频，当然，这个“只不过”是需要打引号的，因为从图文到视频这一步实在是跨度太大、太惊艳了。

OpenAI官网首图，Sora成为当前绝对的“明星模型”

输入一些提示语，Sora模型就能生成一段连贯的60秒视频，并且具备电影级的清晰度、镜头调度、立体感、人物与场景细节，甚至还能驾驭各类风格，不光能写实，还能做出动画短片、科幻片段，等等。

相信大家已经在网上看到了很多截取的效果片段，尤其是下面这一段，根据官方提供的提示语，Sora可以生成下面的视频：

提示语：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

是不是很神奇，尤其是最后人物脸上的细节，早就不是半年前midjourney上那种还可能出现三个耳朵、六根手指的图片时代能相提并论的了。

事实上，除了广为流传的那几段，我倒是觉得下面这些也很惊艳，皆由Sora直接生成且没有经过任何剪辑加工：

难怪有人开玩笑说，坐落于洛杉矶市郊山上的HOLLYWOOD地标可以换成SORAWOOD了。

由本文作者使用midjourney通过AI生成的效果图

其实早在Sora之前，市面上并非完全没有AI生成视频的模型。如著名的Runway，其发布的Gen-2模型，在去年还火了一把，当时是因为其更新迭代了“动态笔刷”技术，即可以指定生成的视频中的某一部分进行动态渲染，实现更符合实际视频创作的需求。

Runway演示AI视频的动态笔刷功能

然而，以Runway为代表的这些视频生成AI模型，主打的还是“图片生成视频”的概念，且视频长度只有2~4秒，这一点我跟周鸿祎老师的观点一致，这些模型还只是一种基于静态图像的“动态延伸”，有算法、有AI的参与，但是与midjourney这种生成图片的方式，其实并不完全一致，所以尽管这并不是新鲜领域，但是经过亲身体验，这些生成的视频，很多时候使用起来并不理想。

但是Sora则不同，它使用的世界模型技术，以及更复杂、更贴合人脑对动态画面的想象力，能让它脱颖而出，而且时长一下子达到了60秒，高度提升了不止一星半点。

Sora的出现，让很多出版行业的同仁们也跃跃欲试，但是很遗憾，还没有办法直接体验，目前只对部分专业人士开放了通道。相信在不远的将来，一定会迎来公测。

那么问题来了，文生视频模型，尤其是如此强悍的文生视频模型的出现，可能给出版业带来哪些影响和新思路？

六种出版行业涉及的视频门类

要想回答这个问题，不妨撇开AI不谈，先捋一下，出版业目前在哪些地方用到了“视频”这种模态。

1.音像出版物

首先对于出版业，“视频”并不是一个陌生的模态，很久以前就有“音像出版物”的概念，载体是录像带、光盘，内容很多是影片、电视剧、电视节目等这类“长视频”。

2.电子出版物

后来到了互联网时代、移动互联时代，尤其是个人电脑、智能手机的发展，逐渐产生了“电子出版物”的概念，其涵盖的种类更复杂，但是视频这种模态本身，依然是电子出版物重要的组成部分，只不过以前放在光盘里，现在换成数字媒介罢了，存储介质可能是u盘之类的移动存储设备。

3.融合出版内容资源矩阵中的一部分

随着出版进入“融合”时期，纸质图书出现了配套多媒体资源的概念，在这些内容矩阵中，视频和音频一样，是最为常用的形态之一。这些配套的视频，往往是针对教辅类图书的解读、科技类图书的演示视频、社科图书的拓展阅读等。

4.在线视频课程

作为独立的内容存在于平台上，并不配套某本特定纸书，是这类视频与第三类视频最大的区别。当前，随着出版社自身的相关部门、人员、技术的合作建立，已经有出版社构建了自己的多端平台，如APP、小程序等。其中，转化率最好的，除了电子书以外，就是视频课程，这些课程往往依托出版社本身纸书的庞大销量，作为学生家长的“配套选择”，为不少出版社在线上领域赚取了“第一桶金”。

这类视频，其实通过目前的“AI数字人”技术，已经完全可以实现在线生成，而不一定非要找真人拍摄。

5.图书AR（增强现实技术）的视频素材

这种类型可能不是每个编辑都非常熟悉。事实上，图书AR，在大概是五六年前已经“火”了一波。但我曾经在当时就提过一个观点，所有的新技术，都需要“天时地利人和”才能真正实现大规模商业化。AR技术，就有点“生不逢时”的感觉，由于当时的制作成本高，技术普及难度高，又需要APP的支持，很多读者使用起来不方便，最多是一种“噱头”。但是我认为，在不远的将来，AR应该能够“卷土重来”，原因我们等会儿再分析。

在图书AR的领域，最常见的，就是通过打开特定APP的摄像头，对准图书的插图，然后手机画面上出现相应的内容。而这里的“内容”，我们在各种媒体上看到过很多酷炫的3D、动画效果，但实际上，出版领域最具性价比的内容还是视频，通过制作这些视频，实现图书AR的效果，某种程度上还是很有吸引力的。然而即使是做一个视频，对于行业来说，也不是一笔小的经费，更别提做3D内容了。

6.出版社自媒体

到了2024年，出版社的公众号、小红书、抖音号、视频号看上去都很“红火”，然而问题是，又有几家出版社真的做到了这两点：持续输出、产生转化？

在自媒体领域，视频尤其是短视频，是需求量最大的内容，可是我看到的情况是，很多社还停留在“为了做账号而做账号”的阶段，有些编辑为了完成发布数量的考核指标，甚至出现了简单堆砌文字、图片充数的现象，更别提专门花时间去想视频脚本、去拍摄了。

“短”视频更适合用AI生成

上面我们简单列举了六种出版行业涉及到的视频门类，而对于目前以Sora为代表的文生视频模型来说，显然，其中有些领域是它短期内还无法驾驭和干预的。尤其是音像出版物、电子出版物，它们的来源要求就不同，往往是既定的、摄制好的内容，而且审核要求也相对严格一些。

更重要的是，这些视频是典型的“长”视频，时间长度的要求决定了暂时不可能也没必要通过AI生成。

所以，在我看来，AI视频能最先给出版业带来冲击性影响力的，就是上述一些场景中，比较“短的”视频。比如书本配套的一些视频、图书AR的视频素材、出版社自媒体用到的视频。

这个“短”需要打个引号，是因为并不一定是从时长的角度区分的，而是有些流程简单、需求简单的视频，也可以让AI尝试去完成。

形成出版社自己的AI视频资源库

AI的强项，首先一定是效率。

这就给我们带来一个启发。我国出版社在目前的融合发展大环境下，有一个问题是非常值得注意的，那就是：极度缺乏数字资源。

因此，AI在视频领域由Sora引起的这一波新的热潮，我相信会让更多可能这个行业里原本并不太看好人工智能的从业者，也不得不去认知其带来的深刻变革。

所以，通过此类模型，帮助出版社建立起自己的AI资源库，并通过标引等手段，植入社内CMS资源管理系统，成为编辑们日常可用可参考的素材，是非常有价值的探索。

并且出版业有个优势，就是（AIGC所需的）“生成指令”是天然存在的，海量的专业、精细的文本内容，都是孕育丰硕资源素材的黑土地。

出版社做自媒体的新思路

出版社的自媒体，虽然很多社目前并没有做出很大的成绩，只有少数拥有一定规模的粉丝量，但是自媒体平台作为这个时代最为重要的线上营销渠道之一，肯定不能完全放弃这个领地。

前面我们已经提到，面对自媒体的短视频制作，很多数字部门的编辑是望而却步的，是因为对于“非专业人士”，这样一个工作，其实需要耗费非常多的精力，效果还未必好。

因此，Sora的出现，显然给这些编辑带来了福音，而且从客观上说，自媒体领域对内容的种种要求并不是特别高，很适合“试错”。

那么问题来了，目前Sora还没有公测，我们有什么思路，通过一些现有的视频AI工具去做一些尝试，为后面做准备（毕竟，按照现在的速度，Sora公测以及国内出现类似模型的时间肯定不会太晚）。

我觉得首先有必要强调一下“思路”的重要性，我们在自媒体做出版物相关的短视频，一定是有转化的需求的，而不是真的让你在平台上随便搞创作。那么很容易想到的，就是借助书中的内容，快速生成类似电影预告片的画面，然后配上一些辅助性的讲解，形成一个简单的图书营销视频。

举个例子，比如我们要做一个推广《小王子》这本书的视频，完全可以参考国外某位“大神”使用AIGC工具生成一个科幻大片的预告片的做法。

国外一位“大神”使用midjourney和Runway，打造了十分惊艳的科幻片段

下面是我的思路：

第一步，别先想着打开工具，而是先思考大纲，我的想法是，做一个跟《小王子》内容有关的短动画，配上动人的音乐和解读，让读者感受这本书的魅力。那么这个时候可以借助类似“文心一言”这样的AI生成文字工具做一些规划，甚至写一下分镜脚本，当然还包括解说文本。

第二步，思考整理脚本，确认好以后，使用《小王子》里的内容素材，结合midjourney这类AI生成图片工具，生成一些备用图片。

第三步，根据脚本，仔细筛选图片，并试着开始使用以Runway为代表的的目前已经可以公开使用的AI生成视频工具，来生成一些片段视频。

第四步，还是整理、整合的工作，我的习惯是先定音乐，然后将全部的素材使用剪辑工具剪辑成符合音乐节奏的视频，最后将解说文本使用AI语音工具转化成需要的男声或女声解说，这样一个简单的短视频即可完成。

有机会我真的会尝试用这种方法做一个类似这样的图书宣推视频，等到文生视频模型可以实际公测使用的时候，我还会试着直接用文字生成一段视频，比较二者的异同，分享给诸位。

理解AIGC的本质价值，避免定位偏差

此次Sora的发布，让我又想重提一下很多人对生成式AI在理解上存在的局限，他们往往想方设法让AI在一些垂直专业领域去“完全完成”某个任务，但这并不是，至少现在并不是这些AI模型存在的价值，目前的AIGC领域，其实更多的是能够“用比较专业的方式，完成大规模的工作”，核心在于降本增效。

从这个角度说，我个人目前只把市面上绝大多数的AIGC工具当作“一个工具”，或者“一个精明能干不知疲倦的合作者”，它们并不是真正意义上的思想家、教师、艺术创作者。放在出版业也是一样的道理，你不能真的把它当作一个影像内容的“约稿作者”。

举个例子，你需要一个俯瞰城市街景的短视频，而此时此刻你就站在一栋写字楼的窗边，以往没有AI的时候，其实你下意识地就会直接拿出手机或相机拍摄，可能不超一分钟，就能收获一段不错的素材。

现在有了AI，有的朋友下意识地变成了“AI脑”，他们可能会用各种AI工具捣鼓半天，拼命想办法让AI生成想要的效果，但是结果往往不尽人意，而且浪费了时间。

而这个时候，有的编辑则会来一句“好像也不好用嘛”，然后就不了了之了，这个是传统编辑在面对新技术的时候经常会出现的一种情况。

其实我们一定要明白一点：我们不是在做AI，我们还是在做产业。

我们不能靠AIGC解决一切，当然更不能守着自己的一亩三分地完全与新技术隔离，而是要从产业的角度，找到重塑价值链的思路与方法，我已经反复强调，想法远比工具更重要。就像前面我举的做《小王子》图书短视频的例子，还要学会在不同模态之间巧妙地整合技术、活学活用，真正让AI为我所用。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： sun918 > 《Sora》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

sun918

关注对话

TA的最新馆藏

唐太宗李世民《百字箴》《百字铭》《百字令》：原文译文
孙思邈养生、范仲淹家训、吴汝纶处世《百字铭》：原文译文
他们鼓励你去做的事，都是叫你去填坑的
细品诗词中的愁字韵味
《金瓶梅》与《林兰香》
修身奇文《说百病崇百药》《大藏治病药》：原文译文

喜欢该文的人也喜欢更多

热门阅读换一换