一觉醒来让“Sora”炸屏，什么是“Sora”一一整理读这个文章就够

常青樹 2024-02-20 发布于江西

展开全文

哈哈，昨天边吃饭喝酒的时候就手机信息全让这货给炸屏了。连夜研究了下确实吓出冷汗呀，它竟然可以生成长视频而且那么逼真昨天夜晚的时候发现真估计是AGI涌现了。也帮大家整理了下内容哈~。

什么是“Sora”？它的亮点？

在2月16日凌晨，OpenAI发布了全新的视频生成模型——Sora。Sora将超越目前市场上的所有文字生成视频模型。从此刻开始，我们所见到的视频和动图将全部由这个AI生成，而非实际拍摄。Sora 三大亮点突出：1、60 秒长视频，Sora 可以保持视频主体与背景的高度流畅性与稳定性。2、单视频多角度镜头，Sora 在一个视频内实现多角度镜头，分镜切换符合逻辑且十分流畅。3、理解真实世界的能力，Sora 对于光影反射、运动方式、镜头移动等细节处理得十分优秀，极大地提升了真实感。

行业大佬周鸿祎，Sora 意味着AGI实现将从10年缩短到1年，个人认为1~3年会实现。下面是大佬关于从10年缩短到1年的分析文章。

OpenAI,Sora一出道就成了图文视频AGI涌现，导致一众pika\runway\SVD兄弟都膜拜了跪了。

相较于一众小弟只能生成短暂、个位数秒长的视频，Sora能够实现一分钟时长的视频生成，这种跨越无疑产生了颠覆性的效果。

哈哈，讲了这么多大家一起来欣赏下“Sora“的能力吧。

1、Sora，AI想象中的龙年春节，红旗招展人山人海。

2、Sora，AI想象中人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，完全没有AI味儿

3、Sora，AI想象中一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的城市标志。

提示：一位时尚的女人走在东京的街道上，街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克，红色长裙，黑色靴子，背着一个黑色钱包。她戴着墨镜，涂着红色口红。她自信而随意地走路。街道潮湿而反光，营造出五颜六色的灯光的镜面效果。许多行人四处走动。

4、Sora，AI想象中竖屏超近景视角下，这只蜥蜴细节拉满

5、Sora，AI想象中在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里，一位擅长利用社交媒体的奶奶，正在教你制作美味的自制诺奇面。

6、Sora，AI想象中五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

7、Sora，AI想象中博朋克背景下机器人的生活故事

8、Sora，AI想象中几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高挂在天空中。”距离产生了温暖的光芒，低摄像头视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物，具有美丽的摄影和景深。

9、Sora，AI想象中两艘海盗船在咖啡杯里互相战斗的逼真特写视频

哇哦Sora真的很秀呀，未来可能电影都是AGI通用人工智能生产的。

下面是关于OPENAI,Sora体验地址与技术说明文档

sora官方展示网址：https:///sora

sora官方技术说明文档：
https:///research/video-generation-models-as-world-simulators

一些参考推荐：

作为世界模拟器的视频生成模型：Video generation models as world simulators ()

Generative models： ()

如何看待openai最新发布的sora？- SIY.Z的回答 - 知乎

https://www.zhihu.com/question/644473449/answer/3397947587

《Scalable diffusion models with transformers》，

https:///abs/2212.09748

https://mp.weixin.qq.com/s/gSvxvOVqYtGcKw0ueDGbFA

https://mp.weixin.qq.com/s/2iGVsdz6YHHupsKIPxRjdQ

Sora技术报告主要内容

1、Sora将视觉数据转化为补丁

借鉴于大型语言模型的成功经验，这些模型通过海量的互联网数据训练，具备出色的通用能力。LLM范式的成功得益于其巧妙运用标记，这些标记巧妙地统一了文本、代码、数学以及各种自然语言模式。在研究中OpenAI思考了视觉数据生成模型如何能够继承并运用这些优势。相较于LLM拥有文本标记，Sora则通过引入视觉补丁实现其目标。过去的研究已经证明，补丁在表示视觉数据模型时是一种有效的方式。发现表明，补丁是一种高度可扩展和有效的表示方式，适用于在不同类型的视频和图像上进行生成模型的训练。在更高层面上，首先将视频压缩至较低维的潜在空间，然后通过将表示分解为时空补丁的方式，成功地将视频转换为补丁形式。这一方法为训练生成模型提供了更灵活、更有效的手段。

2、Sora频压缩网络

通过训练网络成功实现了对视觉数据维度的降低。这个网络以原始视频为输入，输出在时间和空间上经过压缩的潜在表示。Sora在这一压缩的潜在空间中接受训练，进而生成出新的视频。为了完善这一过程进行了解码器模型的训练，它能够将生成的潜在表示映射回像素空间，为最终的视觉输出提供了高质量的还原。

这个创新性的方法不仅能够在降低数据维度的同时保持信息的关键性，还为视觉数据处理领域带来了更为高效和灵活的解决方案。

3、Sora语言理解

为了训练文本到视频生成系统采用具备相应文本字幕的大量视频。引入了DALL·E 3中的重新字幕技术，首先培训了一个高度描述性的字幕生成器模型，并将其用于为训练集中的所有视频生成文本字幕。这一过程的关键是通过对高度描述性视频字幕的训练，提高文本的保真度，从而提升整体视频质量。与DALL·E 3相似，巧妙地利用GPT将短小的用户提示转换为更为详细的字幕，然后将其发送到视频模型。这一策略使得Sora能够生成高质量视频，准确地符合用户的提示，为用户提供了更加个性化和令人满意的视觉体验。

其他扩展导读：

Sora虽然不是第一个文生视频大模型，但之前的模型生成的视频都很短。记得去年吗？信雅达的大老板郭华强的女儿在国外搞了个AI公司叫Pika Labs，他们发布的Pika 1.0文生视频大模型真的很火。你只需输入一张图片和想要的动态指令，或者选一段视频的某个部分，然后输入指令，就能生成视频。但很多人觉得，虽然视频质量挺好的，但只能生成3秒以内的，这点真的让人有点头疼。所以，Sora在这方面做得更好了。

Sora可能带来的影响？

如果Sora能够真正意义上实现文生视频，可能会带来哪些影响呢？

1、没有真实演员参与的影视作品将成为可能，这无疑给传统演员带来了新的挑战。同时，这也将催生真正意义上的“虚拟偶像”的兴起。与之前的二次元人物相比，这些虚拟偶像将更加逼真、生动，并有可能在娱乐界占据一席之地。

2、这对于编剧行业来说是一个积极的信号，剧本和文本创作的能力将成为这个行业的核心竞争力。

3、Sora可能才是真正的文生视频，此前的文生视频大多只有2秒，仅仅是对象的小幅度移动。

4、OpenAI继续拉大领先程度，对众多还在进行大模型测试打分pk的厂商，构成压力。

5、影视行业，特别是特效制作领域，将直接受益于这一技术。利用AI制作特效和高风险镜头，不仅能显著降低拍摄成本，还能避免许多潜在的危险。

6、摄影师行业也会受到影响，用文本来生成一些视频，可以省去很多拍摄工作。

7、随着短视频的流行，视频剪辑师这个职业也变得越来越热门。然而，如果AI技术能够取代视频剪辑师的工作，那么这个职业可能会面临失业的风险。

8、对于很多短视频创作者来说，用AI来替代繁琐的剪辑工作，可以大幅提高工作效率。

9、许多歌手在拍摄MV时需要投入大量成本。但如果AI技术能够用来生成MV所需的画面，这将为歌手节省大量的制作成本。

10、此外，如果真正实现了文生视频技术，我们也需要警惕不法分子可能会利用这一技术实施新型的违法犯罪行为。

不过，从Sora官网目前展示的视频画面效果来看，效果还没那么逼近真实，短期内不会产生让行业失业，但会有辅助作用，做个动画片应该问题不大。在Sora官网，OpenAI表示，Sora是能够理解和模拟现实世界的模型的基础，OpenAI相信这一能力将是实现AGI的重要里程碑。

终上所述：

少峰个人观点，OpenAI的SORA无疑给我们带来了很多惊喜，但它并非完美无缺。它既有其独特的优势，也存在一些不足；既有广阔的发展前景，也面临着诸多挑战；既有创新之处，也有其局限性。因此，我们应该以客观、全面的眼光来审视和评价SORA，既要欣赏其所带来的优势，也要正视其存在的问题。期待在OpenAI的不断努力下，最终上线的SORA能够克服这些难题，为我们带来更加出色的表现。其实更多的应该是如何能实现各种场景应用，所以让子弹在飞一会。

Sora的出现，给企业数智化的启示

人工智能技术的迅猛发展已经远超预期，这既带来了无限的可能性，也对我们提出了新的挑战。在尚未拥有强大的AI能力之前，我们需要具备前瞻性的思考力，积极探索如何借助AI工具来增强我们的创造力，而不是陷入恐慌。新技术的涌现不仅正在重塑我们的认知和生活方式，更在深刻地改变我们的思维方式。然而，在享受AI技术带来的思想盛宴的同时，企业在数字化建设和AI融合利用方面需要保持更多的理智。这是因为，只有在理性和审慎的指导下，我们才能确保AI技术的健康发展，避免盲目跟风或过度依赖，从而实现真正的创新和可持续发展。原因如下：

1、AI技术目前尚不成熟，需要一个发展完善的过程，而对于场景化的技术落地，则需要更长的路要走；

2、AI技术落地企业场景需要的不仅是时间更需要大量的资金投入；一般的企业难以承受，且这种投入是持续性的；

3、企业员工的AI思维能力与AI工具的融合更需要一个长时间的磨合过程；

因此少峰认为，当前企业领导者在对待AI技术时，需要保持理智的思考，避免对其抱有过高的期望。同时，也要认识到目前大多数软件公司在AI技术支持方面仍有很大的提升空间。因此，企业领导者不应理所当然地认为仅仅通过应用AI技术就能立即优化大量员工或大幅降低成本支出。实际上，实现这些目标需要综合考虑多种因素，包括技术成熟度、员工培训、业务流程调整等。只有在全面评估和合理规划的基础上，才能充分发挥AI技术的潜力，为企业带来真正的价值。

感谢大家阅读到这里面，也赠送给大家一份见面礼。

我自己整理AGI知识库。

AGI知识库地址如何获取？

滑到上面看到”少峰说“，关注我公众号，发送”AGI“关键词领取。

（完）少峰跟你们一起长，未来咱们一起探讨如何通过AI成为超级个体“你带我带你”搞钱，少峰“你带我带你”搞流量，祝大家越来越有钱。