【原】OpenAI发布革命性视频生成模型Sora，直接生成60秒单镜头视频！引发现实虚拟之争？

木易巷 2024-02-19 发布于河南

展开全文

哈喽，大家好，木易巷来啦！

刚刚跻身全球第三大初创公司的OpenAI在中国春节期间又甩出“王炸”！

继文本模型ChatGPT和图像模型Dall-E取得成功之后，Sora的出现让许多行业感到兴奋和期待，但同时也带来了一些不安和担忧。

一位匿名从事AI大模型研究多年的人士表示，Sora的推出将首先影响AI视频和AI图片领域的竞争者，因为Sora的出现意味着视频生成的门槛大幅降低，可能会对广告、影视和短视频等行业带来重大变革。

下面我们一起来了解一下Sora的强大~

Sora是如何实现如此颠覆性的能力的呢？这就不得不提到其背后的两项核心技术突破——Spacetime Patch（时空Patch）技术和Diffusion Transformer（DiT，或扩散型Transformer）架构。

作为一个数据驱动的物理引擎，只需要接收一句话，Sora 便可以生成“充满想象力”“史诗级”的大片，这无疑又是一颗投向人类的重磅“炸弹”。

目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。

下面是几个画面：

1、AI想象中的龙年春节，红旗迎风招展，人山人海，儿童们紧随舞龙队伍，好奇地观望，许多人掏出手机记录这壮观场面，各种人物角色各有各自的行为。

2、一位时尚女士漫步在东京街头，周围是温暖闪烁的霓虹灯和充满活力的城市标志。

3、通过竖屏超近景视角，展现了一只蜥蜴的细节。

在过去的一年多里，AI已在文本和图片领域取得了成功，视频领域虽然有进展，但仍存在一些不足。然而，从Sora开始，"有视频有真相"可能也将成为历史。

尽管OpenAI指出Sora目前存在一些弱点，如难以准确模拟复杂场景的物理原理，可能无法理解因果关系。

1、例如，描述“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”时，狼的数量可能会变化，一些狼会凭空出现或消失。

此外，该模型还可能混淆提示的空间细节，例如混淆左右等等。

2、例如，描述篮球“穿过篮筐然后爆炸”时，篮球可能没有被篮筐正确阻挡。

据报道，目前Sora已向部分用户开放，用于评估关键领域的潜在风险和危害。同时，OpenAI也邀请了一些视觉艺术家、设计师和电影制作人加入，希望他们提供宝贵的反馈，推动模型的进步，为创意工作者提供更好的支持。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：木易巷 > 《木易巷的百宝箱》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多