分享

OpenAI发布革命性视频生成模型Sora,直接生成60秒单镜头视频!引发现实虚拟之争?

 木易巷 2024-02-19 发布于河南

哈喽,大家好,木易巷来啦!

刚刚跻身全球第三大初创公司的OpenAI在中国春节期间又甩出“王炸”!

继文本模型ChatGPT和图像模型Dall-E取得成功之后,Sora的出现让许多行业感到兴奋和期待,但同时也带来了一些不安和担忧。

一位匿名从事AI大模型研究多年的人士表示,Sora的推出将首先影响AI视频和AI图片领域的竞争者,因为Sora的出现意味着视频生成的门槛大幅降低,可能会对广告、影视和短视频等行业带来重大变革。

下面我们一起来了解一下Sora的强大~

Sora是如何实现如此颠覆性的能力的呢?这就不得不提到其背后的两项核心技术突破——Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT,或扩散型Transformer)架构。

作为一个数据驱动的物理引擎,只需要接收一句话,Sora 便可以生成“充满想象力”“史诗级”的大片,这无疑又是一颗投向人类的重磅“炸弹”。

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。

下面是几个画面:

1、AI想象中的龙年春节,红旗迎风招展,人山人海,儿童们紧随舞龙队伍,好奇地观望,许多人掏出手机记录这壮观场面,各种人物角色各有各自的行为。

2、一位时尚女士漫步在东京街头,周围是温暖闪烁的霓虹灯和充满活力的城市标志。

3、通过竖屏超近景视角,展现了一只蜥蜴的细节。

在过去的一年多里,AI已在文本和图片领域取得了成功,视频领域虽然有进展,但仍存在一些不足。然而,从Sora开始,"有视频有真相"可能也将成为历史。

尽管OpenAI指出Sora目前存在一些弱点,如难以准确模拟复杂场景的物理原理,可能无法理解因果关系。

1、例如,描述“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”时,狼的数量可能会变化,一些狼会凭空出现或消失。

此外,该模型还可能混淆提示的空间细节,例如混淆左右等等。

2、例如,描述篮球“穿过篮筐然后爆炸”时,篮球可能没有被篮筐正确阻挡。

据报道,目前Sora已向部分用户开放,用于评估关键领域的潜在风险和危害。同时,OpenAI也邀请了一些视觉艺术家、设计师和电影制作人加入,希望他们提供宝贵的反馈,推动模型的进步,为创意工作者提供更好的支持。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多