Sora生成的视频有3个特征:第一,可生成1分钟的长视频,还可以自行分镜和切换景别;第二,单个视频既可以是多角度镜头也可以是一镜到底;第三,所生成的视频内容与物理世界规律保持一致,不会出现违反世界客观规律的视觉信息。如果你对此并无概念,一个可参考的对比是,与此前AI视频存在人物或物体失真的情况不同,Sora生成的视频几乎可以做到以假乱真,甚至连女性脸上的睫毛、黑痣以及滚雪的小狗的毛发等细节都格外清晰。此外,在时长上,同类AI视频工具Runway Gen 2、Pika等还在突破几秒内的连贯性,而Sora已经达到了分钟级别。Sora的视频发布后,一直关注AGI发展的360创始人、董事长周鸿祎第一时间发布了他对于Sora的解读。2月20日,周鸿祎接受《中国企业家》直播访谈时表示:“Sora的出现让AGI(通用人工智能)到来的时间提前了,原来估计需要十来年,现在我觉得可能只要两三年吧。”周鸿祎认为,Sora看起来是个文生视频的工具,但实际上是AGI的第二个突破点,是解决人工智能对这个世界的观察、交互、认知,以及建立常识的重要里程碑。OpenAI CEO Sam Altman近日在社交媒体上表现得极为活跃,他连发多条推特宣传Sora的视频效果。与此同时,他还让网友玩起了互动,网友随意提供prompt(提示词),他在线接单帮网友一并输出视频。Sora是如何实现的?根据OpenAI官网介绍,“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。我们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。”与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。它建立在过去对DALL·E和GPT模型的综合研究之上,提出了一种新的模型可能。它不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。不过,当前的Sora模型并不完美。它在模拟复杂场景的物理效果上可能会遇到难题,有时也难以准确理解特定情境下的因果关系,还可能混淆左右等空间细节。比如,画面中人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。与此同时,周鸿祎也告诫大家,不必焦虑和担忧:“AI不会淘汰任何行业和任何人,你只会被那些真正懂AI的人淘汰掉。至少现在人工智能取代不了人类的想象力和创造力,还有人类的主观意愿。”以下为《中国企业家》对话周鸿祎直播全文(有删减):
Sora的轰动效果远超GPT
《中国企业家》:Sora横空出世之后,你是焦虑多一点还是兴奋多一点?周鸿祎:Sora出来之后,大家都应该感觉到很兴奋。有些人可能担忧自己失业,担忧某些行业被端了饭碗,我觉得这都想太多了,因为这个世界在飞速变化过程中,很多东西你也不能改变,应该选择接受,用更好的态度是主动去拥抱,而且积极地参与推动,成为推动者甚至成为布道者。《中国企业家》:你之前提出AI发展的十大趋势,现在Sora出世之后有变化吗?周鸿祎:两个月不到,有4条都落实了,有两条和Sora有关。第一,我预言AIGC会有大的突破,但我原来以为是文生图会有大的突破,没有想到文生视频会产生这么巨大的突破。第二,Sora是怎么做到的?它一定和现在的原理不一样。我猜测Sora多模态输入能力已经超越了原来像GPT4版本的多模态能力。所以,多模态会成为大模型的主流。大模型过去只是理解文字、语言、思想、逻辑,但是Sora让我们看到了大模型不仅能理解图像,还能理解他们互动的时候应该符合什么样的物理定律。还有两个很热的新闻被淹没了。一个是英伟达推出了Chat with RTX——只要你有RTX30系列、RTX40列的显卡就可以把你好久不用的电脑折腾成一个大模型,这符合我预测大模型往终端走的趋势。另一个是Google推出了Gemini1.5版本,1.5版本的思路是把模型越做越大,越做越强。这也符合我的一个推断,Gemini的输出窗口高达100万个token,这意味着你一次能把几卷书籍或几个小时的电影、视频放给Gemini来做分析。到不了今年一季度结束,可能这十大预言都会实现。《中国企业家》:你曾提出企业的AI浓度,现在要不要加一个AI时间刻度?
来源:《中国企业家》对话周鸿祎直播截图
周鸿祎:我提了三个概念,一个概念叫“AI信仰”,这里边包括: 第一,你信不信这次AI的突破是真的突破?第二,你信不信这次AI是一场工业革命级别的革命?第三,你相不相信人类已经在朝着AGI甚至强人工智能在指数级地发展,你不要高估今天AI的能力,但绝对不要低估它的发展潜力,AGI原来估计需要十来年,但这次Sora出来之后,我觉得如果从基本的AGI来讲可能还要两三年吧;第四,AI不会淘汰任何行业、任何人,是被那些懂AI的人给淘汰掉的。 第二个概念叫“All in AI”,就是由内到外,面对你的员工、客户,从内部的工作流程到客户服务流程上,看看哪些地方可以用AI升级改造。第三个概念叫“含AI量”,不光是AI人才的密度问题,还包括每天花多少时间在用AI,每天花多少时间在思考AI的问题。Altman是个营销大师。Sora现在还没有正式发布,他现在就是不断地发让人惊叹的视频,形成传播、发酵,形成期望,然后把大众注意力从Google、英伟达、Meta身上吸引过来。这两天Apple的Vision pro也不热了。Sora的轰动效果应该远远超过GPT。我看到国内今天都出现了Sora的教程,你看Twitter上OpenAI的Sora团队已经辟谣了,现在都没对外放呢,哪会来的账号和教程,大家别被“割韭菜”了。
还有一个是女人在床上躺着睡觉,她旁边一只猫在找她要吃的,那只猫在被子里伸出脚来踏了两下,然后这个女的翻了个身,头压在枕头上滚了一下,那个枕头的凹陷、皱纹效果非常真实。你拿所谓过去的计算机CG去做的话是很困难。做出一个枕头外形、花纹很容易,但是你要用什么样的物理学公式描述枕头上被头压了之后下陷多少,产生多少个皱纹,皱纹有多宽,有多长,枕头的松软度等,我觉得这个电影特效工程师可能没有半年都不一定做得出来。《阿凡达》为了做雪的特效花了好几年,投入了几千名美工、设计师,用了可能几十万台机器来联合做渲染。Sora产出视频的方式,比较像人类描绘产生视频的方法。我认为Sora应该是模拟和借鉴了人来重现这个世界的一种技能。GPT实际上解决了AGI第一个基本问题——从人工智障到人工智能,就是对人类语言有了一个完整的理解,这样跟人可以对话。Sora解决了机器和这个世界在互动中需要了解的一些规律,了解的一些知识,所以它能做出符合我们日常常识的、符合我们日常物理规律的场景,虽然它可能并不知道这个规律。老有人跟我辩论说,Sora能总结出相对论和牛顿定律吗?我的回答是,一只猫知不知道牛顿定律并不影响它准确地去预测老鼠的速度去抓到这个老鼠,这是生物的本能。这就更加证明了Sora的可怕,它是模拟了生物这种观察、学习和表现的方式,而不是给这个世界所有的万物重新建模。如果Sora开放接口,我会做一个这样的视频,把一个生鸡蛋打在狗头上会出现什么情况。《中国企业家》:这次Sora的一个突破,实际是Transformer和扩散模型的结合。周鸿祎:其实大家把它叫做Diffusion大模型或者Diffusion Transformer,这里面核心还是Transformer。OpenAI用Transformer找到了一条统一来做AGI的路。Diffusion是处理生图的时候用到的一种技术,它最后只是用来渲染,没有Diffusion它最多是画不出视频,但它一样有多模态的输入和学习,一样有把很多知识存到Transformer里面。OpenAI虽然用到的技术是Google发明的,但用法是自己独创的,真正做到大力出奇迹。其实Sora的很多东西都没有公布。OpenAI这帮人真的非常精明,他们知道到哪一步能让你心痒痒,哪一点能让你觉得这是个正确的方向。但真正的诀窍他们是绝对不会说的。《中国企业家》:Sora是不是对算力要求特别高?周鸿祎:第一,视频要分析的要素太多了,1秒钟24帧,1分钟是60秒,每1帧的分辨率又是1920×1080 for HD的图像,对算力的需求非常大。如果对算力的需求不大,它就不是1分钟了。但OpenAI不缺显卡,最近Altman说要弄7万亿美元做新的算力架构,说明他们AGI再往下走对算力的需求可能超出我们每个人的想象。《中国企业家》:目前Sora的视频还有穿帮的这种成分在里面,这是因为哪些技术未完善?周鸿祎:做错的部分有两种可能,一种它没有受过这方面的训练,只要持续给算力,给训练,这些东西都是可以改进的;第二,可能就像幻觉一样,我认为都是瑕不掩瑜。
《中国企业家》:有网友问,Sora对中国市场有什么影响?周鸿祎:Sora给了中国的互联网和人工智能行业一个响亮的提醒,承认差距并不丢人,知道差距在哪儿,我们迎头赶上。别人起步毕竟比我们更早,有很多从0到1的原始创新,比如芯片、软件。即使新能源车今天取得了进展,但你不得不承认,最开始也是先模仿,先追随,在这个过程中再积累,再创新,再超越。这需要一个过程。向人学习没啥丢人的,华为的任老板也经常强调向人学习。中国AI行业要戒掉吹牛的习惯,都说和OpenAI差不多了,甚至通过刷榜,把OpenAI的GPT4都刷到十名开外了。这种自我安慰、自我欺骗是没有意义的,因为你会迷惑自己,老觉得自己很了不起,说多了可能自己都信了,反而最后被人在关键的地方给落下了。另外,现在国内也不用太悲观,有些技术诀窍,我觉得很快地也都会被探索出来,剩下的需要时间。国内比较值得担忧的有三点:第一,人才的高度和密度;第二,算力,做Sora和下一步更大规模的大模型对算力的要求可能又是一个积累,10万块显卡是个基本起点;第三,知识的问题,尽管我们很多人觉得中文搜索引擎更懂中文,但是网上的很多语料并不适合用来做直接的训练,训练大模型需要的是高纯度的知识。《中国企业家》:还有网友问,360的未来是什么?周鸿祎:我们All in AI,通过一年的时间对大模型的研发,已经完成了AI信仰。我们在核心的安全领域已经打造出行业里最强的安全大模型,会用大模型的人工智能能力赋能安全服务,把能力再提升一个数量级。当然,中国有个巨大的机会,大模型一方面是做这种千亿、万亿参数的超级通用大模型;还有一个方向是把大模型走向垂直化、产业化、行业化的路,做各种企业大模型、场景大模型,把大模型赋能成传统行业,特别是传统制造业转型升级。