搜索

分享

QQ空间 QQ好友新浪微博微信

阿里达摩院低调上线文本生成视频大模型，可以试玩！AI开始卷视频了

勇无止境879 2023-03-22 发布于广西

展开全文

这波AIGC（利用人工智能技术来生成内容）的热潮，已经开卷视频了。

上个月初，橙柿互动记者报道过，阿里达摩院正在研发类ChatGPT的对话机器人，当时已开放给公司内员工测试。

94659

阿里达摩院也在研究ChatGPT产品？刚刚，阿里回应橙柿互动

没想到，一个多月后，先露面的是文本生成视频。

就在昨天，阿里达摩院低调地在魔搭社区（ModelScope）放出了“文本生成视频大模型”。魔搭，是达摩院在去年11月推出的开源模型平台。

文章图片2

根据官方介绍，目前这个模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

文章图片3

看不太懂？没关系。会玩就行。

记者刚才试了一把。输入提示词：A panda eating bamboo on a rock，等了差不多77秒，收到一段2秒钟的视频。感受一下~

文章图片4

如果换成中文：一只大熊猫坐在岩石上吃竹子，出来的结果就是一只类似于猫咪的小动物。果然，目前还不支持中文。

文章图片5

再来几个~

A goldendoodle playing in a park by a lake.（一只金贵犬在湖边的公园玩耍）

文章图片6

A dog wearing a Superhero outfit with red cape flying through the sky.（一只身着超级英雄装和红斗篷的狗正在天上飞）

文章图片7

Monkey learning to play the piano.（猴子正在学习弹钢琴）

文章图片8

从试玩的结果来看，目前能生成的视频长度多在2-4秒，生成等候时间从20多秒到1分多钟不等。

感兴趣的，不妨自己去体验一下（上“魔搭社区”搜索“文生视频”，跳出来的第一个即是）。

达摩院的这个发布，也在国内外的社交平台上吸引了一波尝鲜的网友。因为玩的人太多，有微博网友说，连刷20次都没挤进去。

文章图片9

文章图片10

文章图片11

文章图片12

另外，今天凌晨，总部位于纽约的人工智能初创公司Runway也发布了一种从文本到视频转化的AI模型Gen-2。

上个月，这家曾参与创建Stable Diffusion的公司推出过模型Gen-1，能通过文本提示或参考图像指定的风格，将现有视频转化为新视频。

比如将“街道上的人”变成“粘土木偶”，只需要一行提示词。

文章图片13

从命名上就能看出，Gen-2是Gen-1的升级版，能从零开始产出视频。目前，我们只能看到Runway分享出来的一些演示片段。根据该公司的说法，未来几周会提供广泛访问试用。

文章图片14

文章图片15

早在去年，谷歌和Meta都展示了各自在文本转视频上的尝试，利用AI生成泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有宣布将相关技术推进到研究阶段以外的计划。

文章图片16

文本生成视频，最理想的效果就是用户给出提示词，系统自动生成任何风格的对应视频。

不过，从目前此类模型生成视频的等待时间，画面的真实度、清晰度以及长度等各方面来看，距离产出令人满意的视频还有很大距离。

事实上，与图像编辑相比，视频编辑是一个更有挑战性的领域。扎克伯格此前就在推特上说过，AI模型能从生成静态像素，发展到预测每个像素随着时间推移发生的变化，这在技术上已经是一个突破。

当然了，也许用不了多久，AI就会解决现存的这些缺陷。将来，哪怕完全不懂视频制作的人，也能上手做视频，且可能是批量产出。

橙柿互动记者童蔚

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：勇无止境879 > 《科技》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

勇无止境879

关注对话

TA的最新馆藏

中医诊断博大精深，但入门也有捷径几张表格，让你轻松掌握中医诊断
肝郁导致的海绵体软短，柴胡疏肝无效？只有健脾清湿热化瘀可解！
广西加快建设物流聚集区，涉及这几个市
骨痛灵汤
在中华医学的博大精深中，我得以继承师父留下的脑梗死妙方
一剂三通汤，通心通脑，通全身淤堵

喜欢该文的人也喜欢更多

热门阅读换一换