【原】你的数字人处在哪个阶段？

Mixlab交叉学科 2022-03-29

展开全文

Mixlab

如果你拥有了自己的数字人，会将如何使用ta？

小杜

我需要一位虚拟主播来播报我的推送文章～

最近正好尝试了一种虚拟人的解决方案

shadow

小杜

厉害了，制作用到了什么技术？

TTS+一张图片+一段驱动动作（first order motion）

shadow

小杜

查阅了下资料，这种驱动数字人属于 First order motion model

- First Order Motion Model for Image Animation

‍

# 功能 & 自评

无需对目标图像进行任何加注或者信息预处理，就可依据动画驱动数据源的动画轨迹来生成动画。

Our framework scores best on diverse benchmarks and on a variety of object categories.

#项目 & 论文地址

aliaksandrsiarohin.github.io/first-order-model-website

github.com/AliaksandrSiarohin/first-order-model

- TTS 技术

Test-To-Speech 使用语音 API 将书面文本转换为具有多种声音和语言的自然语音。用生成的语言与世界各地的客户交谈，创造更好的客户体验。

# vonage 专业文本转语音工具

# Synthesia 运用TTS + first order motion 的数字人视频生成工具

ML1726

上述案例多用于“离线式”的数字人应用场景。如果需要与数字人进行实时的交流沟通，有项目采用的是 ASR+TTS+Audio2face 方案。

ASR 自动语音识别 + TTS 文本转语音 +Voice2Face 语音控制驱动模型（声音数据对应的标签是模型动画的 blendshape 权重）

小杜

可以上手体验下开源项目，自己制作数字人

- FACEGOOD

FACEGOOD 将音频转换为混合权重（blendshape 权重），并在 UE 项目中驱动数字人小美。FACEGOOD为小美打造的Test部分和UE项目不提供商业用途，仅供测试使用。

#项目地址

github.com/FACEGOOD/Voice2Face

ML1593

举手🙋‍♂️，现在比较困扰的问题是通用元宇宙身份解决方案。将一个通用的虚拟形象迁入多个平台有什么简单快捷的方法吗？

或许从摄像头这块接入是最便捷的方法？这类数字人算是元宇宙的初级分身了。

shadow

- Snap Camera

Snap Camera 可调用用户设备的摄像头，在任何平台使用摄像头输出头像或视频时均可使用Snap Camera的滤镜库

小杜

试试用 Snap Camera 迁入 Vland 元宇宙空间

小杜

用摄像头作为跨平台通用形象接入的切入口还挺简易高效的，只是效果渲染层面还有待提高哈，期待 摄像头—完全体数字人化身 产品的出现。

小杜

又来小酒馆玩耍了，这次小酒馆开业展示了不少精彩的作品，欢迎大家前去体验。分享一个十分惊艳的作品，介绍的是与生物设计与计算设计相关的内容，不容错过哦～

......

Mix宇宙小酒馆展览地址：

https://beta./app/scene?eventId=61eec7e0f20ef01f63b7539a

Mixlab

数字人专题分享系列已开启～

数字人·驱动方式

数字人·虚拟偶像制作

数字人·实业应用场景

数字人·趋势展望

入群

备注：数字人

[ 元宇宙创作者指南 ]

[ 元宇宙资源清单 ]

github.com/shadowcz007/awesome-metaverse

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： Mixlab交叉学科 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

Mixlab交叉学科

关注对话

TA的最新馆藏

Sam Altman：一人独角兽公司 + AI工具箱
Her ? GPT-4o
创作者的最佳投资组合是什么？#MiX建站出海计划第二期
构建电影知识库？以及了解“你”是否被用来训练AI？
AI-powered的搜索引擎：Perplexity 与知识工作者
Inert Plan 首发新品「临时结构」

喜欢该文的人也喜欢更多

热门阅读换一换