做原创视频说话和字幕同步是怎么做到的，有没有什么便捷的软件？

dushikuaile 2019-09-27

展开全文

解题

原创视频就没什么好说的了，关键是说话和字幕同步！

这里其实有两个动作：

1、从视频得到字幕（含时间轴）

2、为视频配上字幕

很多答主，仅仅是做到了第二条，这个几乎所有的后编软件标配。

其实现关键的是第一条，得到字幕，这个技术含量就高了，还有准确率的要求。

因为不打算重复其它答主的劳动，主要就第一点来专题阐述一下吧。

3、这里主要为大家介绍一款强到没边的TTS工具VI

一、常用工具

二、Video Indexer （视频见解）

三、我的建议

一、常用工具

1、Arctime（PC首选）

官网地址：

https:///

这款必须介绍，三大理由：强大、免费、简单

官网介绍如下：Arctime 是一个全新理念的可视化字幕创作软件，可以运行在Mac、Windows、Linux上。借助精准的音频波形图，可以快速创建和编辑时间轴，还可以高效的进行文本编辑、翻译。支持SRT、ASS外挂字幕格式，并可以通过交换工程文件或与伙伴协同工作。字幕编辑完成后，仅需单击“视频转码”按钮，即可轻松完成字幕压制工作。

2、快影（手机首选）

下载地址：

http://app.mi.com/details?id=com.kwai.videoeditor

这款必须介绍，三大理由：手机、免费、快速

介绍如下：快影是一款手机 App，能够自动将识别出的文字和时间轴匹配，生成字幕。视频往App里面一添加，啥事都不用干了，App 自动识别出语音，自动转化为文本，自动添加到对应的时间点，特别适合用于30秒以上长视频制作，一切都是那么简单。

3、Video Indexer（强大首选）

使用地址：

https://vi.microsoft.com/zh-hans/

今天介绍这款，三大理由：强大、强大、强大

介绍：真的如下了......

二、Video Indexer （视频见解）

语音识别等技术的快速进步，现在可以比较准确的通过智能设备自动将视频中的语音识别提取出来。Video Indexer 中文名称“视频见解”，简称VI。TTS中的佼佼者，然不也不会向您推荐。

有多强大呢，先列出来吓吓你：

隐藏式字幕：以三种格式创建隐藏式字幕：VTT、TTML、SRT。
双通道处理：自动检测、隔离脚本及合并到单个时间线。
噪声消减：清理电话音频或有噪音的录制内容（基于 Skype 滤波器）。
脚本自定义 (CRIS)：训练和执行扩展的自定义语音转文本模型，以创建行业特定的脚本。
说话人枚举：映射和了解哪个说话人在何时说了哪些话。
说话人统计信息：提供说话人发言比率的统计数据。
视觉文本识别 (OCR)：提取视频中显示的可视文本。
关键帧提取：检测视频中稳定的关键帧。
情绪分析：在语音和视觉文本中识别积极、消极和中性情绪。
视觉内容审核：检测成人和/或挑逗性视觉对象。
关键字提取：从语音和视觉文本中提取关键字。
标签识别：识别显示的视觉对象和动作。
品牌提取：从语音和视觉文本中提取品牌。
人脸检测：检测和分组视频中显示的人脸。
人脸缩略图提取（“最佳人脸”）：在每组人脸中自动识别捕获的最佳人脸（基于质量、大小和正面位置），并将其提取为图像资产。
名人识别：视频索引器自动识别超过 100 万名名人，如世界各国领导人、男演员和女演员、运动员、研究人员、商业和科技领袖。有关这些名人的数据也可以在各种著名网站上找到，例如 IMDB 和维基百科。
基于帐户的人脸识别：视频索引器针对特定帐户训练模型。然后，它会根据专门为该帐户中的视频训练的模型识别视频中的人脸。
文本内容审核：检测音频脚本中的显式文本。
镜头检测：确定视频中的场景何时发生了更改。
黑帧检测：识别视频中的黑帧。
音效：识别击掌、讲话和静音等音效。
主题推理：根据脚本推理主要主题。包括第一级 IPTC 分类。
情感检测：基于语音和音频提示识别情感。情感可能是：快乐、悲伤、愤怒或恐惧。
项目：提取每个模型的丰富的“下一种详细程度”项目。
翻译：将音频脚本翻译成 54 种不同的语言。

希望没吓着你，其实还是非常好用的，非常！

视频见解的英文名称是 Video Indexer ，也简称为 V I ，它是由“认知服务”、“云媒体分析”、 “云搜索”构建的云应用程序。它能够从视频中提取各种见解。使用视频见解的功能，你首先需要拥有一个账号（比如O365 账号），然后进入视频见解的官网，并按图中展示的步骤登录，进入操作状态。

视频见解，是微软最新推出的认知服务。视频见解建立在媒体 AI 技术的基础上，使从视频中提取见解变得更加容易。微软认知服务（Microsoft Cognitive Services）集合了多种智能API以及知识API。借助这些API，开发者可以开发出更智能，更有吸引力的产品。视频见解，本身就调用了多项基础认知服务 API 。主要包括：

Face API：这是一种提供最先进人脸算法的基于云的服务。 Face API有两个主要功能：具有属性的人脸检测和人脸识别。

Microsoft Translator：开发人员可以轻松地将其集成到他们的应用程序，网站，工具或需要多语言支持的任何解决方案中，客户支持应用程序，消息应用程序，内部沟通等等。

Computer Vision API：借助计算机视觉API，您可以分析图像，处理图像和返回信息的高级算法。

Custom Speech Service：基于云的自动翻译服务。 API使开发人员能够将端到端的实时语音翻译添加到他们的应用程序。