webrtc音视频开发总结——架构分析

邸彦强 2019-12-29

展开全文

1简介

WebRTC是一项在浏览器内部进行实时视频和音频通信的技术，是谷歌2010年以6820万美元收购Global IP Solutions公司而获得的一项技术。WebRTC提供了视频会议的核心技术，包括音视频的采集、编解码、网络传输、显示等功能，并且还支持跨平台：windows，linux，mac，android。

本文大致介绍webrtc架构，不同模块的详细原理设计分析请参考其它文档。

2 WebRTC框架

2.1 架构图

架构图

2.2 架构组件介绍

(1) Your Web App

Web开发者开发的程序，Web开发者可以基于集成WebRTC的浏览器提供的web API开发基于视频、音频的实时通信应用。

(2) Web API

面向第三方开发者的WebRTC标准API（Javascript），使开发者能够容易地开发出类似于网络视频聊天的web应用，最新的标准化进程可以查看这里。

(3) WebRTC Native C++ API

本地C++ API层，使浏览器厂商容易实现WebRTC标准的Web API，抽象地对数字信号过程进行处理。

(4) Transport / Session

传输/会话层

会话层组件采用了libjingle库的部分组件实现，无须使用xmpp/jingle协议 a. RTP Stack 协议栈

Real Time Protocol

b. STUN/ICE

可以通过STUN和ICE组件来建立不同类型网络间的呼叫连接。

c. Session Management

一个抽象的会话层，提供会话建立和管理功能。该层协议留给应用开发者自定义实现。

(5) VoiceEngine

音频引擎是包含一系列音频多媒体处理的框架，包括从视频采集卡到网络传输端等整个解决方案。VoiceEngine是WebRTC极具价值的技术之一，是Google收购GIPS公司后开源的。

a. iSAC

Internet Speech Audio Codec

针对VoIP和音频流的宽带和超宽带音频编解码器，是WebRTC音频引擎的默认的编解码器采样频率：16khz，24khz，32khz；（默认为16khz）

自适应速率为10kbit/s ~ 52kbit/；

自适应包大小：30~60ms；

算法延时：frame + 3ms

b. iLBC

Internet Low Bitrate Codec

VoIP音频流的窄带语音编解码器

采样频率：8khz；

20ms帧比特率为15.2kbps

30ms帧比特率为13.33kbps

标准由IETF RFC3951和RFC3952定义

c. NetEQ for Voice

针对音频软件实现的语音信号处理元件

NetEQ算法：自适应抖动控制算法以及语音包丢失隐藏算法。使其能够快速且高解析度地适应不断变化的网络环境，确保音质优美且缓冲延迟最小。

是GIPS公司独步天下的技术，能够有效的处理由于网络抖动和语音包丢失时候对语音质量产生的影响。

PS：NetEQ 也是WebRTC中一个极具价值的技术，对于提高VoIP质量有明显效果，加以AEC\NR\AGC等模块集成使用，效果更好。

d. Acoustic Echo Canceler (AEC)

回声消除器是一个基于软件的信号处理元件，能实时的去除mic采集到的回声。

e. Noise Reduction (NR)

噪声抑制也是一个基于软件的信号处理元件，用于消除与相关VoIP的某些类型的背景噪声（嘶嘶声，风扇噪音等等… …）

(6) VideoEngine 视频处理引擎

VideoEngine是包含一系列视频处理的整体框架，从摄像头采集视频到视频信息网络传输再到视频显示整个完整过程的解决方案。

a. VP8

视频图像编解码器，是WebRTC视频引擎的默认的编解码器

VP8适合实时通信应用场景，因为它主要是针对低延时而设计的编解码器。

PS:VPx编解码器是Google收购ON2公司后开源的，VPx现在是WebM项目的一部分，而WebM项目是Google致力于推动的HTML5标准之一

b. Video Jitter Buffer

视频抖动缓冲器，可以降低由于视频抖动和视频信息包丢失带来的不良影响。

c. Image enhancements

图像质量增强模块

对网络摄像头采集到的图像进行处理，包括明暗度检测、颜色增强、降噪处理等功能，用来提升视频质量。

2.3 WebRTC核心模块API

(1)、网络传输模块：libjingle

WebRTC重用了libjingle的一些组件，主要是network和transport组件，关于libjingle的文档请参考其它资料。

(2)、音频、视频图像处理的主要数据结构

注意：以下所有的方法、类、结构体、枚举常量等都在webrtc命名空间里

音频、视频图像处理的主要数据结构

(3)、音频引擎（VoiceEngine）模块 APIs

下表列的是目前在 VoiceEngine中可用的sub APIs

音频引擎（VoiceEngine）模块 APIs

(4)、视频引擎（VideoEngine）模块 APIs

下表列的是目前在 VideoEngine中可用的sub APIs

视频引擎（VideoEngine）模块 APIs

3 音频流程

3.1 音频发送流程

音频发送流程

3.2 音频接收流程

音频接收流程

4 视频流程

4.1 视频发送流程

视频发送流程

4.2 视频接收流程

视频接收流程

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：邸彦强 > 《技术》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

邸彦强

关注对话

TA的最新馆藏

体制内无伤大雅的自我批评1．学习的主动性不够，参加集体安排的多，
体制内无伤大雅的自我批评1．学习的主动性不够，参加集体安排的多，
对话刘铭教授：多模态知识图谱构建初探
“我滴天呐，太震撼了！”据说，一位 985 计算机博士后的肺腑之
“我滴天呐，太震撼了！”据说，一位 985 计算机博士后的肺腑之
结婚典礼上父亲说了六句话迎来满堂喝彩

喜欢该文的人也喜欢更多

热门阅读换一换