分享即时通讯开发之实时音视频技术基础知识-小布丁的-ChinaUnix博客

小布丁的的ChinaUnix博客

首页　| 　博文目录　| 　关于我

小布丁的

博客访问： 143546
博文数量： 228
博客积分： 0
博客等级：民兵
技术积分： 2290
用户组：普通用户
注册时间： 2021-05-18 15:26

文章分类

全部博文（228）

未分配的博文（228）

文章存档

2023年（40）

2022年（114）

2021年（74）

我的朋友

相关博文

分享即时通讯开发之实时音视频技术基础知识

分类：云计算

2022-11-15 13:56:57

随着移动网络速度越来越快、质量越来越来，实时音视频技术已经在各种应用场景下全面开花，语音通话、视频通话、视频会议、远程白板、远程监控等等。实时音视频技术的开发也越来越受到重视，但是由于音视频开发涉及知识面比较广，入门门槛相对较高，让许许多多开发者望而生畏。

本来是一本静态的小人书，通过翻动以后，就会变成一个有趣的小动画，如果画面够多，翻动速度够快的话，这其实就是一个小视频。而视频的原理正是如此，由于人类眼睛的特殊结构，画面快速切换时，画面会有残留，感觉起来就是连贯的动作。所以，视频就是由一系列图片构成的。

帧，是视频的一个基本概念，表示一张画面，如上面的翻页动画书中的一页，就是一帧。一个视频就是由许许多多帧组成的。

帧率，即单位时间内帧的数量，单位为：帧/秒或fps（frames per second）。如动画书中，一秒内包含多少张图片，图片越多，画面越顺滑，过渡越自然。

帧率的一般以下几个典型值：

1）24/25 fps：1秒 24/25 帧，一般的电影帧率；
2）30/60 fps：1秒 30/60 帧，游戏的帧率，30帧可以接受，60帧会感觉更加流畅逼真。
85 fps以上人眼基本无法察觉出来了，所以更高的帧率在视频里没有太大意义。

这里我们只讲常用到的两种色彩空间。

1）RGB：RGB的颜色模式应该是我们{BANNED}最佳熟悉的一种，在现在的电子设备中应用广泛。通过R G B三种基础色，可以混合出所有的颜色；
2）YUV：这里着重讲一下YUV，这种色彩空间并不是我们熟悉的。这是一种亮度与色度分离的色彩格式。

早期的电视都是黑白的，即只有亮度值，即Y。有了彩色电视以后，加入了UV两种色度，形成现在的YUV，也叫YCbCr。

1）Y：亮度，就是灰度值。除了表示亮度信号外，还含有较多的绿色通道量；
2）U：蓝色通道与亮度的差值；
3）V：红色通道与亮度的差值。

音频数据的承载方式{BANNED}最佳常用的是脉冲编码调制，即 PCM。

在自然界中，声音是连续不断的，是一种模拟信号，那怎样才能把声音保存下来呢？那就是把声音数字化，即转换为数字信号。

我们知道声音是一种波，有自己的振幅和频率，那么要保存声音，就要保存声音在各个时间点上的振幅。

而数字信号并不能连续保存所有时间点的振幅，事实上，并不需要保存连续的信号，就可以还原到人耳可接受的声音。即时通讯聊天软件app开发可以加蔚可云的v：weikeyun24咨询

根据奈奎斯特采样定理：为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中{BANNED}最佳高频率的2倍。

根据以上分析，PCM的采集步骤分为以下步骤：

模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

采样率，即采样的频率。

上面提到，采样率要大于原声波频率的2倍，人耳能听到的{BANNED}最佳高频率为20kHz，所以为了满足人耳的听觉要求，采样率至少为40kHz，通常为44.1kHz，更高的通常为48kHz。

采样位数，涉及到上面提到的振幅量化。波形振幅在模拟信号上也是连续的样本值，而在数字信号中，信号一般是不连续的，所以模拟信号量化以后，只能取一个近似的整数值，为了记录这些振幅值，采样器会采用一个固定的位数来记录这些振幅值，通常有8位、16位、32位。

{BANNED}最佳后就是编码了。由于数字信号是由0，1组成的，因此，需要将幅度值转换为一系列0和1进行存储，也就是编码，{BANNED}最佳后得到的数据就是数字信号：一串0和1组成的数据。

声道数，是指支持能不同发声（注意是不同声音）的音响的个数。

单声道：1个声道
双声道：2个声道
立体声道：默认为2个声道
立体声道（4声道）：4个声道

码率，是指一个数据流中每秒钟能通过的信息量，单位bps（bit per second）。

码率 = 采样率 * 采样位数 * 声道数

这里的编码和上面音频中提到的编码不是同个概念，而是指压缩编码。

我们知道，在计算机的世界中，一切都是0和1组成的，音频和视频数据也不例外。由于音视频的数据量庞大，如果按照裸流数据存储的话，那将需要耗费非常大的存储空间，也不利于传送。而音视频中，其实包含了大量0和1的重复数据，因此可以通过一定的算法来压缩这些0和1的数据。

特别在视频中，由于画面是逐渐过渡的，因此整个视频中，包含了大量画面/像素的重复，这正好提供了非常大的压缩空间。

因此，编码可以大大减小音视频数据的大小，让音视频更容易存储和传送。

那么，未经编码的原始音视频，数据量至底有多大？

以一个分辨率1920×1280，帧率30的视频为例：

共：1920×1280=2,073,600（Pixels 像素），每个像素点是24bit（前面算过的哦）；
也就是：每幅图片2073600×24=49766400 bit，8 bit（位）=1 byte（字节）；
所以：49766400bit=6220800byte≈6.22MB。

这是一幅1920×1280图片的原始大小，再乘以帧率30。

也就是说：每秒视频的大小是186.6MB，每分钟大约是11GB，一部90分钟的电影，约是1000GB。。。

视频编码格式有很多，比如H26x系列和MPEG系列的编码，这些编码格式都是为了适应时代发展而出现的。

其中，H26x（1/2/3/4/5）系列由ITU（International Telecommunication Union）国际电传视讯联盟主导

MPEG（1/2/3/4）系列由MPEG（Moving Picture Experts Group, ISO旗下的组织）主导。

当然，他们也有联合制定的编码标准，那就是现在主流的编码格式H264，当然还有下一代更先进的压缩编码标准H265。

视频编码知识比较专业，限于篇幅，我就不在此展开讨论了。

阅读(242) | 评论(0) | 转发(0) |

上一篇：即时通讯开发之视频高度压缩背后的预测技术

下一篇：即时通讯开发之如何让实时视频直播首屏耗时400ms内

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6