即时通讯开发之视频高度压缩背后的预测技术-小布丁的-ChinaUnix博客

小布丁的的ChinaUnix博客

首页　| 　博文目录　| 　关于我

小布丁的

博客访问： 143572
博文数量： 228
博客积分： 0
博客等级：民兵
技术积分： 2290
用户组：普通用户
注册时间： 2021-05-18 15:26

文章分类

全部博文（228）

未分配的博文（228）

文章存档

2023年（40）

2022年（114）

2021年（74）

我的朋友

相关博文

即时通讯开发之视频高度压缩背后的预测技术

分类：云计算

2022-11-14 13:54:13

从 20 世纪 90 年代以来，数字音视频编解码技术迅速发展，一直是国内外研究的热点领域。随着5G的成熟和广泛商用，带宽已经越来越高，传输音视频变得更加容易。视频直播、视频聊天，已经完全融入了每个人的生活。视频为何如此普及呢？是因为通过视频能方便快捷地获取到大量信息。但视频数据量非常巨大，视频的网络传输也面临着巨大的挑战。于是视频编解码技术就出场了。具体到实时视频场景，不仅仅是数据量的问题，实时通信对时延要求、设备适配、带宽适应的要求也非常高，要解决这些问题，始终离不开视频编解码技术的范畴。

首先，来复习一下视频编解码方面的理论常识。

视频是由一系列图片按照时间顺序排列而成：

1）每一张图片为一帧；
2）每一帧可以理解为一个二维矩阵；
3）矩阵的每个元素为一个像素。

一个像素通常由三个颜色进行表达，例如用RGB颜色空间表示时，每一个像素由三个颜色分量组成。每一个颜色分量用1个字节来表达，其取值范围就是0~255。编码中常用的YUV格式与之类似，这里不作展开。

以1280x720@60fps的视频序列为例，十秒钟的视频有：1280*720*3*60*10 = 1.6GB。

如此大量的数据，无论是存储还是传输，都面临巨大的挑战。视频压缩或者编码的目的，也是为了保证视频质量的前提下，将视频减小，以利于传输和存储。同时，为了能正确还原视频，需要将其解码。

总之，视频编解码技术的主要作用就是：在可用的计算资源内，追求尽可能高的视频重建质量和尽可能高的压缩比，以达到带宽和存储容量的要求。

为何突出“重建质量”？

因为视频编码是个有损的过程，用户只能从收到的视频流中解析出“重建”画面，它与原始的画面已经不同，例如观看低质量视频时经常会碰到的“块”效应。

如何在一定的带宽占用下，尽可能地保持视频的质量，或者在保持质量情况下，尽可能地减少带宽利用率，是视频编码的基本目标。

用专业术语来说，即视频编解码标准的“率失真”性能：

1）“率”是指码率或者带宽占用；
2）“失真”是用来描述重建视频的质量。

与编码相对应的是解码或者解压缩过程，是将接收到的或者已经存储在介质上的压缩码流重建成视频信号，然后在各种设备上进行显示。即时通讯聊天软件app开发可以加蔚可云的v：weikeyun24咨询

视频编解码标准，通常只定义上述的解码过程。

例如 H.264 / AVC 标准，它定义了什么是符合标准的视频流，对每一个比特的顺序和意义都进行了严格地定义，对如何使用每个比特或者几个比特表达的信息也有精确的定义。

正是这样的严格和精确，保证了不同厂商的视频相关服务，可以很方便地兼容在一起，例如用 iPhone、Android Phone 或者 windows PC 都可以观看同一在线视频网站的同一视频。

世界上有多个组织进行视频编码标准的制定工作，国际标准组织 ISO 的 MPEG 小组、国际电信联盟 ITU-T 的 VCEG 小组、中国的 AVS 工作组、Google 及各大厂商组成的开放媒体联盟等。

自 VCEG 制定 H.120标准开始，视频编码技术不断发展，先后成功地制定了一系列满足不同应用场景的视频编码标准。VCEG 组织先后制定了H.120、H.261、H.262(MPEG-2 Part 2)、H.263、H.263+、H.263++。

MPEG也先后制定了MPEG-1、MPEG-2、MPEG-4 Part 2。以及两个国际组织合作制定的H.264/AVC、H.265/HEVC、H.266/VVC。

中国自主知识产权的 AVS、AVS2、AVS3 视频编码标准；Google 制定的 VP8、VP9。

Google、思科、微软、苹果等公司组成的开放媒体联盟（AOM）制定的 AV1。

这里特别提一下H.264/AVC：H.264/AVC虽有近20年历史，但它优秀的压缩性能、适当的运算复杂度、优秀的开源社区支持、友好的专利政策、强大的生态圈等多个方面的因素，依旧让它保持着强大的生命力，特别是在实时通信领域。像 ZOOM、思科 Webex 等视频会议产品和基于 WebRTC SDK 的视频服务，大多数主流场景都采用 H.264/AVC。

摄像头采集到的一帧视频：通常是 YUV 格式的原始数据，我们将它划分成多个方形的像素块依次进行处理（例如 H.264/AVC 中以16x16像素为基本单元），进行帧内/帧间预测、正变换、量化、反量化、反变换、环路滤波、熵编码，{BANNED}最佳后得到视频码流。从视频{BANNED}中国第一帧的{BANNED}中国第一个块开始进行空间预测，因当前正在进行编码处理的图像块和其周围的图像块有相似性，我们可以用周围的像素来预测当前的像素。我们将原始像素减去预测像素得到预测残差，再将预测残差进行变换、量化，得到变换系数，然后将其进行熵编码后得到视频码流。

接下来：为了可以使后续的图像块可以使用已经编码过的块进行预测，我们还要对变换系统进行反量化、反变换，得到重建残差，再与预测值进行求合，得到重建图像。{BANNED}最佳后我们对重建图像进行环路滤波、去除块效应等，这样得到的重建图像，就可以用来对后续图像块进行预测了。按照以上步骤，我们依次对后续图像块进行处理。

对于视频而言：视频帧与帧的间隔大约只有十到几十毫秒，通常拍摄的内容不会发生剧烈变化，它们之间存在非常强的相关性。

如下图所示，将视频图像分割成块，在时间相邻的图像之间进行匹配，然后将匹配之后的残差部分进行编码，这样可以较好地去除视频信号中的视频帧与帧之间的冗余，达到视频压缩的目的。这就是运动补偿技术，直到今天它仍然是视频编解码的核心技术之一。

变换编码的核心思想：是把视频数据分割成块，利用正交变换将数据的能量集中到较少几个变换系数上。结合量化和熵编码，我们可以获得更有效的压缩。视频编码中信息的损失和压缩比的获得，很大程度上来源于量化模块，就是将源信号中的单一样本映射到某一固定值，形成多到少的映射，从而达到压缩的目的，当然在压缩的过程中就引入了损失。量化后的信号再进行无损的熵编码，消除信号中的统计冗余。熵编码的研究{BANNED}最佳早可以追溯到 20 世纪 50 年代，经过几十年的发展，熵编码在视频编码中的应用更加成熟、更加精巧，充分利用视频数据中的上下文信息，将概率模型估计得更加准确，从而提高了熵编码的效率。例如H.264/AVC中的Cavlc（基于上下文的变长编码）、Cabac（基于上下文的二进制算术编码）。算术编码技术在后续的视频编码标准，如AV1、HEVC/H.265、VVC/H.266 中也有应用。

视频编码发展至今，VVC/H.266 作为{BANNED}最佳新制定的标准，采纳了一系列先进的技术，对混合编码框架的各个部分都进行了优化和改进，使得其率失真性能相比前一代标准，又提高了一倍。

例如：VVC/H.266 采用了128x128大小的基本编码单元，并且可以继续进行四叉树划分，支持对一个划分进行二分、三分；色度分量独立于亮度分量，支持单独进行划分；更多更精细的帧内预测方向、帧间预测模式；支持多种尺寸和形式的变换、环内滤波等。

VVC/H.266 的制定，目标是对多种视频内容有更好支持，例如屏幕共享内容、游戏、动漫、虚拟现实内容（VR、AR）等。其中也有特定的技术被采纳进标准，例如调色板模式、帧内运动补偿、仿射变换、跳过变换、自适应颜色变换等。

回到本文的正题，接下来的内容，我们着重介绍视频编解码中的预测技术。

阅读(365) | 评论(0) | 转发(0) |

上一篇：即时通讯开发之WebRTC服务器是如何联接通话的

下一篇：分享即时通讯开发之实时音视频技术基础知识

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6