vivo互联网技术

首页　| 　博文目录　| 　关于我

vivo互联网技术

博客访问： 981803
博文数量： 253
博客积分： 0
博客等级：民兵
技术积分： 2609
用户组：普通用户
注册时间： 2019-03-08 17:29

个人简介

分享 vivo 互联网技术干货与沙龙活动，推荐最新行业动态与热门会议。

文章分类

全部博文（253）

技术文章（251）
未分配的博文（2）

文章存档

2022年（60）

2021年（81）

2020年（83）

2019年（29）

我的朋友

一、优化背景

当业务快速增长，每天需要处理万亿记录级数据量时。在读写数据方面，Kafka 集群的压力将变得巨大，而磁盘 IO 成为了 Kafka 集群最大的性能瓶颈。

当出现入流量突增或者出流量突增情况，磁盘 IO 持续处于被打满状态，导致无法处理新的读写请求，甚至造成部分broker节点雪崩而影响集群的稳定。

如下图所示，磁盘 IO 被持续打满：

这严重的影响了集群的稳定，从而影响业务的稳定运行。对此，我们做出了一些针对性的优化方案：

对Linux操作系统的Page Cache参数进行优化；【本文主要讲解内容】
对kafka集群用户的出入流量进行限制，避免出入流量突增给磁盘IO带来的压力；【本文对此方案不做讲解】
按业务对集群进行资源组隔离（集群broker的物理隔离），避免不同业务间因为共享磁盘IO相互影响；【本文对此方案不做讲解】
对Kafka集群broker节点服务参数进行优化；【本文对此方案不做讲解】
改造Kafka副本迁移源码，实现增量并发副本迁移，减少副本迁移给集群broker节点磁盘IO带来的压力；【本文对此方案不做讲解】
开发一套Kafka集群自动负载均衡服务，定期对集群进行负载均衡；【本文对此方案不做讲解】
采用IO性能更好的SSD固态硬盘替换普通的机械硬盘；进行磁盘RAID让broker内部多块磁盘间IO负载更加均衡【本文对此方案不做讲解】
改造Kafka源码，对Kafka集群单个broker及单个topic进行出入流量限制，实现流量对最细粒度控制；当单个broker流量突增时可以对其进行上限限制，避免节点被异常流量打挂；【本文对此方案不做讲解】
改造Kafka源码，修复副本迁移任务启动后不可手动终止的缺陷，实现当因迁移导致负载过高却无法停止的问题；【本文对此方案不做讲解】
机房网络带宽的竞争也将间接的影响到follower同步leader的数据，最终将导致follower同步拉取历史数据而增加IO负载，因此需要对网络带宽进行优先级打标，当有竞争时提高Kafka集群的优先级，避免kafka集群的broker和其他大量消耗网络带宽的业务共用机房交换机。【本文对此方案不做讲解】

以上只是列举了几点主要的优化方案，还有一些其他的内容这里不再赘述。本文我们主要来讲解一下 Linux操作系统的Page Cache参数调优。

二、基本概念

1、什么是Page Cache？

Page Cache是针对文件系统的缓存，通过将磁盘中的文件数据缓存到内存中，从而减少磁盘I/O操作提高性能。

对磁盘的数据进行缓存从而提高性能主要是基于两个因素：

磁盘访问的速度比内存慢好几个数量级（毫秒和纳秒的差距）；
被访问过的数据，有很大概率会被再次访问。

文件读写流程如下所示：

2、读Cache

当内核发起一个读请求时（例如进程发起read()请求），首先会检查请求的数据是否缓存到了Page Cache中。

如果有，那么直接从内存中读取，不需要访问磁盘，这被称为cache命中（cache hit）；

如果cache中没有请求的数据，即cache未命中（cache miss），就必须从磁盘中读取数据。然后内核将读取的数据缓存到cache中，这样后续的读请求就可以命中cache了。

page可以只缓存一个文件部分的内容，不需要把整个文件都缓存进来。

3、写Cache

当内核发起一个写请求时（例如进程发起write()请求），同样是直接往cache中写入，后备存储中的内容不会直接更新（当服务器出现断电关机时，存在数据丢失风险）。

内核会将被写入的page标记为dirty，并将其加入dirty list中。内核会周期性地将dirty list中的page写回到磁盘上，从而使磁盘上的数据和内存中缓存的数据一致。

当满足以下两个条件之一将触发脏数据刷新到磁盘操作：

数据存在的时间超过了dirty_expire_centisecs（默认300厘秒，即30秒）时间；
脏数据所占内存 > dirty_background_ratio，也就是说当脏数据所占用的内存占总内存的比例超过dirty_background_ratio（默认10，即系统内存的10%）的时候会触发pdflush刷新脏数据。

4、Page Cache缓存查看工具

我们如何查看缓存命中率呢？在这里我们可以借助一个缓存命中率查看工具 cachestat。

（1）下载安装

			
									mkdir /opt/bigdata/app/cachestat
								
									cd  /opt/bigdata/app/cachestat
								
									git clone --depth 1

（2）启动执行

（3）输出内容说明

5、如何回收Page Cache

执行脚本：echo 1 > /proc/sys/vm/drop_caches 这里可能需要等待一会，因为有应用程序正在写数据。

回收前：

回收后：

缓存回收后，正常情况下，buff/cache应该是0的，我这里之所以不为0是因为有数据正在不停的写入。

三、参数调优

备注：不同硬件配置的服务器可能效果不同，所以，具体的参数值设置需要考虑自己集群硬件配置。

考虑的因素主要包括：CPU核数、内存大小、硬盘类型、网络带宽等。

1、如何查看Page Cache参数

执行命令 sysctl -a|grep dirty

2、操作系统Page Cache相关参数默认值

		
								vm.dirty_background_bytes = 0 # 和参数vm.dirty_background_ratio实现相同功能，但两个参数只会有其中一个生效，表示脏页大小达到多少字节后开始触发刷磁盘
							
								vm.dirty_background_ratio = 10
							
								vm.dirty_bytes = 0 # 和参数vm.dirty_ratio实现相同功能，但两个参数只会有其中一个生效，表示脏页达到多少字节后停止接收写请求，开始触发刷磁盘
							
								vm.dirty_ratio = 20
							
								vm.dirty_expire_centisecs = 3000 #这里表示30秒（时间单位：厘秒）
							
								vm.dirty_writeback_centisecs = 500 #这里表示5秒（时间单位：厘秒）

3、如果系统中cached大量数据可能存在的问题

缓存的数据越多，丢数据的风险越大。
会定期出现IO峰值，这个峰值时间会较长，在这期间所有新的写IO性能会很差（极端情况直接被hang住）。

后一个问题对写负载很高的应用会产生很大影响。

4、如何调整内核参数来优化IO性能？

（1）vm.dirty_background_ratio参数优化

当cached中缓存当数据占总内存的比例达到这个参数设定的值时将触发刷磁盘操作。

把这个参数适当调小，这样可以把原来一个大的IO刷盘操作变为多个小的IO刷盘操作，从而把IO写峰值削平。

对于内存很大和磁盘性能比较差的服务器，应该把这个值设置的小一点。

		
								#设置方法1：
							
								sysctl -w vm.dirty_background_ratio=1(临时生效，重启服务器后失效)
							
								#设置方法2(永久生效):
							
								echo vm.dirty_background_ratio=1 >> /etc/sysctl.conf
							
								sysctl -p /etc/sysctl.conf
							
								#设置方法3(永久生效):
							
								#当然你还可以在/etc/sysctl.d/目录下创建一个自己的参数优化文件，把系统优化参数进行归类存放，然后设置生效，如：
							
								touch /etc/sysctl.d/kafka-optimization.conf
							
								echo vm.dirty_background_ratio=1 >> /etc/sysctl.d/kafka-optimization.conf
							
								sysctl --system