Chinaunix首页 | 论坛 | 博客
  • 博客访问: 174259
  • 博文数量: 340
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 3405
  • 用 户 组: 普通用户
  • 注册时间: 2021-05-14 14:39
文章分类

全部博文(340)

文章存档

2023年(69)

2022年(144)

2021年(127)

我的朋友

分类: 信息化

2022-04-12 10:16:58

弱网优化需要解决的核心问题有两点:

1)移动网络环境如此复杂,我们如何确定当下就是弱网环境;

2)确定为弱网环境下,我们如何提升弱网下的成功率,降低弱网下的时延,进而提升用户的网络体验。

判断弱网的指标

首先我们来探讨下都有哪些指标会影响到网络的质量,包括httprtt,tcprtt,throughput,signal strength,bandwidth-delay product。

1)httprtt:

httprtt(http Round-Trip Time)又名TTFB(Time to first

byte),指从客户端请求的第一个字节开始发送到接收到http

header的第一个字节的时间差。httprtt的时间如果过长,一方面是客户端本身接入网络质量的问题,另一方面是服务的延时比较大。

2)tcprtt:

tcprtt(tcp Round-Trip

Time)指客户端tcp信道第一个字节发送到接收第一个字节的时间差。因为HTTP协议底层是基于TCP的,所以在复用同一条tcp连接的前提下,httprtt的时间是包含tcprtt的时间的。大部分情况下httprtt已经可以说明问题的原因。即时通讯开发可以加V:weikeyun24咨询

3)throughput:

throughput,中文名字吞吐量,它是用来衡量单位时间内成功传送数据的数量,是可以比较客观的衡量网络质量的指标。吞吐量

=(获bits结束大小 - 获bits开始大小)/(获bits结束时间 - 获bits开始时间),这里有个细节需要注意,posix

socket的read函数返回值是bytes,所以要乘以8得到bits。通常在httprtt比较小的情况下,网络依然很慢,这个时候就可以使用吞吐量来确定网络的质量。

4)signal strength:

signal

strength,这里指的是无线信号强度,在Android上可以通过PhoneStateListener的onSignalStrengthsChanged方法获取到信号强弱,但要注意只能在Android

M以上的版本才生效。iOS上暂时没有靠谱的实现。

5)bandwidth-delay product:

bandwidth-delay

product,中文名带宽时延乘积,指的是一个数据链路的能力(throughput)与来回通信延迟(rtt)的乘积。带宽时延乘积的结果是比特不是位,这个比特值反应出当前网络管道的最大容量。TCP中有一个窗口大小的概念,会限制发送和接收数据的大小,所以TCP窗口大小的调节是直接受带宽时延乘积的影响,根据带宽时延乘积的值去设置套接字的setsockopt方法,设置的option是SO_RCVBUF(接收缓冲区大小)和SO_SNDBUF(发送缓冲区大小)。

通过上面的内容,我们对影响网络质量的指标有了一定了解,对于不同的产品,影响网络质量的指标可以理解成一样的,但对于每个指标的阈值肯定是不一样的,因为这包含着业务场景,比如抖音是视频类网络传输,微信是长连接数据传输,百度是文本图片类数据传输。还包括服务端配备,不同产品线的服务集群能力肯定不一样,比如返回客户端的服务端耗时肯定不一样。所以针对不同的产品弱网指标是基本一致的,但是指标的取值肯定是不一样的。

如何建立弱网标准

建立弱网标准是一个循序渐进的过程,在一穷二白的时候我们应该如何建立这个标准呢?答案分为三个阶段。

1)第一阶段,线下进行测试:获取一些符合我们预期的阈值,这个时候我们需要借助一些网络测试工具,比如苹果的Network Link Conditioner,Facebook的ATC(Augmented Traffic Control),来获取到线下不同网络情况的阈值,一般我们会测试App冷启动的场景,网络切换的场景,DNS故障场景,弱网场景(一般都是配置上下行的带宽,丢包率,延迟,DNS延迟参数,或者更为简单的是使用工具默认的一些弱网配置)。

2)第二阶段,线上进行验证:通过线下充分测试获取到的阈值,在线上可以获取到弱网的比例,在这里百度App是针对特定场景的,比如Feed刷新,搜索落地页打开等,就算是在移动时代被大家公认的网络体验好的微信,也只是在信令传输(收发消息)上做到极致优化,所以针对场景搜集弱网数据很重要。

3)第三阶段,线上的反复试验:想做到理想的弱网效果,少不了线上反复的阈值调整,通过调整阈值比较针对场景的网络请求的成功率、耗时、连接复用率等指标,使我们获得趋向于针对场景的合理阈值。

网络探测的整体架构和实现

网络探测是弱网检测的基础,是否能即时,正确的检测出网络质量,是我们首先要解决的问题。我们把网络探测划分为两部分,主动网络探测和被动网络采集。

主动网络探测

所谓主动探测,就是在触发了某些条件后,主动的进行网络探测,并按照一定的条件检查出是否是弱网状态。

策略层:

探测策略层通过多种策略的组合,使主动探测的即时性和准确性得以大大提高,我们结合上面的策略层图来解释下检测维度的意义。

我们分别在网络请求成功和失败的时候触发了弱网检测的逻辑。

主要分为如下三种逻辑:

1)成功时,如何判断进入弱网状态?检查weakhttprtt的阈值,这个值取决于业务的设置(一般这个值会针对特殊场景的请求取95分位或者更大分位的值),大于这个值就会进入弱网检测,为了防止频繁触发探测加了时间间隔维度,目前定义的是10分钟。从线下模拟测试来看,只要大于这个阈值,检测结果必然是弱网状态。

2)成功时,如何判断退出弱网状态?检查goodhttprtt的阈值,这个值取决于业务的设置(一般这个值会取整体网络的95分位或者更大分位的值),小于这个值证明要切换回正常网络状态,为了防止频繁触发探测加了时间间隔维度,目前定义的是30秒。从线下模拟测试来看,只要小于这个阈值,检测结果必然是正常状态。如果大于或者等于这个阈值,也不能证明一定不是正常网络,所以也需要发起网络探测,但是由于这是在成功回调里,频次会很高,所以我们加上时间间隔的限制30秒,还加入了次数的限制,连续成功次数%次数阈值(4次)等于0。但这看起来还是频次有点高,所以我们引入了阶梯递增机制,随着次数的增长,成60秒几何倍数增长。

3)失败时,如何判断进入弱网状态?首先会判断连续失败次数,连续失败次数/次数阈值(2次)等于1并且连续失败次数%次数阈值(2次)等于0,相比成功,失败的次数检查较为苛刻,主要还是考虑多次触发网络检测损耗性能。

进入弱网状态后,就会触发基础能力层的ping和dns query的探测。

础能力层:

探测基础能力层,主要提供弱网检测的手段,一是dns query,一是ping,百度App使用C++实现了这两个能力。

为什么要选用这两种手段呢?

判断出弱网状态后,会将结果提供给接口层。

接口层:

接口层主要提供主动探测出来的网络状态,目前包括GOOD,BAD,UNKNOWN,OFFLINE。

1)GOOD:dns查询成功并且ping也成功,即标记为GOOD状态;

2)BAD:ping失败一次标记为BAD状态;

3)UNKNOWN:初始状态或者识别不出来状态为UNKNOWN状态;

4)OFFLINE:dns server错误(没有获取到要发送的DNS server地址),网关错误(读取/proc/net/route文件内容失败),发送dns错误(发送dns数据出错),ping读写错误(ping的过程中读写错误),接收dns错误(接收dns数据出错),ping地址错误(ping地址是空),dns未知域名错误(dns没有查询到域名错误),初始化icmp错误(初始化icmp失败),dns udp错误(创建UDP socket失败),即标记为OFFLINE状态。

阅读(287) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~