MySQL数据结构分析--NET-king_wangheng-ChinaUnix博客

王恒-Henryhengwang.blog.chinaunix.net

博客访问： 1762386
博文数量： 107
博客积分： 1715
博客等级：上尉
技术积分： 3168
用户组：普通用户
注册时间： 2012-04-18 18:42

个人简介

阿里巴巴DBA，原去哪儿网DBA。专注于MySQL源码研究、DBA运维、CGroup虚拟化及Linux Kernel源码研究等。 github:https://github.com/HengWang/ Email：king_wangheng@163.com 微博：@王恒-Henry QQ ：506437736

文章分类

全部博文（107）

Algorithm（0）
Share（6）
cgroup（16）
Tech（4）
linux（3）
Python（2）
Shell（5）

sysbench scripts（5）
other（1）
mysql（70）

performance（2）

tools（4）

Troubleshooting（3）

audit（2）

SSD（0）

numa（1）

Server（5）

DBT2（1）

Sysbench（1）

TPCC-MySQL（14）

xtrabackup（4）

source（33）
未分配的博文（0）

文章存档

2014年（2）

2013年（38）

2012年（67）

我的朋友

相关博文

MySQL数据结构分析--NET

分类： Mysql/postgreSQL

2013-01-29 10:48:27

目的

MySQL网络通信数据结构NET，是基于Vio底层封装，用于实现Client/Server网络通信的基本处理。而核心处理主要是网络通信的读写策略，设计良好的读写策略，可以有效提高网络通信的性能。本文主要通过分析MySQL网络通信数据结构NET，进一步深入理解读写策略。

数据结构

MySQL数据结构NET，定义在源码文件/include/mysql_com.h，主要函数的实现在源码文件/sql/net_serv.cc中，主要用于实现mysql客户端与mysqld服务端进行通信。具体定义如下所示：

typedef struct st_net {

#if !defined(CHECK_EMBEDDED_DIFFERENCES) || !defined(EMBEDDED_LIBRARY)

Vio *vio;

unsigned char *buff,*buff_end,*write_pos,*read_pos;

my_socket fd; /* For Perl DBI/dbd */

/* The following variable is set if we are doing several queries in one command ( as in LOAD TABLE ... FROM MASTER ), and do not want to confuse the client with OK at the wrong time */

unsigned long remain_in_buf,length, buf_length, where_b;

unsigned long max_packet,max_packet_size;

unsigned int pkt_nr,compress_pkt_nr;

unsigned int write_timeout, read_timeout, retry_count;

int fcntl;

unsigned int *return_status;

unsigned char reading_or_writing;

char save_char;

my_bool unused1; /* Please remove with the next incompatible ABI change. */

my_bool unused2; /* Please remove with the next incompatible ABI change */

my_bool compress;

my_bool unused3; /* Please remove with the next incompatible ABI change. */

/* Pointer to query object in query cache, do not equal NULL (0) for queries in cache that have not stored its results yet */

#endif

/* Unused, please remove with the next incompatible ABI change. */

unsigned char *unused;

unsigned int last_errno;

unsigned char error;

my_bool unused4; /* Please remove with the next incompatible ABI change. */

my_bool unused5; /* Please remove with the next incompatible ABI change. */

/** Client library error message buffer. Actually belongs to struct MYSQL. */

char last_error[MYSQL_ERRMSG_SIZE];

/** Client library sqlstate buffer. Set along with the error message. */

char sqlstate[SQLSTATE_LENGTH+1];

void *extension;

#if defined(MYSQL_SERVER) && !defined(EMBEDDED_LIBRARY)

/* Controls whether a big packet should be skipped. Initially set to FALSE by default. Unauthenticated sessions must have this set to FALSE so that the server can't be tricked to read packets indefinitely. */

my_bool skip_big_packet;

#endif

} NET;

从以上定义中可知，NET数据结构主要包含：网络底层封装结构Vio对象，提供底层的读写函数，具体的分析参考《MySQL数据结构分析--Vio》；用于数据操作的指针地址*buff、*buff_end、*write_pos、*read_pos，分别指向当前数据存储的首地址、结束地址、当前写位置及读位置；参数remain_in_buf、buf_length、where_b分别表示buff中剩余的数据长度、buff的总长度以及buff中数据的偏移值，length参数未使用；max_packet和max_packet_size分别表示通信包中数据的最大长度和通信包的最大长度；pkt_nr、compress_pkt_nr分别表示下一个分包以及压缩包的下一个分包；write_timeout、read_timeout、retry_count分别表示写超时时间、读超时时间以及超时重试次数；compress参数用于检测当前数据包是否为压缩方式传输，如果需要压缩，则通过zlib压缩后传输。

源码分析

对NET数据结构的处理方法进行分析，主要是网络读写策略进行分析，进一步深入了解MySQL网络通信。

基本常量

在分析具体的读写策略之前，先给出常用的一些常量：

NET_HEADER_SIZE=4：用四个字节表示NET的包头长度。

COMP_HEADER_SIZE=3：压缩包头长度。

net_data_is_ready函数

net_data_is_ready()函数用于检查socket是否读取数据已经准备好。该函数是内部函数，关键点主要是IO多路复用机制。如果有poll机制，则使用poll函数（Linux下默认都支持这种策略），poll使用pollfd数据结构，没有最大连接数限制；如果在windows环境下，使用select函数。poll和select方式随着连接数的增加，性能会影响较大，而基于事件机制的epoll，则不会存在此问题。具体的poll、select以及epoll的详细资料可参考巨著--《unix网络编程》。

net_real_write函数

net_real_write()函数是NET真正的写操作处理函数。该函数的具体处理逻辑是：首先判断是否数据是否压缩，如果需要压缩，分配内存空间并调用zlib进行压缩。然后，通过Vio通过具体的网络通信方式，进行写处理。写处理根据具体的通信方式，进行不同的写处理策略。如果写失败，在超时时间内重传。如果写成功，继续写packet中剩余的数据。具体的流程图如下所示：

以下流程图中，为了简洁直观，将压缩处理过程和写处理作为一个整体过程。而实际这两个处理过程的详细处理逻辑可参考源码，由于逻辑较简单，不再赘述。

图1 net_real_write()流程图

net_write_buff函数

net_write_buff()函数用于缓冲写处理过程。该函数分别对压缩和非压缩的数据进行不同的处理：首先，对于非压缩的数据，直接将传输的数据信息拷贝到net->buff缓冲中，然后调用net_real_write()函数进行网络写处理；如果数据是压缩传输，那么循环将传输的数据信息交由net_real_write()函数处理，由于压缩数据包的大小不超过MAX_PACKET_LENGTH（即压缩数据包的大小不超过16M），所以传输的数据可以在一个压缩数据包内传输结束。因为net_write_buff()处理逻辑主要是往net->buff中缓冲写处理的过程，处理逻辑较简单，不在赘述。

my_net_write函数

my_net_write()函数是对外提供网络写处理的函数。该函数主要用于封装传输的数据信息，调用底层处理逻辑进行数据包的传输。主要处理逻辑是：如果传输的数据长度大于MAX_PACKET_LENGTH（即16M），进行分包写处理；否则正常写处理。

当传输的数据长度大于16M时，每个满包的数据封装设计如下图所示。包长度为MAX_PACKET_LENGTH（16M-1），正好占用3个字节；一个字节存储下一个包的序列号，这四个字节构成了包头长度；之后空间存储包的数据信息，长度为MAX_PACKET_LENGTH。

图2 数据包封装设计

从以上设计可以看出，在读取包后，解析包头时，通过解析net->buff[3]包的序列号和包长度是否为MAX_PACKET_LENGTH，即可判断数据包是否乱序。

net_write_command函数

net_write_command()函数是用于传输command指令及数据信息的写处理操作。与my_net_write()函数的不同之处在于：需要多一个字节存储command指令，并且command指令放在数据net->buff[4]位置；然后在command指令后，存放数据头信息和数据信息。具体的实现细节，不再赘述。包的数据封装设计如下：

图3 command数据包封装设计

my_real_read函数

my_real_read()函数是NET真正读取数据的处理逻辑。读取数据分为两个处理过程：首先读取包头信息，通过解析表头内容，处理接下来的数据读取；然后，根据包头信息，读取数据信息。在解析表头中，首先读取表头；然后检查传输是否乱序；如果是压缩传输的数据，需要读取3个字节长度数据，得到压缩数据的长度。读取数据时，根据解析的数据长度，读取数据信息。

由于读取过程共用，因此在代码设计中，使用两次循环执行。其中在第一次处理包头时，需要判断包乱序和压缩等情况。特别的，检查包乱序的方法与my_net_write()处理过程中包的封装有关，详细来说，如果当前包序列不是最后一个包，那么net->buff[0]的值为FF（即255），否则表示包发送乱序。具体处理流程如下所示：

图4 my_real_read()流程图

my_net_read函数

my_net_read()函数是对外提供网络读处理的函数。该函数分别对压缩包和非压缩包进行不同处理。并且对于多个分包的情况下，将多个包的数据合并。该处理过程不对net_write_command()函数的数据格式进行读处理，仅对my_net_write()函数的正常数据封装格式进行处理。该过程中主要根据读取的数据，对net中的buff及read_pos等参数进行修改，而对压缩数据，需要调用zlib库进行解压数据处理。

结论

通过以上分析，对MySQL的网络传输结构NET及其读写处理策略有了深入的理解。在分析过程中得到以下结论：网络读写处理通过net_write_buffer()可以减少频繁的IO，提高网络吞吐率；调用底层的Vio数据结构的封装实现，进一步提高了读写的性能，具体参考《MySQL数据结构分析--Vio》；使用select/poll方式进行多路IO复用，随着连接数的增加，性能影响较大。

参考资料

1、《UNIX网络编程(卷1):套接字联网API》
2、《MySQL数据结构分析--Vio》

阅读(4953) | 评论(0) | 转发(2) |

上一篇：MySQL数据结构分析—sql_list

下一篇：MySQL数据结构分析—Protocol

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6