Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1595477
  • 博文数量: 107
  • 博客积分: 1715
  • 博客等级: 上尉
  • 技术积分: 3168
  • 用 户 组: 普通用户
  • 注册时间: 2012-04-18 18:42
个人简介

阿里巴巴DBA,原去哪儿网DBA。专注于MySQL源码研究、DBA运维、CGroup虚拟化及Linux Kernel源码研究等。 github:https://github.com/HengWang/ Email:king_wangheng@163.com 微博 :@王恒-Henry QQ :506437736

文章分类

全部博文(107)

文章存档

2014年(2)

2013年(38)

2012年(67)

分类: Mysql/postgreSQL

2013-01-29 10:48:27

目的

       MySQL网络通信数据结构NET,是基于Vio底层封装,用于实现Client/Server网络通信的基本处理。而核心处理主要是网络通信的读写策略,设计良好的读写策略,可以有效提高网络通信的性能。本文主要通过分析MySQL网络通信数据结构NET,进一步深入理解读写策略。

数据结构

       MySQL数据结构NET,定义在源码文件/include/mysql_com.h,主要函数的实现在源码文件/sql/net_serv.cc中,主要用于实现mysql客户端与mysqld服务端进行通信。具体定义如下所示:

 

typedef struct st_net {

#if !defined(CHECK_EMBEDDED_DIFFERENCES) || !defined(EMBEDDED_LIBRARY)

  Vio *vio;

  unsigned char *buff,*buff_end,*write_pos,*read_pos;

  my_socket fd;    /* For Perl DBI/dbd */

  /* The following variable is set if we are doing several queries in one command ( as in LOAD TABLE ... FROM MASTER ), and do not want to confuse the client with OK at the wrong time */

  unsigned long remain_in_buf,length, buf_length, where_b;

  unsigned long max_packet,max_packet_size;

  unsigned int pkt_nr,compress_pkt_nr;

  unsigned int write_timeout, read_timeout, retry_count;

  int fcntl;

  unsigned int *return_status;

  unsigned char reading_or_writing;

  char save_char;

  my_bool unused1; /* Please remove with the next incompatible ABI change. */

  my_bool unused2; /* Please remove with the next incompatible ABI change */

  my_bool compress;

  my_bool unused3; /* Please remove with the next incompatible ABI change. */

  /* Pointer to query object in query cache, do not equal NULL (0) for queries in cache that have not stored its results yet */

#endif

  /* Unused, please remove with the next incompatible ABI change. */

  unsigned char *unused;

  unsigned int last_errno;

  unsigned char error;

  my_bool unused4; /* Please remove with the next incompatible ABI change. */

  my_bool unused5; /* Please remove with the next incompatible ABI change. */

  /** Client library error message buffer. Actually belongs to struct MYSQL. */

  char last_error[MYSQL_ERRMSG_SIZE];

  /** Client library sqlstate buffer. Set along with the error message. */

  char sqlstate[SQLSTATE_LENGTH+1];

  void *extension;

#if defined(MYSQL_SERVER) && !defined(EMBEDDED_LIBRARY)

  /* Controls whether a big packet should be skipped. Initially set to FALSE by default. Unauthenticated sessions must have this set to FALSE so that the server can't be tricked to read packets indefinitely. */

  my_bool skip_big_packet;

#endif

} NET;

 

       从以上定义中可知,NET数据结构主要包含:网络底层封装结构Vio对象,提供底层的读写函数,具体的分析参考《MySQL数据结构分析--Vio》;用于数据操作的指针地址*buff、*buff_end、*write_pos、*read_pos,分别指向当前数据存储的首地址、结束地址、当前写位置及读位置;参数remain_in_buf、buf_length、where_b分别表示buff中剩余的数据长度、buff的总长度以及buff中数据的偏移值,length参数未使用;max_packet和max_packet_size分别表示通信包中数据的最大长度和通信包的最大长度;pkt_nr、compress_pkt_nr分别表示下一个分包以及压缩包的下一个分包;write_timeout、read_timeout、retry_count分别表示写超时时间、读超时时间以及超时重试次数;compress参数用于检测当前数据包是否为压缩方式传输,如果需要压缩,则通过zlib压缩后传输。

源码分析

       对NET数据结构的处理方法进行分析,主要是网络读写策略进行分析,进一步深入了解MySQL网络通信。

基本常量

       在分析具体的读写策略之前,先给出常用的一些常量:

       NET_HEADER_SIZE=4:用四个字节表示NET的包头长度。

       COMP_HEADER_SIZE=3:压缩包头长度。

net_data_is_ready函数

       net_data_is_ready()函数用于检查socket是否读取数据已经准备好。该函数是内部函数,关键点主要是IO多路复用机制。如果有poll机制,则使用poll函数(Linux下默认都支持这种策略),poll使用pollfd数据结构,没有最大连接数限制;如果在windows环境下,使用select函数。poll和select方式随着连接数的增加,性能会影响较大,而基于事件机制的epoll,则不会存在此问题。具体的poll、select以及epoll的详细资料可参考巨著--《unix网络编程》。

net_real_write函数

       net_real_write()函数是NET真正的写操作处理函数。该函数的具体处理逻辑是:首先判断是否数据是否压缩,如果需要压缩,分配内存空间并调用zlib进行压缩。然后,通过Vio通过具体的网络通信方式,进行写处理。写处理根据具体的通信方式,进行不同的写处理策略。如果写失败,在超时时间内重传。如果写成功,继续写packet中剩余的数据。具体的流程图如下所示:

       以下流程图中,为了简洁直观,将压缩处理过程和写处理作为一个整体过程。而实际这两个处理过程的详细处理逻辑可参考源码,由于逻辑较简单,不再赘述。

 


图1 net_real_write()流程图

      

net_write_buff函数

       net_write_buff()函数用于缓冲写处理过程。该函数分别对压缩和非压缩的数据进行不同的处理:首先,对于非压缩的数据,直接将传输的数据信息拷贝到net->buff缓冲中,然后调用net_real_write()函数进行网络写处理;如果数据是压缩传输,那么循环将传输的数据信息交由net_real_write()函数处理,由于压缩数据包的大小不超过MAX_PACKET_LENGTH(即压缩数据包的大小不超过16M),所以传输的数据可以在一个压缩数据包内传输结束。因为net_write_buff()处理逻辑主要是往net->buff中缓冲写处理的过程,处理逻辑较简单,不在赘述。

my_net_write函数

       my_net_write()函数是对外提供网络写处理的函数。该函数主要用于封装传输的数据信息,调用底层处理逻辑进行数据包的传输。主要处理逻辑是:如果传输的数据长度大于MAX_PACKET_LENGTH(即16M),进行分包写处理;否则正常写处理。

       当传输的数据长度大于16M时,每个满包的数据封装设计如下图所示。包长度为MAX_PACKET_LENGTH(16M-1),正好占用3个字节;一个字节存储下一个包的序列号,这四个字节构成了包头长度;之后空间存储包的数据信息,长度为MAX_PACKET_LENGTH。

 


图2 数据包封装设计

 

       从以上设计可以看出,在读取包后,解析包头时,通过解析net->buff[3]包的序列号和包长度是否为MAX_PACKET_LENGTH,即可判断数据包是否乱序。

net_write_command函数

       net_write_command()函数是用于传输command指令及数据信息的写处理操作。与my_net_write()函数的不同之处在于:需要多一个字节存储command指令,并且command指令放在数据net->buff[4]位置;然后在command指令后,存放数据头信息和数据信息。具体的实现细节,不再赘述。包的数据封装设计如下:



图3 command数据包封装设计

 

my_real_read函数

       my_real_read()函数是NET真正读取数据的处理逻辑。读取数据分为两个处理过程:首先读取包头信息,通过解析表头内容,处理接下来的数据读取;然后,根据包头信息,读取数据信息。在解析表头中,首先读取表头;然后检查传输是否乱序;如果是压缩传输的数据,需要读取3个字节长度数据,得到压缩数据的长度。读取数据时,根据解析的数据长度,读取数据信息。

       由于读取过程共用,因此在代码设计中,使用两次循环执行。其中在第一次处理包头时,需要判断包乱序和压缩等情况。特别的,检查包乱序的方法与my_net_write()处理过程中包的封装有关,详细来说,如果当前包序列不是最后一个包,那么net->buff[0]的值为FF(即255),否则表示包发送乱序。具体处理流程如下所示:

 


图4 my_real_read()流程图

 

my_net_read函数

       my_net_read()函数是对外提供网络读处理的函数。该函数分别对压缩包和非压缩包进行不同处理。并且对于多个分包的情况下,将多个包的数据合并。该处理过程不对net_write_command()函数的数据格式进行读处理,仅对my_net_write()函数的正常数据封装格式进行处理。该过程中主要根据读取的数据,对net中的buff及read_pos等参数进行修改,而对压缩数据,需要调用zlib库进行解压数据处理。

结论

       通过以上分析,对MySQL的网络传输结构NET及其读写处理策略有了深入的理解。在分析过程中得到以下结论:网络读写处理通过net_write_buffer()可以减少频繁的IO,提高网络吞吐率;调用底层的Vio数据结构的封装实现,进一步提高了读写的性能,具体参考《MySQL数据结构分析--Vio》;使用select/poll方式进行多路IO复用,随着连接数的增加,性能影响较大。

参考资料

1、《UNIX网络编程(卷1):套接字联网API》
2、《MySQL数据结构分析--Vio》

 

阅读(4415) | 评论(0) | 转发(2) |
给主人留下些什么吧!~~