高性能网络编程，第 2 部分-lc0060305-ChinaUnix博客

李庚睿（lgr）的博客 -- 蔚蓝天空garry.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lc0060305

博客访问： 3591312
博文数量： 1450
博客积分： 11163
博客等级：上将
技术积分： 11101
用户组：普通用户
注册时间： 2005-07-25 14:40

文章分类

全部博文（1450）

音视频直播（2）
linux各种服务器（3）
ARM学习（8）

ARM汇编指令（7）
手机开发（230）

android（2）

iphone（4）

symbian（224）
nginx 分析（6）
vi常用方法（13）
linux 常用命令（65）

linux shell 脚本（38）
window批处理资料（15）
黑客技术（20）

linux 系统安全（12）
搜索引擎与网络爬（32）
数据库技术（143）
网络技术（25）

网络测试方法（2）
操作系统研究（192）

android源码分析（1）

linux驱动（20）
程序设计（513）

调试技术（3）

测试方法（7）

性能调优（2）

debian（1）

JNI（5）

configure.ac（1）

Makefile.am（3）

设计模式（19）

算法与数据结构（4）

java程序开发（103）

web程序开发（41）
随笔（129）

地图集（14）

英语（4）

笑话（56）

我喜爱的诗（6）

我的小诗（4）
未分配的博文（54）

文章存档

2017年（5）

2014年（2）

2013年（3）

2012年（35）

2011年（39）

2010年（88）

2009年（395）

2008年（382）

2007年（241）

2006年（246）

2005年（14）

我的朋友

相关博文

高性能网络编程，第 2 部分

分类： LINUX

2008-07-18 15:56:39

本文为那些希望增强其网络吞吐量的 UNIX® 编程人员提供了诸多技巧。学习如何使用 mmap、收集分散的 I/O 和其他方法加速客户机和服务器的处理速度。

本系列的第 1 部分（请参阅参考资料）重点介绍了利用诸如非阻塞 I/O 之类的高级编程技术最大限度提高网络利用率方面的一些小窍门。这篇文章还介绍了您可以使用的一些其他小窍门。

目前，大多使用硬盘进行文件存储。作为机械设备，在特定情形下，硬盘永远也达不到主要存储（如 RAM 或网络）所具有的速度。推荐使用 SCSI 或 SATA，因为与较旧的 IDE 磁盘相比，它在吞吐量上提供了快速改进。

还应确保您的磁盘使用 DMA 进行传输。

作为编程人员，可以确定减少磁盘延迟的方法。最相关的主题包括：最小化系统调用上下文切换开销和内存副本开销 (memcpy(2))。对于 TCP 发送和接收缓冲区来说，使用确定的值对减少系统调用开销非常有用。在大多数 UNIX® 代码中，一般使用值 8192 或 0x8000。

当然，您还需要：

通过将开销较大的代码移出循环来减少客户机或服务器 CPU 的负载。
从不使用 sleep(2) 或同步元素。
不考虑使用线程来提高网络性能。

您知道内存映射的 I/O 和 I/O 映射的 I/O。通常在设备驱动程序中以及与外围设备进行通讯时使用此方法。您可以使用 UNIX 系统上的 mmap(2) 系统调用来映射主内存，使其直接指向辅助存储（硬盘）上的文件。

mmap(2) 是一种用途很广的系统调用（如 select(2)），但是，这里关心的重点是增强磁盘 I/O 的性能和减少内存副本开销。借助于 mmap(2) 将文件内容读入主内存，而不使用 read(2)/fread(2) 系统调用可以同时实现这两种要求。

因为消除了冗余的缓冲区副本，所以 mmap(2) 能够提供更高的性能。但是，用法语义并非完全显而易见。您必须使用 ftruncate(2) 调用来分配主内存空间，让内核知道需要分配多少空间来映射使用 mmap(2) 编写的文件。清单 1 显示了详细信息。

/**************************************************************/
/**************************************************************/

	/******************************************
	 *        mmap(2) file write              *
	 *                                        *
	 *****************************************/
	caddr_t *mm = NULL;

	fd = open (filename, O_RDWR | O_TRUNC | O_CREAT, 0644);

	if(-1 == fd)
		errx(1, "File write");
	/* NOT REACHED */

	/* If you don't do this, mmapping will never
	 * work for writing to files 
	 * If you don't know file size in advance as is
	 * often the case with data streaming from the
	 * network, you can use a large value here. Once
	 * write out the whole file, you can shrink it
	 * to the correct size by calling ftruncate
	 * again
	 */

	ret = ftruncate(ctx->fd,filelen);

	mm = mmap(NULL, header->filelen, PROT_READ | PROT_WRITE, 
			MAP_SHARED, ctx->fd, 0);
	if (NULL == mm)
		errx(1, "mmap() problem");

	memcpy(mm + off, buf, len);
	off += len;
	/* Please don't forget to free mmap(2)ed memory!  */
	munmap(mm, filelen);
	close(fd);

/**************************************************************/
/**************************************************************/

	/******************************************
	 *          mmap(2) file read             *
	 *                                        *
	 *****************************************/
	fd = open(filename, O_RDONLY, 0);
	if ( -1 == fd) 
		errx(1, " File read err");
	/* NOT REACHED */

	fstat(fd, &statbf);
	filelen = statbf.st_size;

	mm = mmap(NULL, filelen, PROT_READ, MAP_SHARED, fd, 0);

	if (NULL == mm) 
		errx(1, "mmap() error");
	/* NOT REACHED */

	/* Now onwards you can straight away 
	 * do a memory copy of the mm pointer as it
	 * will dish out file data to you 
	 */


	bufptr = mm + off;
	/* You can straight away copy mmapped memory into the 
	   network buffer for sending */

	memcpy(pkt.buf + filenameoff, bufptr, bytes);

	/* Please don't forget to free mmap(2)ed memory!  */
	munmap(mm, filelen);
	close(fd);

您可以使用 mmap(2) 在网络下读取文件，将网络内容转储到另一端的文件系统。

mmap(2) 有时可以提供帮助，但有时又会带来损害。例如，当尝试在 NFS 上使用 mmap(2) 处理某一区域时，就可能会带来损害。但是，在大多数其他情况下，只要有可能，最好使用 mmap(2)。

除 mmap(2) 外，您还可以使用称为 uio 或分散收集 I/O 的其他技术来加快客户端和服务器的处理速度。该技术不是使用一组字节作为缓冲区，您可以直接操作一组缓冲区，其中的每个缓冲区都可以指向不同源或目的地的数据。虽然此技术在适用性方面有些限制，但它可临时为您提供帮助。例如，您可以从不同位置填充标头，并将它们合并在一起，而无需直接使用 writev(2) 代替多个 write(2) 进行复制，或使用带有多个 memcpy(2) 的单一 write(2) 进行复制。

若要让您的编程变得复杂化，使用带有非阻塞 I/O 的 uio 非常有用，如下面的清单 2 所示。

writeiovall(int fd, struct iov *iov, int nvec) {

	int i, bytes;

	i = 0;
	while (i < nvec) {
		do
		{
			rv = writev(fd, &vec[i], nvec - i);
		} while (rv == -1 &&
				(errno == EINTR || errno == EAGAIN));

		if (rv == -1) {
			if (errno != EINTR && errno != EAGAIN) {
				perror("write");
			}
			return -1;
		}
		bytes += rv;
		/* recalculate vec to deal with partial writes */
		while (rv > 0) {
			if (rv < vec[i].iov_len) {
				vec[i].iov_base = (char *) vec[i].iov_base + rv;
				vec[i].iov_len -= rv;
				rv = 0;
			}
			else {
				rv -= vec[i].iov_len;
				++i;
			}
		}
	}

	/* We should get here only after we write out everything */

	return 0;

}

在代码中，套接字写入可以编写一部分 uio 缓冲区，或者编写几个完整的 uio 缓冲区。或者可以编写几个 uio 缓冲区和部分编写其中的一个缓冲区。图 1 帮助显示了难点。

BSD 内核心代码使用一个称为 mbuf 的缓冲区的链接列表。您可以在 mbuf(9) 手册页的任何 BSD 系统部分或有关该主题的许多文章中获得有关它们的知识。系统地讨论不在本文的范围内，但在这里简单介绍一下。

从本质上讲，mbuf 是缓冲区的一个链接列表，每个缓冲区持有 128 到 1024 字节中的任何部分。它们一般都拥有大约 128 个字节。

由于是内核负责在数据到达后立即清除网络接口卡上的硬件缓冲区，所以 mbuf 子系统在处理网络数据方面非常有效。在千兆位网络上，如果不能正确处理，则内核的负载将非常重。

每个 mbuf 都包含三个重要信息片段：

数据的开始处
数据的大小
数据的类型

它还包含许多其他内容，但这些是帮助处理的关键字段。

有许多宏和函数可帮助检索标头，并在处理完成后移除标头，以及挂起和预先计划数据。只有通过使用复杂的框架，内核才能高效地完成其作业。

如果您确实对获取应用程序的最佳性能感兴趣，则可以尝试针对您的用户级协议处理实现一些熟悉的内容。确保这些代码开销不会占用其他处理开销。

不必使用磁盘，您可以使用闪存编写一个自定义的磁盘驱动程序，并进行 RAID 处理。

增强性能就像一个永远没有结尾的故事。这个故事会永远不停地讲下去……

阅读(619) | 评论(0) | 转发(0) |

上一篇：高性能网络编程，第 2 部分

下一篇：High-Performance Server Architecture

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6