使用blktrace统计磁盘块I/O访问频率-xiaolan425-ChinaUnix博客

xiaolan425的ChinaUnix博客

首页　| 　博文目录　| 　关于我

xiaolan425

博客访问： 572332
博文数量： 375
博客积分： 0
博客等级：民兵
技术积分： 15
用户组：普通用户
注册时间： 2013-09-20 10:21

文章分类

全部博文（375）

Linux（2）
IBM-AIX（0）
HP-UX（1）
Solaris（89）
未分配的博文（283）

文章存档

2015年（1）

2014年（374）

我的朋友

相关博文

使用blktrace统计磁盘块I/O访问频率

分类： LINUX

2014-08-18 13:48:11

原文地址：使用blktrace统计磁盘块I/O访问频率作者：Bean_lee

如果我们想知道，在一段时间内，那一个磁盘块被读写的频率最高，怎么办？
我问这个问题是看到taobao kernel wiki上面有这么一段话，看了我十分心痒：

通过对blktrace的输出结果进行分析，我们可以对特定时间段内发生的读、写操作的磁盘块进行I/O频次统计。结合通过将磁盘块I/O频度统计和page cache命中率统计相结合，就可以比较有效的判断服务器节点的cache使用效率。通过这套工具，CDN系统修正了一个固态硬盘上cache管理的缺陷，显著提高了I/O性能（详细信息）

淘宝大神给了一个shell脚本解决这个问题，但是我守着代码，不知道怎么用。就研究了下blktrace和大神的代码。
常常听淘宝的霸爷，提起blktrace。 iostat，iotop这些的工具也是统计磁盘IO的，也非常有用，但是和blktrace比，信息过于summarized，而blktrace跟踪了发生在块设备层的很多事件，简直就是整个块设备层事件的回放。
blktrace能够trace那些事件呢？

上面这个胶片来自HP的介绍blktrace的胶片，介绍的非常好，是参考文献中一篇。
这些事件都会被blktrace 捕捉到。由于这些事件要和kernel代码中block device的work flow一一对应，目前我的功力尚不足，所以我就不一一介绍这些事件了。
blktrace输出的东西，不是文本，是一些特殊的格式，要想可读，需要blkparse解析blktrace的输出。
我们看下blktrace和blkparse合作方式

blktrace -d /dev/sda -o - |blkparse -i - -o blkparse.out

这是一个比较典型的使用：
blktrace -d表示monitor哪个设备，-o -表示讲输出吐出到标准输出。
blkparse -i - 表示从标准输入获取信息，-o 表示讲解析的内容记录在blkparse.out
我们看下输出长的什么样子：

这个胶片非常好的介绍了各个字段的含义。主次设备号，CPU ID，sequence num，time stamp PID ，起始扇区号，进程名字比较好理解，比较难理解的是$6,$7
$6中的GPQMDC，一堆字母，代表什么含义？$7的WR 又代表什么含义呢？
一个一个来，对于$6,表示的是event，官方手册给了事件对应表：

那么$7是干嘛的呢？
基本上是R和W，也会出现B和S. R表示是read操作，W表示write操作，B是barrier operation，S是synchronous operation。
看到这个blkparse的输出，我们发现这些更像是raw data，需要我们挖掘背后的信息。btt这个工具就是一个分析输出得到更高层信息的tool，他不是我们本文的重点，我们不提他。
回到开篇的问题，如何知道which磁盘扇区被读写的次数最多？有了blkparse的输出，我们完全可以做到这个统计：淘宝的Coly大神的shell脚本已经帮我们作了这个事情。

root@manu-hacks:~/code/shell/blkstrace_calculator# cat cal.sh
#!/bin/bash
TMP_DIR=".blktrace_cal"
# extend the blktrace log to "blockid R/W"
extend()
{
awk -v max=$2 -v mod=$3 '{
if ( NR%max==mod && $6 == "D" && (index($7, "R") || index($7, "W")) ) {
for(i=0; i<$10; i++) {
print $8+i" "substr($7, 1, 1);
}
}
}' $1 | sort -k1 -nr > $TMP_DIR/.tmp.$1.$3
touch $TMP_DIR/$3.ok
}
usage()
{
echo "Usage: $1 input_log [parallel_num]"
exit
}
rm -rf $TMP_DIR
mkdir $TMP_DIR
if [ "$1" == "" ]; then
usage $0
fi
# does input_log exists?
if [ ! -f $1 ]; then
echo "($1) not exists"
exit
fi
parallel=$2
if [ "$2" == "" ]; then
parallel=4
fi
echo "[input: $1]"
max=`expr $parallel - 1`
files=""
filename=`basename $1`
echo "[run $parallel process]"
for i in `seq 0 $max`
do
extend $filename $parallel $i &
files=$files" $TMP_DIR/.tmp.$filename.$i"
done
echo "processing...."
nr=0
# awk will finish if all *.ok created.
while [ $nr -ne "$parallel" ]
do
nr=`find $TMP_DIR -maxdepth 1 -name "*.ok"|wc -l`
echo -n "."
sleep 1
done
echo ""
echo "merge sort"
sort -m -k1 -nr $files | uniq -c | sort -k1 -nr > tmp
total=`awk '{sum+=$1} END{print sum}' tmp`
awk -v sum=$total '{
print $0"\t"$1*1000/sum;
}' tmp > result
echo "sort finish."
rm -rf $TMP_DIR

这段代码是Coly大神的代码，我无意抄袭前辈，只是晚辈拿来欣赏学习，光荣属于淘宝的Coly前辈。
先说parallel，这个是为了充分利用CPU资源，让多个CPU一起来执行extend。NR%max==mod 将一个文件按照行分开，由多个进程分别处理之。不多讲。
extend的含义也比较简单：

8,0 0 909 19.618798623 6475 Q W 20397704 + 8 [evince-thumbnai]
8,0 0 910 19.618803866 6475 G W 20397704 + 8 [evince-thumbnai]

20397704是起始扇区，+ 8表示的连续8个扇区都在本次事件之内，也就是说20397704/20397705/20397706.. 都是本次事件涉及的扇区。
OK，我们看下cal.sh的使用及输出：

../blkstrace_calculator/cal.sh blkparse.out 4

当前目录下生成了tmp和result文件：

root@manu-hacks:~/code/shell/blktrace# head result
39 454375583 W 0.228744
39 454375582 W 0.228744
39 454375581 W 0.228744
39 454375580 W 0.228744
39 454375579 W 0.228744
39 454375578 W 0.228744
39 454375577 W 0.228744
39 454375576 W 0.228744
27 264753359 W 0.158361
27 264753358 W 0.158361

我们可以看到，扇区号为454375583被访问的次数为39次，占总访问的千分之0.228744。
那这个扇区属于拿个文件呢？debugfs就可以来帮忙了.我们以访问27次的264753359扇区为例。扇区是512字节，我的文件系统ext4的块大小是4K，所以根据扇区可以定位的块号，debugfs根据块号，可以定位到inode，再根据inode，就可定位到filename。

root@manu-hacks:~/code/shell/blktrace# echo 264753359/8 |bc
33094169
root@manu-hacks:~/code/shell/blktrace# debugfs -R "icheck 33094169" /dev/sda1
debugfs 1.42 (29-Nov-2011)
Block Inode number
33094169 14290766
root@manu-hacks:~/code/shell/blktrace# debugfs -R "ncheck 14290766" /dev/sda1
debugfs 1.42 (29-Nov-2011)
Inode Pathname
14290766 /home/manu/.pki/nssdb/key4.db

我们发现，这个文件被读写的次数最多。谁干的？ lsof来帮忙？

root@manu-hacks:~/code/shell/blktrace# lsof /home/manu/.pki/nssdb/key4.db
lsof: WARNING: can't stat() fuse.gvfs-fuse-daemon file system /home/manu/.gvfs
Output information may be incomplete.
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
chromium- 5717 manu 57u REG 8,1 11264 14290766 /home/manu/.pki/nssdb/key4.db
chromium- 5902 manu 7u REG 8,1 11264 14290766 /home/manu/.pki/nssdb/key4.db
chromium- 5906 manu 7u REG 8,1 11264 14290766 /home/manu/.pki/nssdb/key4.db

    我们用Coly大神的脚本和blktrace/blkparse就解决了磁盘块IO访问频率的统计。如果有个别的block被频繁的读取，表示cache的替换效率不高。

参考文献
1 通过blktrace, debugfs分析磁盘IO
2 Documents/kernel team successful stories
3 Block I/O Layer Tracing: blktrace   Alan D. Brunelle

阅读(880) | 评论(0) | 转发(0) |

上一篇：一个生成算术表达式的例子

下一篇：Linux swap area初探

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6