Chinaunix首页 | 论坛 | 博客
  • 博客访问: 279513
  • 博文数量: 90
  • 博客积分: 41
  • 博客等级: 民兵
  • 技术积分: 400
  • 用 户 组: 普通用户
  • 注册时间: 2011-12-07 11:52
文章分类
文章存档

2014年(11)

2013年(3)

2012年(69)

2011年(7)

分类:

2013-01-02 09:50:54

今天下午,一个偶然的时间,一个都没有联系过的客户,突然拿了一年的数据来给我,要我把其中的数据统计出来。

哇,乖乖,一年的数据,每天几十个文件,总量就是 365×46=16790,不错,是个挑战。

当我辛辛苦苦地开始调试脚本时,老兄又跑过来,说只要某个文件的某个字段,就好了。呵呵,好吧,工作量小了,不过开始的工作也算是白费了。

于是开始重新清理思路。

技术路线,依然是Shell。因为工作环境没有安装Python,直接排除;用C、Java写个,一来开发量太大,二来运行效率也很低(当然我没有测试过,直觉来着)。而Shell有着awk、sed等非常便于进行文字处理和统计的功能。

系统设计,呵呵,这其实根本算不上是个什么系统,不过既然还是需要有个比较好的思路吧。其实在这里写出来,不过也是为了作为积累和日后批判用的,呵呵。

文件是以日期作为目录名依次存放的,对应的日期内的文件都归类在日期的目录里,而每个目录里,文件名是有规律的。因此,可以遍历目录,然后在目录里查找该文件和统计对应字段。

剩下来的,就是“技术难点“了。

1、遍历目录

很简单的一个 ls 和 for 循环没什么好说的,直接上代码:

点击(此处)折叠或打开

  1. for dir in `ls .`
  2. do
  3.   if [ -d $dir ];   # 判断是目录还是文件
  4.   then
  5.     cd $dir
  6.     pwd             # 打印当前目录的绝对路径
  7.     cd ..
  8.   fi
  9. done

2、获取指定行内容

很简单的一个 sed ,参数 n 是指在指定行,以后按照后续操作进行。在本次实例中,即在打印30行的内容:

点击(此处)折叠或打开

  1. cat INO*99SUMCN | sed -n 30p

3、获取指定位置的内容

这个地方很纠结,因为在第一个 awk 后,居然显示了几个 0.00 ,折腾了下没找到问题在哪,索性写了第二个 awk (请各位大牛多多指教的同时嘴下留情呀,呵呵)。

点击(此处)折叠或打开

  1. awk -F " " '{print $6}' | awk -F "0.00" '{print $1}'

4、判断字符串是否为空

这个不说了,测试了下,这样判断和场景最符合:

点击(此处)折叠或打开

  1. if [ ! -z "$tmpFee" ];
  2. then
  3. fi

5、四则运算

这个,要多说说,作为笔记以备拾遗吧。具体的还是直接copy一个笔记吧(那位兄弟,对不住了,下面会写上你的辛劳的,呵呵):

1.简单方法

在linux shell中,我们可以使用 $(()) 将表达式放在括号中,即可达到运算的功能。

[chengmo@centos5 ~]$ b=$((5*5+5-3/2)) 
[chengmo@centos5 ~]$ echo $b
29

2.其它方法:

用 expr 实现运算

[chengmo@centos5 ~]$ expr 5 - 4
1

注意:将需要运算的表达式写入在expr 后面即可,保证 参数与运算符号中间有空格隔开。

类别 语法 说明
条件判断 expr1 \| expr2 如果 expr1 不是零或 null 则传回 expr1,否则传回 expr2。
expr1 \& expr2 如果 expr1 及 expr2 都不为零或 null,则传回 expr1,否则传回 0。
四则运算 expr1 + expr2 传回 expr1 加 expr2 后的值。
expr1 - expr2 传回 expr1 减 expr2 后的值。
expr1\* expr2 传回 expr1 乘 expr2 后的值。
expr1 / expr2 传回 expr1 除 expr2 后的值。
expr1 % expr2 传回 expr1 除 expr2 的余数。
大小判断 expr1 \> expr2
如果 expr1 大于 expr2 则传回 1,否则传回 0。如果 expr1 及 expr2 都是数字,则是以数字大小判断,否则是以文字判断。以下皆同。
expr1 \< expr2 如果 expr1 小于 expr2 则传回 1,否则传回 0。
expr1 = expr2 如果 expr1 等于 expr2 则传回 1,否则传回 0。
expr1 != expr2 如果 expr1 不等于 expr2 则传回 1,否则传回 0。
expr1 \>= expr2 如果 expr1 大于或等于 expr2 则传回 1,否则传回 0。
expr1 \<= expr2 如果 expr1 小于或等于 expr2 则传回 1,否则传回 0。
文字处理 expr1 : expr2 比较一固定字符串,即 regular expression。可以使用下列字符来辅助:

. 匹配一个字符。

$ 找字符串的结尾。

[list] 找符合 list 中的任何字符串。

* 找寻 0 个或一个以上在 * 之前的字。

\( \) 传回括号中所匹配的字符串。

3.浮点运算:

[chengmo@centos5 ~]$ expr 5.0 - 4
expr: 非法参数

[chengmo@centos5 ~]$ echo $((5.0-4))
-bash: 5.0-4: syntax error in expression (error token is ".0-4")

从上面运算结果,看来上面表达式,不足以支持浮点运算了。查阅资料才发现:bash 不支持浮点运算,如果需要进行浮点运算,需要借助bc,awk 处理。

方法一:

[chengmo@centos5 ~]$ c=$(echo "5.01-4*2.0"|bc)
[chengmo@centos5 ~]$ echo $c
-2.99

方法二:

[chengmo@centos5 ~]$ c=$(awk 'BEGIN{print 7.01*5-4.01 }')
[chengmo@centos5 ~]$ echo $c
31.04

注:在shell 中$() 与 ``等效。 中间包含命令语句执行,返回执行结果。

 

具体的脚本实现:

点击(此处)折叠或打开

  1. #!/bin/bash
  2. count=0;
  3. xiaofei=0;
  4. xiaofeichexiao=0;
  5. for dir in `ls .`
  6. do
  7.   if [ -d $dir ];
  8.   then
  9.     cd $dir
  10.     count=`expr $count + 1`
  11.     # 手续费 - 消费
  12.     tmpFee=`cat INO*99SUMCN | sed -n 30p | awk -F " " '{print $6}' | awk -F "0.00" '{print $1}'`
  13.     if [ ! -z "$tmpFee" ];
  14.     then
  15.       xiaofei=$(echo "$tmpFee + $xiaofei" | bc)
  16.     fi
  17.     # 手续费 - 消费撤销
  18.     tmpFee=`cat INO*99SUMCN | sed -n 31p | awk -F " " '{print $6}' | awk -F "0.00" '{print $1}'`
  19.     if [ ! -z "$tmpFee" ];
  20.     then
  21.         xiaofeichexiao=$(echo "$tmpFee + $xiaofeichexiao" | bc );
  22.     fi
  23.     cd ..
  24.   fi
  25. done
  26. echo "统计笔数: " $count
  27. echo "手续费-消费: " $xiaofei
  28. echo "手续费-消费撤销:" $xiaofeichexiao
  29. echo "手续费-汇总: " $(echo "$xiaofei + $xiaofeichexiao" | bc)

附注:首先还是需要感谢下 程默 的日志(http://www.cnblogs.com/chengmo/archive/2010/09/30/1839556.html
阅读(1474) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~