1.邮件文件字符集转换
# dos2unix *.txt
2.验证电子邮件的有效性
# grep -E -o "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b" 1.txt
3.排除过滤出来不需要的后缀,然后拆分为每125条一个文件存储
# egrep -v 'sina.com.cn|fudan.edu.cn|gmail.com|jsjxy.ntu.edu.cn|mail.nankai.edu.cn|bjtu.edu.cn|188.net|mail.czu.cn|smail.ccniit.com|fj61stu.net|sust.edu.cn|smail.tongji.edu.cn|smail.tongji.ude.cn|stu.edu.cn|jsjxy.ntu.edu.cn|cau.edu.cn|zju.edu.cn|stmail.shou.edu.cn|mail.mastvu.ah.cn|st.zju.edu.cn|googlemail.com|zjnu.net|jsjxy.ntu.edu.cn|lxy.ntu.edu.cn|hhu.edu.cn|jsmail.com.cn|sorun-beijing.com|suda.edu.cn|hkbu.edu.hk|stu.edu.cn|pku.edu.cn|jsjxy.ntu.edu.cn|mail.hbut.edu.cn|BJTU.EDU.CN|09@1.2|08@1.2|07@1.2|06@1.2|05@1.2|04@1.2|03@1.2|02@1.2|01@1.2|00@1.2|0@0.8|0@0.7|0@0.6|0@0.5|0@0.4|0@0.3|0@0.2|0@0.1|0@0.0|edu.cn' 1.txt >x/x1.txt && sed -i 's/$/&;/g' x/x1.txt && split -l 125 x/x1.txt y/1
阅读(3309) | 评论(0) | 转发(0) |