python脚本打印某个目录下所有文件的md5 digest-hmchzb19-ChinaUnix博客

Linuxer

首页　| 　博文目录　| 　关于我

hmchzb19

博客访问： 1807645
博文数量： 297
博客积分： 285
博客等级：二等列兵
技术积分： 3006
用户组：普通用户
注册时间： 2010-03-06 22:04

个人简介

Linuxer, ex IBMer. GNU https://hmchzb19.github.io/

文章分类

全部博文（297）

machine_learning（16）
PYthon_Design_Pa（1）
数学（1）
Data Struct（1）
scheme（3）
Container（1）
sqlite3（1）
firefox（4）
Tor（1）
java（30）
生活（2）
测试生涯（1）
互联网（4）
algorithm（4）
ubuntu（4）
安全和kali （35）
windows（5）
cloud_manage（3）
tcp/ip（1）
security（5）
Linux（74）
python（70）
C（9）
postgresql（5）
shell（3）
db2（3）
oracle（3）
Power-VM虚拟化（7）
未分配的博文（0）

文章存档

2020年（11）

2019年（15）

2018年（43）

2017年（79）

2016年（79）

2015年（58）

2014年（1）

2013年（8）

2012年（3）

我的朋友

相关博文

python脚本打印某个目录下所有文件的md5 digest

分类： Python/Ruby

2016-01-03 17:48:27

1. 这个脚本很短，但是有几个tricky的地方，我目录下有管道一个，还有名字中带有空格文件和名字中带有‘的文件，在把他们加入到列表的时候没有问题，但是使用subprocess.popen()就会报错。所以我对cmd进行了处理。同时使用stat.S_ISFIFO(os.stat(i).st_mode) 来剔除了pipe。

点击(此处)折叠或打开

import os
import subprocess
import stat
def print_all_md5(dirname):
ll=[]
for root,dirs,files in os.walk(dirname):
for name in files:
ll.append((os.path.join(root,name)))
for i in ll:
if stat.S_ISFIFO(os.stat(i).st_mode):
ll.remove(i)
for filename in ll:
if filename.endswith('txt'):
if "'" in filename:
filename=filename.replace("'","\\'")
if " " in filename:
filename=filename.replace(" ","\ ")
cmd="md5sum {0}".format(filename)
fp=subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
(s,e)=fp.communicate()
result=(s.decode()).strip()
e=(e.decode()).strip()
print(result,e)
print_all_md5(dirname=".")

稍微作一下修改，可以找到目录下所有md5digest一样的文件。

点击(此处)折叠或打开

import os
import subprocess
import stat
def print_all_md5(dirname,suffix):
ll=[]
d={}
for root,dirs,files in os.walk(dirname):
for name in files:
"""
if "'" in name:
name=name.replace("'","\'")
#print(name)
if " " in name:
name=name.replace(" ","\ ")
#if name.endswith('txt'):
#print(name)
"""
ll.append((os.path.join(root,name)))
for i in ll:
if stat.S_ISFIFO(os.stat(i).st_mode):
ll.remove(i)
for filename in ll:
if filename.endswith(suffix):
if "'" in filename:
filename=filename.replace("'","\\'")
if " " in filename:
filename=filename.replace(" ","\ ")
cmd="md5sum {0}".format(filename)
fp=subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
(s,e)=fp.communicate()
result=(s.decode()).strip()
e=(e.decode()).strip()
#print(result,e)
checksum,*nouse=result.split()
if checksum in d:
d[checksum].append(filename)
else:
d[checksum]=[filename]
return d
def print_duplicates(d):
for key, names in d.items():
if len(names) >1:
print('The following files have the same checksum')
for name in names:
print(name)
def find_dup_file():
d=print_all_md5(dirname=".",suffix=".txt")
print_duplicates(d)
find_dup_file()

2. 回头我准备用pathlib重写下path 那一段，pathlib 提供了更多查询文件类型的功能。

点击(此处)折叠或打开

import pathlib
def my_walk(dirname):
"""I will use pathlib to rewrite this function"""
if '__pycache__' in dirname:
return name
p=Path(dirname)
ll=[i for i in p.glob('**/*') if not i.is_fifo() and not i.is_socket() ]
return ll

3. 感谢下另外一个网友的热心，使用hashlib比我的invoke md5sum的代码要好。

点击(此处)折叠或打开

def print_md5(dirname):
files = glob.glob("*.txt")
for f in files:
print ("=================")
md5file=open(f,'br')
md5=hashlib.md5(md5file.read()).hexdigest()
md5file.close()
print (md5,f)
print_md5(dirname=".")

阅读(1709) | 评论(0) | 转发(0) |

上一篇：两段我改过python代码，原始创意出自python programming fundamental

下一篇：在suse 11.4 ppc64 上编译安装ganglia

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6