1.遍历文件夹
-
import os
-
import os.path
-
rootdir = “d:\data” # 指明被遍历的文件夹
-
-
for parent,dirnames,filenames in os.walk(rootdir): #三个参数:分别返回1.父目录 2.所有文件夹名字(不含路径) 3.所有文件名字
-
for dirname in dirnames: #输出文件夹信息
-
print "parent is:" + parent
-
print "dirname is" + dirname
-
-
for filename in filenames: #输出文件信息
-
print "parent is": + parent
-
print "filename is:" + filename
-
print "the full name of the file is:" + os.path.join(parent,filename) #输出文件路径信息
-
-
#windows下为:d:\data\query_text\EL_00154
2.查找中文字符
-
import re
-
pchinese=re.compile(ur'([\u4e00-\u9fa5]+)+?') #判断是否为中文的正则表达式
-
f=open("D:\\workspace\\saas\\core\\admin\\controller\\sale\\ctl.tools.php") #打开要提取的文件
-
fw=open("getdata.txt","w")#打开要写入的文件
-
for line in f.readlines(): #循环读取要读取文件的每一行
-
m=pchinese.findall(line.decode('utf8')) #使用正则表达获取中文
-
if m:
-
str1='|'.join(m)#同行的中文用竖杠区分
-
str2=str1
-
fw.write(str2)#写入文件
-
fw.write("\n")#不同行的要换行
-
f.close()
-
fw.close()#
3.遍历文件夹,并将文件中中文写入文件
-
#coding=utf-8
-
-
import re, os
-
def find_chn(infile, outfile):
-
pchinese=re.compile(ur'([\u4e00-\u9fa5]+)+?') #判断是否为中文的正则表达式
-
f=open(infile) #打开要提取的文件
-
flag = 0
-
for line in f.readlines(): #循环读取要读取文件的每一行
-
if line.find('//')!= -1:#如果有注释,直接跳过
-
continue
-
if line.find('/*')!= -1 or line.find('')!= -1:
-
flag = 0
-
continue
-
if flag==1:
-
continue
-
m=pchinese.findall(line.decode('utf8')) #使用正则表达获取中文
-
if m:
-
str1='|'.join(m)#同行的中文用竖杠区分
-
str2=str1
-
outfile.write(str2)#写入文件
-
outfile.write("\n")#不同行的要换行
-
print str2
-
f.close()
-
-
-
fw=open("getdata.txt","a+")#打开要写入的文件
-
for parent,dirnames,filenames in os.walk("D:\\workspace\\saas\\core\\shop\\view\\gallery\\"): #三个参数:分别返回1.父目录 2.所有文件夹名字(不含路径) 3.所有文件名字
-
-
for filename in filenames: #输出文件信息
-
print os.path.join(parent,filename)
-
find_chn(os.path.join(parent,filename), fw)
-
-
fw.close()#
阅读(4259) | 评论(0) | 转发(0) |