Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1830579
  • 博文数量: 636
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 3950
  • 用 户 组: 普通用户
  • 注册时间: 2014-08-06 21:58
个人简介

博客是我工作的好帮手,遇到困难就来博客找资料

文章分类

全部博文(636)

文章存档

2024年(5)

2022年(2)

2021年(4)

2020年(40)

2019年(4)

2018年(78)

2017年(213)

2016年(41)

2015年(183)

2014年(66)

我的朋友

分类: 系统运维

2015-02-09 17:46:08

1 from formatter import AbstractFormatter, NullWriter  
2 from htmllib import HTMLParser  
3   
4 def _(str, in_encoder="gbk", out_encoder="utf8"):  
5  return unicode(str, in_encoder).encode(out_encoder)  
6   7  
8 class myWriter(NullWriter):  
9  def __init__(self): 10  NullWriter.__init__(self) 
11  self._bodyText = [] 
12  
13  def send_flowing_data(self, str): 
14  self._bodyText.append(str) 
15  
16  def _get_bodyText(self): 
17  return '/n'.join(self._bodyText) 
18  
19  bodyText = property(_get_bodyText, None, None, 'plain text from body') 
20  
21 class myHTMLParser(HTMLParser): 
22  def do_meta(self, attrs): 
23  self.metas = attrs 
24  
25 def convertFile(filename): 
26  mywriter = myWriter() 
27  absformatter = AbstractFormatter(mywriter) 
28  parser = myHTMLParser(absformatter) 
29  parser.feed(open(filename).read()) 
30  return ( _(parser.title), parser.formatter.writer.bodyText ) 
31  32 import os 33 import os.path 
34  
35 OUTPUTDIR = "./txt" 36 INPUTDIR = ".
37 if __name__ == "__main__": 38  if not os.path.exists(OUTPUTDIR): 
39  os.mkdir(OUTPUTDIR) 
40  
41  for file in os.listdir(INPUTDIR): 
42  if file[-4:] == '.htm': 
43  print "Coverting", file, 
44  outfilename, text = convertFile(file) 
45  outfilename = outfilename + '.txt
46  outfullname = os.path.join(OUTPUTDIR, outfilename) 47  open(outfullname, "wt").write(text) 
48  print "Done!
49  


阅读(1409) | 评论(0) | 转发(0) |
0

上一篇:shell 实现txt转换成html

下一篇:Python函数

给主人留下些什么吧!~~