Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2791133
  • 博文数量: 471
  • 博客积分: 7081
  • 博客等级: 少将
  • 技术积分: 5369
  • 用 户 组: 普通用户
  • 注册时间: 2012-01-04 21:55
文章分类

全部博文(471)

文章存档

2014年(90)

2013年(69)

2012年(312)

分类: Python/Ruby

2013-02-28 22:50:42

htmllib 模块提供了一种标签驱动的HTML文档解析方式。解析后的数据将发送给formatter对象进行处理。在此模块中包含HTMLParser类。通过继承HTMLParser类可以有效地对HTML文档进行处理。需要注意的是,此类中没有包含数据资源的获取过程,所以在使用的时候,需要由文件对象获取数据资源。

  此模块是基于sgmllib模块,所以在sgmllib模块中的方法在这里都是适用的。

点击(此处)折叠或打开

  1. #coding:utf-8
  2. #!/usr/bin/python
  3. #Filename: HTMLParser.py
  4. import HTMLParser

  5. class MyParser(HTMLParser.HTMLParser):
  6.     def __init__(self):
  7.         HTMLParser.HTMLParser.__init__(self)
  8.         
  9.     def handle_starttag(self, tag, attrs):
  10.         # 这里重新定义了处理开始标签的函数
  11.         if tag == 'a':
  12.             # 判断标签<a>的属性
  13.             for name,value in attrs:
  14.                 if name == 'href':
  15.                     print value
  16.         

  17. if __name__ == '__main__':
  18.     a = 'test链接到163 '
  19.     my = MyParser()
  20.     #传入要分析的数据,是html的。
  21.     my.feed(a)

  22. http: //www.163.com



阅读(4826) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~