htmllib 模块提供了一种标签驱动的HTML文档解析方式。解析后的数据将发送给formatter对象进行处理。在此模块中包含HTMLParser类。通过继承HTMLParser类可以有效地对HTML文档进行处理。需要注意的是,此类中没有包含数据资源的获取过程,所以在使用的时候,需要由文件对象获取数据资源。
此模块是基于sgmllib模块,所以在sgmllib模块中的方法在这里都是适用的。
-
#coding:utf-8
-
#!/usr/bin/python
-
#Filename: HTMLParser.py
-
import HTMLParser
-
-
class MyParser(HTMLParser.HTMLParser):
-
def __init__(self):
-
HTMLParser.HTMLParser.__init__(self)
-
-
def handle_starttag(self, tag, attrs):
-
# 这里重新定义了处理开始标签的函数
-
if tag == 'a':
-
# 判断标签<a>的属性
-
for name,value in attrs:
-
if name == 'href':
-
print value
-
-
-
if __name__ == '__main__':
-
a = 'test链接到163
'
-
my = MyParser()
-
#传入要分析的数据,是html的。
-
my.feed(a)
-
-
http: //www.163.com
阅读(4865) | 评论(0) | 转发(1) |