python模块之HTMLParser: 解析html,获取url-sun5411-ChinaUnix博客

sun5411

首页　| 　博文目录　| 　关于我

sun5411

博客访问： 2177207
博文数量： 333
博客积分： 10161
博客等级：上将
技术积分： 5238
用户组：普通用户
注册时间： 2008-02-19 08:59

文章分类

全部博文（333）

kafka（1）
redis（2）
storm（1）
java（3）
kernel（11）
shell（2）
python（18）
skyeye（8）
php（2）
股票技术（7）
硬件（13）
python（47）
C语言（21）
ubuntu（18）
操作使用技巧（8）
网络经典（0）
个人随记（7）
路由交换（1）
linux（138）

suse（2）
数据库（21）
存储设备（2）
网络设备（2）
未分配的博文（0）

文章存档

2017年（10）

2014年（2）

2013年（57）

2012年（64）

2011年（76）

2010年（84）

2009年（3）

2008年（37）

我的朋友

相关博文

python模块之HTMLParser: 解析html,获取url

分类： Python/Ruby

2010-12-16 14:12:04

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：
handle_startendtag 处理开始标签和结束标签
handle_starttag     处理开始标签，比如
handle_endtag       处理结束标签，比如
handle_charref      处理特殊字符串，就是以&#开头的，一般是内码表示的字符
handle_entityref    处理一些特殊字符，以&开头的，比如
handle_data         处理数据，就是data中间的那些数据
handle_comment      处理注释
handle_decl         处理handle_pi           处理形如的东西
    这里我以从网页中获取到url为例，介绍一下。要想获取到url，肯定是要分析标签，然后取到它的href属性的值。下面是代码：

#-*- encoding: gb2312 -*-
import HTMLParser

class MyParser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)

    def handle_starttag(self, tag, attrs):
        # 这里重新定义了处理开始标签的函数
        if tag == 'a':
            # 判断标签的属性
            for name,value in attrs:
                if name == 'href':
                    print value


if __name__ == '__main__':
    a = 'test链接到163 '

    my = MyParser()
    # 传入要分析的数据，是html的。
    my.feed(a)

阅读(1975) | 评论(0) | 转发(0) |

上一篇：python模块之uuid

下一篇：python模块之zipfile

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6