一个python小爬虫（详细注释）-FlankerSky-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

FlankerSky的ChinaUnix博客

首页　| 　博文目录　| 　关于我

博客访问： 30723
博文数量： 6
博客积分： 0
博客等级：民兵
技术积分： 70
用户组：普通用户
注册时间： 2013-07-13 13:23

文章分类

全部博文（6）

python（1）
linux（3）
未分配的博文（2）

文章存档

2013年（6）

我的朋友

最近访客

推荐博文

相关博文

一个python小爬虫（详细注释）

分类： Python/Ruby

2013-11-03 11:17:31

初学python，感觉python确实很强大，很简洁。有很多现成的库可以用，很方便。
代码是参考的网上的代码，在这里加上详细的注释，希望帮到跟我一样的新手。

#file:    urllister.py

from sgmllib import SGMLParser
class URLLister(SGMLParser):
    def reset(self):
        SGMLParser.reset(self)
        self.urls = []

    def start_a(self, attrs):
        href = [v for k, v in attrs if k=='href']
        if href:
            self.urls.extend(href)

#file:    spider.py

import urllib, urllister
#urllib是python的标准库
#urllister 是自定义的文件，包含class URLLister(继承自SGMLParser)，重定义了start_a方法，将 def getURL(url):
    try:
        usock = urllib.urlopen(url)#打开一个url
    except:
        print 'get url excepton'
        return []
    parser = urllister.URLLister()
    parser.feed(usock.read())    #将返回的html转换成字符串，同时调用了start_a方法，url信息已经保存在了parser.urls中
    usock.close()
    parser.close()
    urls = parser.urls
    return urls

#spider(startURL,depth)递归调用getURL(url)，startURL为起始URL，depth为递归次数，即遍历的深度

def spider(startURL, depth):
    i = 0
    global num      #num为全局变量，用来记录打印的url的数目
    if depth <= i:    #达到遍历的最深层
       return 0
    else:
       urls = getURL(startURL)    #从startURL返回的html中所有的url，保存在一个list中，即urls中
       if len(urls) > 0:
            for url in urls:        #对urls中的每条url递归调用spider，
                print url, num
                num = num + 1
                spider(url,depth - 1)#每次递归，深度减1
       else:
                return 0
    return 1

#调用spider

num = 0
spider("",2)

阅读(2992) | 评论(0) | 转发(0) |

0

上一篇：一个嵌套死锁

下一篇：packet socket进行抓包所引出问题的深层次挖掘

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们