python实现爬虫-MingZznet-ChinaUnix博客

Mingz技术博客

首页　| 　博文目录　| 　关于我

MingZznet

博客访问： 534704
博文数量： 71
博客积分： 0
博客等级：民兵
技术积分： 159
用户组：普通用户
注册时间： 2013-07-13 12:37

个人简介

aaaaaaaaa

文章分类

全部博文（71）

v8（4）
杂项（1）
firefox（1）
Qt（21）
Linux（1）
json（2）
ubuntu（0）
PyQt（1）
python（40）
未分配的博文（0）

文章存档

2013年（71）

我的朋友

相关博文

python实现爬虫

分类： Python/Ruby

2013-07-24 12:45:00

原文地址：python实现爬虫作者：alexnetwork

爬虫工作的基本原理就是，给定一个初始的url，下载这个url的网页，然后找出网页上所有满足下载要求的链接，然后把这些链接对应的url下载下来，然后再找下载下来的这些网页的url，我们可以用广度优先搜索实现这个算法.

#!/usr/bin/python
import urllib2
import re

def downURL(url,filename):
    print url
    print filename
    try:
        fp = urllib2.urlopen(url)
    except:
        print 'download exception'
        return 0
    op = open(filename,"wb")
    while 1:
        s = fp.read()
        if not s:
            break
        op.write(s)

        fp.close()
        fp.close()
        return 1

#downURL('','http.log')

def getURL(url):
    try:
        fp = urllib2.urlopen(url)
    except:
        print 'get url exception'
        return 0

    pattern = re.compile("[^\>]+.shtml")
    while 1:
        s = fp.read()
        if not s:
            break
        urls = pattern.findall(s)
    fp.close()
    return urls

def spider(startURL,times):
    urls = []
    urls.append(startURL)
    i = 0
    while 1:
        if i > times:
            break;
        if len(urls)>0:
            url = urls.pop(0)
            print url,len(urls)
            downURL(url,str(i)+'.htm')
            i = i + 1
            if len(urls)                urllist = getURL(url)
                for url in urllist:
                    if urls.count(url) == 0:
                        urls.append(url)
        else:
            break
    return 1
spider('',10)

阅读(251) | 评论(0) | 转发(0) |

上一篇：使用python抓取网页(以人人网新鲜事和团购网信息为例)

下一篇：分享一个Python爬虫小脚本

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6