python写简单爬虫的五种方法-xpf1990xpf-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

昀易yunyi.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 381507
博文数量： 150
博客积分： 3423
博客等级：中校
技术积分： 1005
用户组：普通用户
注册时间： 2011-07-15 09:04

文章分类

全部博文（150）

多线程&并行计算（1）
版本控制（3）
IT业界（1）
读书（2）
Crawler/Spider（5）
改变自己（4）
计算机网络（4）
正则表达式（11）
SQL Server（2）
PHP（1）
新技术（1）
Windows（3）
C/C++学习（5）
Java学习（1）
软件使用（3）
MySQL（12）
算法（2）
CSharp学习（12）
Linux（36）

其他（6）

环境配置（11）

常用命令（18）
Python 学习（36）

Python代码（30）

开发工具（5）
未分配的博文（5）

文章存档

2012年（2）

2011年（148）

我的朋友

最近访客

推荐博文

相关博文

python写简单爬虫的五种方法

分类： Python/Ruby

2011-09-15 21:55:44

获取html的方法【一】：使用urllib

# -*- coding: UTF-8 -*-

import urllib

' 获取web页面内容并返回'

def getWebPageContent(url):

f = urllib.urlopen(url)

data = f.read()

f.close()

return data

url = 'http://blog.csdn.net'

content = getWebPageContent(url)

print content

获取html的方法【二】：使用Pycurl

# Pycurl参考地址：http://pycurl.sourceforge.net/

# Pycurl下载地址：http://pycurl.sourceforge.net/download/pycurl-7.18.1.tar.gz

# -*-coding: UTF-8 -*-

importpycurl

importStringIO

defgetURLContent_pycurl(url):

c = pycurl.Curl()

c.setopt(pycurl.URL,url)

b = StringIO.StringIO()

c.setopt(pycurl.WRITEFUNCTION, b.write)

c.setopt(pycurl.FOLLOWLOCATION, 1)

c.setopt(pycurl.MAXREDIRS, 5)

# 代理

#c.setopt(pycurl.PROXY, '')

#c.setopt(pycurl.PROXYUSERPWD, 'aaa:aaa')

c.perform()

returnb.getvalue()

url = 'http://blog.csdn.net'

content =getURLContent_pycurl(url)

print content

获取html的方法【三】：使用cPAMIE

# cPAMIE下载：

# -*-coding: UTF-8 -*-

import cPAMIE

defgetURLContent_cPAMIE(url):

g_ie =cPAMIE.PAMIE()

g_ie.showDebugging = False

g_ie.frameName= None

g_ie.navigate(url)

content =g_ie.pageGetText()

g_ie.quit()

returncontent

url = 'http://blog.csdn.net'

content = getURLContent_cPAMIE(url)

print content

获取html的方法【四】：使用urllib下载文件

# -*- coding: UTF-8 -*-

import urllib

url = 'http://blog.csdn.net'

path = 'C://temp//csdn.net.html'

urllib.urlretrieve(url,path)

获取html的方法【四】：利用Twisted框架之client.getPage

# Twisted框架下载:

# -*-coding: UTF-8 -*-

fromtwisted.internet import reactor

fromtwisted.web import client

defresult(content):

print content

reactor.stop()

deferred =client.getPage("http://blog.csdn.net")

deferred.addCallback(result)

reactor.run()

阅读(1205) | 评论(0) | 转发(0) |

0

上一篇：Python爬虫技术

下一篇：用python编写分布式爬虫

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们