python 下载网页内容,用python的pycurl模块实现-wujing168-ChinaUnix博客

文章分类

文章存档

2015年（12）

2014年（17）

2013年（78）

2012年（15）

2011年（17）

2010年（67）

2009年（102）

2008年（11）

我的朋友

相关博文

分类： LINUX

2013-06-28 15:15:59

用python 下载网页内容还是很不错的，之前是使用urllib模块实验的，但听说有pycurl这个模块，而且比urllib好，所以尝试下，废话不说，以下是代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import StringIO
import pycurl
def writefile(fstr,xfilename):
f=open(xfilename,'w')
f.write(fstr)
f.close

html = StringIO.StringIO()
c = pycurl.Curl()
myurl=''
c.setopt(pycurl.URL, myurl)
#写的回调
c.setopt(pycurl.WRITEFUNCTION, html.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
#最大重定向次数,可以预防重定向陷阱
c.setopt(pycurl.MAXREDIRS, 5)
#连接超时设置
c.setopt(pycurl.CONNECTTIMEOUT, 60)
c.setopt(pycurl.TIMEOUT, 300)
#模拟浏览器
c.setopt(pycurl.USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)")
#访问,阻塞到访问结束
c.perform()
#打印出 200(HTTP状态码，可以不需要)
print c.getinfo(pycurl.HTTP_CODE)
#输出网页的内容
print html.getvalue()
#保存成down.txt文件
writefile(html.getvalue(),"down.txt")

的pycurl模块的安装可以到http://pycurl.sourceforge.net/download/这里去找.
不同系统使用不同版本，自己看看

转自：http://blog.sina.com.cn/s/blog_59cf08450100ibpg.html

阅读(2310) | 评论(1) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们