-
用python
下载网页内容还是很不错的,之前是使用urllib模块实验的,但听说有pycurl这个模块,而且比urllib好,所以尝试下,废话不说,以下是代码
-
-
-
#!/usr/bin/env python
-
# -*- coding: utf-8 -*-
-
import StringIO
-
import pycurl
-
-
def writefile(fstr,xfilename):
f=open(xfilename,'w')
f.write(fstr)
f.close
-
-
html = StringIO.StringIO()
-
c = pycurl.Curl()
-
myurl=''
-
-
c.setopt(pycurl.URL, myurl)
-
-
#写的回调
-
c.setopt(pycurl.WRITEFUNCTION, html.write)
-
-
c.setopt(pycurl.FOLLOWLOCATION, 1)
-
-
#最大重定向次数,可以预防重定向陷阱
-
c.setopt(pycurl.MAXREDIRS, 5)
-
-
#连接超时设置
-
c.setopt(pycurl.CONNECTTIMEOUT, 60)
-
c.setopt(pycurl.TIMEOUT, 300)
-
-
#模拟浏览器
-
c.setopt(pycurl.USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1; SV1; .NET CLR 1.1.4322)")
-
-
-
-
#访问,阻塞到访问结束
-
c.perform()
-
-
#打印出 200(HTTP状态码,可以不需要)
-
print c.getinfo(pycurl.HTTP_CODE)
-
-
#输出网页的内容
-
print html.getvalue()
-
#保存成down.txt文件
-
writefile(html.getvalue(),"down.txt")
的pycurl模块的安装可以到http://pycurl.sourceforge.net/download/这里去找.
不同系统使用不同版本,自己看看
转自:http://blog.sina.com.cn/s/blog_59cf08450100ibpg.html
阅读(2270) | 评论(1) | 转发(0) |