python 模拟浏览器-刈齐-ChinaUnix博客

刈齐的ChinaUnix博客

首页　| 　博文目录　| 　关于我

刈齐

博客访问： 473656
博文数量： 481
博客积分： 10
博客等级：民兵
技术积分： 1040
用户组：普通用户
注册时间： 2013-01-06 14:09

文章分类

全部博文（481）

awk（0）
sed（0）
LAMP（2）
linux软件（2）
liunx工具（4）
linux配置（4）
linux命令（8）
puppet（0）
oracle（0）
mysql（107）
linux系统（5）
shell_cmd（2）
mangodb（0）
linux（8）
django（0）
python（1）
未分配的博文（338）

文章存档

2013年（483）

我的朋友

相关博文

python 模拟浏览器

分类： Python/Ruby

2013-02-28 12:40:41

原文地址：python 模拟浏览器作者：jack_sir

python抓取网站数据：

一般使用urllib2.urlopen("")

既可以获取网页内容，但是有些网站做了限制,会返回403等错误。

HTTPError: HTTP Error 403: Forbidden

这里就需要添加cookies，headers

代码如下：

#!/usr/bin/env python

# -*-coding:utf-8 -*-

import urllib2

import re

import cPickle

from random import randint

from time import sleep

#from urllib2 import HTTPError

#from BeautifulSoup import BeautifulSoup

WEBSITE = ""

Yaopin = "/leibie.html"

HOST = WEBSITE.split("/")[2]

def load(url,encoding="gbk"):

heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7',

'Accept-Language':'zh-cn,zh;q=0.5',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Host':HOST,

'Keep-Alive':'115',

'Referer':url,

'User-Agent':'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.14) Gecko/20110221 Ubuntu/10.10 (maverick) Firefox/3.6.14'}

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())

urllib2.install_opener(opener)

req = urllib2.Request(url,headers=heads)

#opener.addheaders = heads.items()

while True:

try:

page = opener.open(req).read()

#print req.header_items()

#sleep(randint(1,10))

break

except (urllib2.HTTPError,),e:

print "Load Error,%s" % e

return False

except KeyboardInterrupt:

print "Interrupt"

return False

except:

print "Error,Retry..."

return False

try:

return unicode(page,encoding).encode('utf-8')

except:

print "Unicode Error...!!!"

def main():

load(WEBSITE+Yaopin)

if __name__ == "__main__":

main()

阅读(625) | 评论(0) | 转发(0) |

上一篇：My .vimrc配置（实时更新）

下一篇：MongoDB 总结（转载）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6