python抓取https-wwm-ChinaUnix博客

天道酬勤,重剑无锋wwm.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wwm

博客访问： 7323740
博文数量： 512
博客积分： 12019
博客等级：上将
技术积分： 6857
用户组：普通用户
注册时间： 2005-08-01 16:46

文章分类

全部博文（512）

python（77）

tensorflow（9）
大数据分析（4）
cocos2d-x（3）
nodejs（8）
并行技术研究（1）
杂谈（3）
java（2）
流媒体live strea（9）
flash技术（4）
敏捷（1）
手机网游（15）
中间件（0）
汽车知识（3）
lua（19）
中医和健康（9）
佛教（7）
计算机硬件知识（1）
高性能服务（3）
项目管理（2）
证券知识（27）
算法技术设计与分（4）
数据仓库（11）

数据挖掘（2）
UML（1）
人生感悟（6）
文史类（3）
IT生涯（2）
设计模式（14）
c/c++语言（83）
stl（5）
windows（21）
linux（126）
General（22）
未分配的博文（16）

文章存档

2024年（2）

2022年（2）

2021年（6）

2020年（59）

2019年（4）

2018年（10）

2017年（5）

2016年（2）

2015年（4）

2014年（4）

2013年（16）

2012年（47）

2011年（65）

2010年（46）

2009年（34）

2008年（52）

2007年（52）

2006年（80）

2005年（22）

我的朋友

相关博文

python抓取https

分类： Python/Ruby

2018-10-03 15:35:35

#-*- coding:utf-8 -*-

import urllib
import urllib2
# 1. 导入Python SSL处理模块
import ssl

import time
import sys
import random
import codecs
from bs4 import BeautifulSoup

reload(sys)
sys.setdefaultencoding('utf8')

def getUrl(url):

# 1. 表示忽略未经核实的SSL证书认证
context = ssl._create_unverified_context()

#url = ""
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
request = urllib2.Request(url, headers = headers)
# 1. 在urlopen()方法里指明添加 context 参数
response = urllib2.urlopen(request, context = context)
data = response.read()
soup = BeautifulSoup(data, 'lxml')
for k in soup.table:
res = k.td.get_text()
if not res or res=="":
continue

f = codecs.open("all.txt", "a", "utf-8")
txt = unicode(res)
f.write(res+"\n")
f.close()
#print k.td.find_all( class_="suit")

for i in range(100000):
url = "/%d" % (i)
print url
try:
getUrl(url)
except Exception,e:
print e
sleepS = random.randint(1, 3)
time.sleep(sleepS)

python3中用下面这个更简单。还没一大堆的字符转换问题。

点击(此处)折叠或打开

import ssl
import requests
import traceback
def req_http_get(url):
context = ssl._create_unverified_context()
num = 0
num_max = 3
data = ""
try:
headers = {'Content-Type': 'application/x-www-form-urlencoded'}
while num < num_max:
req = requests.get(url=url, headers=headers)
data = req.text
if len(data) > 0:
break
num += 1
return data
except Exception as e:
traceback.print_exc()
return data

阅读(2347) | 评论(0) | 转发(0) |

上一篇：python常见问题汇总

下一篇：获得验证码图片

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6