Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2461373
  • 博文数量: 437
  • 博客积分: 12019
  • 博客等级: 上将
  • 技术积分: 6115
  • 用 户 组: 普通用户
  • 注册时间: 2005-08-01 16:46
  • 认证徽章:
文章分类

全部博文(437)

文章存档

2018年(6)

2017年(5)

2016年(2)

2015年(4)

2014年(4)

2013年(16)

2012年(48)

2011年(65)

2010年(47)

2009年(34)

2008年(52)

2007年(53)

2006年(80)

2005年(22)

分类: Python/Ruby

2018-10-03 15:35:35

#-*- coding:utf-8 -*-

import urllib
import urllib2
# 1. 导入Python SSL处理模块
import ssl

import time
import sys
import random 
import codecs
from bs4 import BeautifulSoup


reload(sys)  
sys.setdefaultencoding('utf8')  


def  getUrl(url):
 
# 1. 表示忽略未经核实的SSL证书认证
context = ssl._create_unverified_context()
 
#url = "https://www.X.X"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
request = urllib2.Request(url, headers = headers)
# 1. 在urlopen()方法里 指明添加 context 参数
response = urllib2.urlopen(request, context = context)
data = response.read()
soup = BeautifulSoup(data, 'lxml')
for k in soup.table:
res = k.td.get_text()
if not res or res=="":
continue

f = codecs.open("all.txt", "a", "utf-8")
txt = unicode(res)
    f.write(res+"\n")
f.close()
#print k.td.find_all( class_="suit")


for i in range(100000):
url = "https://www.X.X/%d" % (i)
print url
try:
getUrl(url)
except Exception,e:
print e
sleepS = random.randint(1, 3) 
time.sleep(sleepS)

阅读(7) | 评论(0) | 转发(0) |
0

上一篇:python常见问题汇总

下一篇:没有了

给主人留下些什么吧!~~
评论热议
请登录后评论。

登录 注册