如何使用python+urllib库+代理IP访问网站-敏敏张77-ChinaUnix博客

小白学大数据

首页　| 　博文目录　| 　关于我

敏敏张77

博客访问： 199625
博文数量： 103
博客积分： 0
博客等级：民兵
技术积分： 1046
用户组：普通用户
注册时间： 2018-03-27 14:41

个人简介

宁为玉碎，不为瓦全

文章分类

全部博文（103）

未分配的博文（103）

文章存档

2025年（16）

2024年（31）

2023年（28）

2022年（17）

2021年（10）

2019年（1）

我的朋友

相关博文

如何使用python+urllib库+代理IP访问网站

分类：大数据

2023-03-14 16:46:53

python 写爬虫获取数据资料是方便的，但是很多网站设置了反爬虫机制，{BANNED}最佳常见的就是限制 IP 频繁请求了，只要某个 IP 在单位时间内的请求次数超过一定值，网站就不再正常响应了，这时，我们的 python 爬虫就无法正常工作了。对于这种情况{BANNED}最佳简单的方式就是使用代理(proxy)。但是使用还是会出现一些问题，比如下面的例子

在爬虫端使用urllib.request爬取网站并且添加了代理池的时候，发现有些网站会出现“无法访问此网站”的情况（代理是可用的，防火墙已关闭），我们可以从以下一些方面找原因。

1、自己的代理池提供的时候出问题了

2、IP挂了（被反爬）

3、网站有反爬措施，{BANNED}最佳简单的是浏览器头验证

4、劣质代理（网速太慢根本打不开网页）

这里我们可以换个付费高质量的代理，并且通过python+urllib库+代理IP然后去访问网站，多次访问看下是否能成功。

#! -- encoding:utf-8 -- from urllib import request import threading # 导入threading库，用于多线程 import time # 导入time库，用于延时

#要访问的目标页面
targetUrl = “” # 修改为百度

#代理服务器(产品官网 )
proxyHost = “t.16yun.cn” proxyPort = “31111”

#代理验证信息
proxyUser = “” proxyPass = “16ip”

proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % { “host” : proxyHost, “port” : proxyPort, “user” : proxyUser, “pass” : proxyPass, }

proxy_handler = request.ProxyHandler({ “http” : proxyMeta, “https” : proxyMeta, })

opener = request.build_opener(proxy_handler)

request.install_opener(opener)

#定义一个锁对象，用于控制每200毫秒只能请求一次
lock = threading.Lock()

#定义一个函数，用于发起请求和打印响应
def get_url(): # 获取锁，如果锁被占用，就等待，直到锁释放 lock.acquire() resp = request.urlopen(targetUrl) # 发起请求 # 判断状态码是否为200，如果不是，打印错误信息 if resp.status_code == 200: print(resp.read()) # 打印响应内容 else: print(f"请求失败，状态码为{resp.status_code}") # 打印错误信息 time.sleep(0.2) # 延时200毫秒 # 释放锁，让其他线程可以获取锁 lock.release()

#定义一个列表，用于存放线程对象
threads = []

#创建10个线程，每个线程执行get_url函数
for i in range(10): t = threading.Thread(target=get_url) # 创建线程对象 threads.append(t) # 将线程对象添加到列表中

#启动所有线程
for t in threads: t.start()

#等待所有线程结束
for t in threads: t.join()

阅读(395) | 评论(0) | 转发(0) |

上一篇：python3和scrapy使用亿牛云隧道代理问题以及代码

下一篇：python多线程并发采集黄金走势数据

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6