python如何爬取爱某查类数据-敏敏张77-ChinaUnix博客

小白学大数据

首页　| 　博文目录　| 　关于我

敏敏张77

博客访问： 199624
博文数量： 103
博客积分： 0
博客等级：民兵
技术积分： 1046
用户组：普通用户
注册时间： 2018-03-27 14:41

个人简介

宁为玉碎，不为瓦全

文章分类

全部博文（103）

未分配的博文（103）

文章存档

2025年（16）

2024年（31）

2023年（28）

2022年（17）

2021年（10）

2019年（1）

我的朋友

最近访客

推荐博文

python如何爬取爱某查类数据

分类： IT业界

2023-04-03 16:03:19

{BANNED}最佳近因为公司业务需求写了一套分布式多线程的爱某查爬虫系统，实现了对爱某查整个网站的全部数据各种维度的采集和存储，经常在论坛或爬虫群里面看一些做技术的朋友在爬爱某查类型的网站的时候会遇到以下几个问题，所以写了这篇文章一些简单的解决方案分享给大家。

1、目标网站的难度系数比拼

比如爱某查和天某查哪一个的数据更难爬呢？其实在准备爬爱某查数据的时候，我对启某宝、企某查类似的网站分布从数据的完整性和数据的更新及时性分析了，结果个人觉得爱某查的数据比其他网站的要完整，数据维度要多一些，数据更新的时候也比较快，所以{BANNED}最佳后选择了爬取天某查里面的企业数据，难度相比也要稍等小一点。

2. 采集速度太频繁了，会被封IP问题怎么解决

当我们的爬虫程序向目标网站发出http请求的时候，正常情况下返回200状态，说明请求合法被接受，并且会返回数据，但是这次的目标网站想对一般网站反爬要严厉很多，其中{BANNED}最佳普遍的一个就是如果检查到同一个IP来不断的采集他网站的数据，那么他会被这个IP列入异常黑名单，您再去采集它网站数据的时候，那么就永远被拦截了。这种情况{BANNED}最佳简单的就是使用爬虫代理IP去访问，每一次请求的时候都采用代理IP方式去请求，而且这个代理IP是随机变动的，每次请求都不同。

爬虫程序实现数据采集的过程

在进行爬取数据的过程中我们经常会使用到一些库，requests属于第三方库，使用起来比urllib要简单不少，且功能更加强大，是{BANNED}最佳常用的请求库。以下是requests加上优质爬虫代理IP实现数据采集的过程：
#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = ""

# 要访问的目标HTTPS页面
# targetUrl = ""

# 代理服务器(产品官网 )
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "16WNFAPS"
proxyPass = "458798"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}

# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

阅读(203) | 评论(0) | 转发(0) |

上一篇：python多线程并发采集黄金走势数据

下一篇：nodejs通过动态代理爬取招聘网数据

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6