Chinaunix首页 | 论坛 | 博客
  • 博客访问: 188653
  • 博文数量: 86
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 876
  • 用 户 组: 普通用户
  • 注册时间: 2018-03-27 14:41
个人简介

宁为玉碎,不为瓦全

文章分类
文章存档

2024年(30)

2023年(28)

2022年(17)

2021年(10)

2019年(1)

我的朋友

分类: Python/Ruby

2022-10-08 16:25:41

经历了国庆长假,10月10日24时,国家发改委将开启新一轮国内成品油调价窗口。在此前的“第七跌”之后,这一次国内油价或将继续下调。根据某些机构预测,在此前的“第七跌”之后,这一次国内油价或将继续下调,92号汽油有望重返“7元时代”,这对于长期开车的人来说确实是个好消息。
基于这段时间的油价变化的比较大,所以大家查看油价的网站肯定也是多种多样的,但是作为一个爬虫来说,能用代码实现的为什么要用人力呢?所以就自己做了一个简单的爬取油价信息的python程序,并且可以每天定期把爬取的油价数据信息发送到对应的公众号上。
数据来源于油价网,在获取数据之前简单的分析了下网站,有反爬但是不严,所以这里只需要加上代理IP就可以。之前在公司做爬虫的时候一直都使用的是亿牛云代理(),一直使用效果都比较好,今天我们也继续使用亿牛云代理去爬取油价数据。简单的爬虫程序如下所示:
Plain Text
复制代码
#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = ""

# 要访问的目标HTTPS页面
# targetUrl = ""

# 代理服务器(产品官网 )
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}


# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text
爬取的数据{BANNED}最佳后需要进行清洗后整理后才能发送出去,这里就不在详细的把过程展示出来,做爬虫的清洗数据是基本技能相信大家都会的。
阅读(224) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~