用Python爬取数据分析不同电影的票房差距-敏敏张77-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

小白学大数据

首页　| 　博文目录　| 　关于我

敏敏张77

博客访问： 188589
博文数量： 86
博客积分： 0
博客等级：民兵
技术积分： 876
用户组：普通用户
注册时间： 2018-03-27 14:41

个人简介

宁为玉碎，不为瓦全

文章分类

全部博文（86）

未分配的博文（86）

文章存档

2024年（30）

2023年（28）

2022年（17）

2021年（10）

2019年（1）

我的朋友

相关博文

用Python爬取数据分析不同电影的票房差距

分类： Python/Ruby

2022-08-29 16:31:35

8月28日晚，万达电影发布2022年半年报，万达电影上半年净亏损5.81亿元，同比止盈转亏。公司业绩的背后，显示出中国电影全产业链所面临的压力。今年上半年国内多地疫情升级，影片供应不足，中国电影复苏再次被迫暂停。数据显示，上半年全国电影票房171亿元，同比下降37.7%，观影人次3.98亿，同比下降41.7%。

电影是大家最基本的一种娱乐生活方式，虽然电影行业的亏损很大原因是疫情的影响，但是不同的电影就算在没有疫情的情况下票房还是有差距的。所以今天我们就利用爬虫技术获取以往的电影票房数据进行分析下不同类型的电影票房的差距。我们的数据来源于以公开使用的电影数据，简单的爬取代码如下：

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = ""

# 要访问的目标HTTPS页面
# targetUrl = ""

# 代理服务器(产品官网 )
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}

# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

在获取数据的过程中为了避免被目标网站反爬，所以添加了代理IP，示例里面有代理IP的使用过程。是由亿牛云提供的隧道代理使用方式，对很多新手来说比较容易上手。有代理需求的可以去官网详细咨询。对于获取的数据还需要进行后期处理才能使用，所以这里就先不展示给大家结果看，下次再分享给大家参考。

若有收获，就点个赞吧

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

阅读(280) | 评论(0) | 转发(0) |

上一篇：A股又跌上了热搜

下一篇：据说92号汽油有望重返“7元时代”

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6