宁为玉碎,不为瓦全
分类: Python/Ruby
2023-02-01 16:37:28
疫情开放后各行各业的经济都在恢复,特别是电影行业,遇上春节假期的加持活跃度又恢复到疫情之前。春节期间上映的几部电影风评都很好,特别是科幻大片《流浪地球2》{BANNED}最佳斩获近30亿票房后。《流浪地球2》的商业价值正在延伸至其IP周边。仅用8天时间,《流浪地球2》官方周边众筹金额突破一亿元,打破国内影视衍生品众筹金额{BANNED}最佳高记录。从这些数据可以看出大家对这部电影的喜爱。
今天我们就通过使用python大数据爬取豆瓣上关于《流浪地球2》的影评来做数据分析。关于豆瓣网站的反爬大家都很清楚,在非登录状态下只能爬取少量的数据,为了能更多的获取数据这里我们采取了登录账号加上cookie,并用代理IP来防止封IP行为。加上代理IP的实现方式如下所示:
#! -*- encoding:utf-8 -*- import requests import random import requests.adapters # 要访问的目标页面 targetUrlList = [ "", "", "", ] # 代理服务器(产品官网 ) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host": proxyHost, "port": proxyPort, "user": proxyUser, "pass": proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http": proxyMeta, "https": proxyMeta, } # 设置IP切换头 tunnel = random.randint(1, 10000) headers = {"Proxy-Tunnel": str(tunnel)} class HTTPAdapter(requests.adapters.HTTPAdapter): def proxy_headers(self, proxy): headers = super(HTTPAdapter, self).proxy_headers(proxy) if hasattr(self, 'tunnel'): headers['Proxy-Tunnel'] = self.tunnel return headers # 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP for i in range(3): s = requests.session() a = HTTPAdapter() # 设置IP切换头 a.tunnel = tunnel s.mount('https://', a) for url in targetUrlList: r = s.get(url, proxies=proxies) print r.text
通过获取的数据分析可以看出,大家对小球2是真的喜欢,并且根据这次电影周边数据的展现,小编发现在中国电影周边的影视衍生品收入是{BANNED}最佳低的,通过这次的出圈数据表明随着国产IP的崛起,衍生品售卖业务有望提供更大想象空间。