Chinaunix首页 | 论坛 | 博客
  • 博客访问: 169044
  • 博文数量: 63
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 646
  • 用 户 组: 普通用户
  • 注册时间: 2018-03-27 14:41
个人简介

宁为玉碎,不为瓦全

文章分类
文章存档

2024年(7)

2023年(28)

2022年(17)

2021年(10)

2019年(1)

我的朋友

分类: Python/Ruby

2023-02-01 16:37:28

疫情开放后各行各业的经济都在恢复,特别是电影行业,遇上春节假期的加持活跃度又恢复到疫情之前。春节期间上映的几部电影风评都很好,特别是科幻大片《流浪地球2》{BANNED}最佳斩获近30亿票房后。《流浪地球2》的商业价值正在延伸至其IP周边。仅用8天时间,《流浪地球2》官方周边众筹金额突破一亿元,打破国内影视衍生品众筹金额{BANNED}最佳高记录。从这些数据可以看出大家对这部电影的喜爱。

今天我们就通过使用python大数据爬取豆瓣上关于《流浪地球2》的影评来做数据分析。关于豆瓣网站的反爬大家都很清楚,在非登录状态下只能爬取少量的数据,为了能更多的获取数据这里我们采取了登录账号加上cookie,并用代理IP来防止封IP行为。加上代理IP的实现方式如下所示:

 #! -*- encoding:utf-8 -*-
    import requests
    import random
    import requests.adapters

    # 要访问的目标页面
    targetUrlList = [
        "",
        "",
        "",
    ]

    # 代理服务器(产品官网 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host": proxyHost,
        "port": proxyPort,
        "user": proxyUser,
        "pass": proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }

    #  设置IP切换头
    tunnel = random.randint(1, 10000)
    headers = {"Proxy-Tunnel": str(tunnel)}


    class HTTPAdapter(requests.adapters.HTTPAdapter):
        def proxy_headers(self, proxy):
            headers = super(HTTPAdapter, self).proxy_headers(proxy)
            if hasattr(self, 'tunnel'):
                headers['Proxy-Tunnel'] = self.tunnel
            return headers


    # 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
    for i in range(3):
        s = requests.session()

        a = HTTPAdapter()

        #  设置IP切换头
        a.tunnel = tunnel
        s.mount('https://', a)

        for url in targetUrlList:
            r = s.get(url, proxies=proxies)
            print r.text

通过获取的数据分析可以看出,大家对小球2是真的喜欢,并且根据这次电影周边数据的展现,小编发现在中国电影周边的影视衍生品收入是{BANNED}最佳低的,通过这次的出圈数据表明随着国产IP的崛起,衍生品售卖业务有望提供更大想象空间。

阅读(178) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~