Chinaunix首页 | 论坛 | 博客
  • 博客访问: 163802
  • 博文数量: 59
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 606
  • 用 户 组: 普通用户
  • 注册时间: 2018-03-27 14:41
个人简介

宁为玉碎,不为瓦全

文章分类
文章存档

2024年(3)

2023年(28)

2022年(17)

2021年(10)

2019年(1)

我的朋友

分类: Python/Ruby

2022-08-29 16:31:35

8月28日晚,万达电影发布2022年半年报,万达电影上半年净亏损5.81亿元,同比止盈转亏。公司业绩的背后,显示出中国电影全产业链所面临的压力。今年上半年国内多地疫情升级,影片供应不足,中国电影复苏再次被迫暂停。数据显示,上半年全国电影票房171亿元,同比下降37.7%,观影人次3.98亿,同比下降41.7%。

电影是大家最基本的一种娱乐生活方式,虽然电影行业的亏损很大原因是疫情的影响,但是不同的电影就算在没有疫情的情况下票房还是有差距的。所以今天我们就利用爬虫技术获取以往的电影票房数据进行分析下不同类型的电影票房的差距。我们的数据来源于以公开使用的电影数据,简单的爬取代码如下:

 #! -*- encoding:utf-8 -*-


    import requests
    import random


    # 要访问的目标页面
    targetUrl = ""


    # 要访问的目标HTTPS页面
    # targetUrl = ""


    # 代理服务器(产品官网 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"


    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"


    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }


    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }




    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
在获取数据的过程中为了避免被目标网站反爬,所以添加了代理IP,示例里面有代理IP的使用过程。是由亿牛云提供的隧道代理使用方式,对很多新手来说比较容易上手。有代理需求的可以去官网详细咨询。对于获取的数据还需要进行后期处理才能使用,所以这里就先不展示给大家结果看,下次再分享给大家参考。






    resp = requests.get(targetUrl, proxies=proxies, headers=headers)


    print resp.status_code
    print resp.text

阅读(232) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~