Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3905
  • 博文数量: 1
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 20
  • 用 户 组: 普通用户
  • 注册时间: 2021-05-27 15:44
文章分类
文章存档

2021年(1)

我的朋友

分类: C/C++

2021-06-03 16:44:26

大数据就是量大,有价值,速度快,多样性,而大数据有着很好的分析价值,对互联网的和现在的生活中有有着很大的作用,我们可以通过网络爬虫使用爬虫程序配合爬虫代理IP去获取自己想要的数据信息。只需要将要爬取的目标网站网址放入程序中配上爬虫代理IP去爬取即可。

近几年由于疫情的原因,二手车行业出现了最大的变化,根据获取的二手车市场数据,对影响二手车价格的因素进行研究与分析,靠着真实的大数据进行精准的分析和运营,是未来整个二手车行业必然会上升一个等级。想要提供更多真实,精准,专业的数据分析报告,我们也可以去试着去采集那些二手车平台网站。

通过瓜子网去获取二手车的一些基础信息和价格:

1,采集品牌车的链接

2、通过链接采集该品牌的各类信息

3、将采集好的数据信息进行整理分析保存。

网络爬虫可以利用C Shar语言的request库去进行采集,由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以采集瓜子网最好用多线程爬虫去采集,可以参考以下代码:


点击(此处)折叠或打开

  1. // 要访问的目标页面
  2. string targetUrl = "";


  3. // 代理服务器(产品官网 www.16yun.cn)
  4. string proxyHost = "";
  5. string proxyPort = "31111";

  6. // 代理验证信息
  7. string proxyUser = "username";
  8. string proxyPass = "password";

  9. // 设置代理服务器
  10. WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);


  11. ServicePointManager.Expect100Continue = false;

  12. var request = WebRequest.Create(targetUrl) as HttpWebRequest;

  13. request.AllowAutoRedirect = true;
  14. request.KeepAlive = true;
  15. request.Method = "GET";
  16. request.Proxy = proxy;

  17. //request.Proxy.Credentials = CredentialCache.DefaultCredentials;

  18. request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

  19. // 设置Proxy Tunnel
  20. // Random ran=new Random();
  21. // int tunnel =ran.Next(1,10000);
  22. // request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));


  23. //request.Timeout = 20000;
  24. //request.ServicePoint.ConnectionLimit = 512;
  25. //request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
  26. //request.Headers.Add("Cache-Control", "max-age=0");
  27. //request.Headers.Add("DNT", "1");


  28. //String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
  29. //request.Headers.Add("Proxy-Authorization", "Basic " + encoded);

  30. using (var response = request.GetResponse() as HttpWebResponse)
  31. using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
  32. {
  33.     string htmlStr = sr.ReadToEnd();
  34. }

阅读(899) | 评论(0) | 转发(0) |
0

上一篇:没有了

下一篇:没有了

给主人留下些什么吧!~~