nodejs通过动态代理爬取招聘网数据-敏敏张77-ChinaUnix博客

小白学大数据

首页　| 　博文目录　| 　关于我

敏敏张77

博客访问： 199728
博文数量： 103
博客积分： 0
博客等级：民兵
技术积分： 1046
用户组：普通用户
注册时间： 2018-03-27 14:41

个人简介

宁为玉碎，不为瓦全

文章分类

全部博文（103）

未分配的博文（103）

文章存档

2025年（16）

2024年（31）

2023年（28）

2022年（17）

2021年（10）

2019年（1）

我的朋友

最近访客

推荐博文

nodejs通过动态代理爬取招聘网数据

分类： IT业界

2023-04-18 16:40:45

关于爬虫，主流技术是用python，然而随着node的出现，那些对python了解有限的前端同学，用node来实现一个爬虫也不失为一个不错的选择。

当然无论是python爬虫还是node爬虫或其他语言，其实语言特性之外，其思路基本大同小异。下面我就为大家详细介绍下node爬虫的具体思路与实现，内容大概如下。

既然要写爬虫，当然要爬一些利益相关的数据比较有意义。爬取招聘网站的招聘信息，来看看互联网圈子里各个工种的目前薪酬状况及其发展前景，那就以拉钩网为数据来源。

在爬取过程中我们需要进行并发控制，做过爬虫的都知道，爬虫的请求并发量是必须要做的，为什么要控制并发？

控制其爬取频率，以免没爬几个就网站被封IP了。
控制爬虫应用运行内存，不控制并发的话一下子处理N个请求，内存分分钟爆炸。

但是就算再怎么控制并发量也是会中招的。

对于拉钩网这种反爬措施比较暴躁的网站来说，一个IP爬取太过频繁，被识别成机器爬虫几乎是不可避免的，这种情况{BANNED}最佳直接的办法就是更换ip，特别需要的是优质爬虫代理ip，以下就是更换了优质爬虫代理ip后的实现效果。
const http = require("http");
const url = require("url");

// 要访问的目标页面
const targetUrl = "";

const urlParsed = url.parse(targetUrl);

// 代理服务器(产品官网 )
const proxyHost = "t.16yun.cn";
const proxyPort = "36600";

// 生成一个随机 proxy tunnel
var seed = 1;
function random() {
var x = Math.sin(seed++) * 10000;
return x - Math.floor(x);
}
const tunnel = random()*100;

// 代理验证信息
const proxyUser = "16JDLSAS";
const proxyPass = "457890";

const base64 = new Buffer.from(proxyUser + ":" + proxyPass).toString("base64");

const options = {
host: proxyHost,
port: proxyPort,
path: targetUrl,
method: "GET",
headers: {
"Host": urlParsed.hostname,
"Proxy-Tunnel": tunnel,
"Proxy-Authorization" : "Basic " + base64
}
};

http.request(options, function (res) {
console.log("got response: " + res.statusCode);
res.pipe(process.stdout);
}).on("error", function (err) {
console.log(err);
}).end();

阅读(281) | 评论(0) | 转发(0) |

上一篇：python如何爬取爱某查类数据

下一篇：通过实践快速上手python

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6