什么是网络爬虫?为什么用Python写爬虫?-老男孩IT教育机构-ChinaUnix博客

老男孩IT教育机构

首页　| 　博文目录　| 　关于我

老男孩IT教育机构

博客访问： 2117616
博文数量： 2760
博客积分： 0
博客等级：民兵
技术积分： 27729
用户组：普通用户
注册时间： 2020-11-26 14:30

个人简介

更多python、Linux、网络安全学习内容，可移步：www.oldboyedu.com或关注\"老男孩Linux\"公众号

文章分类

全部博文（2760）

MySQL（1）
GO语言（5）
网络安全（731）
Linux（960）
Python（1036）
Python（19）
未分配的博文（8）

文章存档

2025年（226）

2024年（379）

2023年（643）

2022年（693）

2021年（734）

2020年（80）

我的朋友

相关博文

什么是网络爬虫?为什么用Python写爬虫?

分类： Python/Ruby

2021-03-08 11:47:05

　　很多人应该都听说过网络爬虫，也知道Python是网络爬虫的首选编程语言，那么什么是网络爬虫?为什么写爬虫首选Python语言呢?我们一起来了解一下吧。

　　什么是网络爬虫?

　　网络爬虫又称为网页蜘蛛、网络机器人，在FOAF社区中间，更经常被称为网页追逐者。它是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，传统爬虫从一个或若干个初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前网页上抽取新的URL放入队列，直到满足系统的一定停止条件为止。

　　网络爬虫有什么用?

　　可以作为通用引擎网页的收集器;

　　做垂直搜索引擎;

　　科学研究：在线人类行为，在线社群演化，人类动力研究，计量社会学，复杂网络，数据挖掘等领域都需要大量的数据，网络爬虫是收集相关数据的利器。

　　什么语言可以写爬虫?

　　C\C++。高效率、快速，适合通用搜索引擎做全网爬取;缺点开发慢，写起来又臭又长;

　　脚本语言。包含Perl、Python、Java、Ruby等，简单易学，良好的文本处理能方便网页内容的细致提取。

　　C#。信息管理人员比较喜欢的语言。

　　为什么写爬虫喜欢用Python语言呢?

　　1. 拥有各种爬虫框架，方便高效的下载网页;

　　2. 多线程、进程模型成熟稳定，爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待;多线程和进程会更优化程序效率，提升整个系统下载和分析能力;

　　3. GAE的支持，最初写爬虫的时候刚刚有GAC，而且只支持Python，利用GAE创建的爬虫几乎免费，最多的时候有近千个应用实例在工作;

　　4. Python相关的库也非常方便，比如request、jieba、redis、gevent、NLTK、pillow等，无论最简单的爬虫还是最复杂的爬虫都能轻松搞定。

阅读(741) | 评论(0) | 转发(0) |

上一篇：什么是字节码？python字节码详细介绍！

下一篇：Python自动化测试框架有哪些?Python入门！

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6