Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1602335
  • 博文数量: 2204
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 22169
  • 用 户 组: 普通用户
  • 注册时间: 2020-11-26 14:30
个人简介

更多python、Linux、网络安全学习内容,可移步:www.oldboyedu.com或关注\"老男孩Linux\"公众号

文章分类

全部博文(2204)

文章存档

2024年(54)

2023年(643)

2022年(693)

2021年(734)

2020年(80)

我的朋友

分类: Python/Ruby

2021-06-04 15:34:44

  众所周知,爬虫是Python重要的应用方向之一,也是学习Python求职的热门岗位。对此,为帮助学员们快速通过面试,小编整理了一些Python爬虫常见面试题,希望能够帮助到你们。

  1. 试列出至少三种目前流行流行的大型数据库;

  2. 列举您使用过的Python网络爬虫所用到的网络数据包;

  3. 爬取数据后使用哪个数据库存储数据,为什么?

  4. 你用过的爬虫框架或者模块有哪些?优缺点?

  5. 写爬虫是用多进程好?还是多线程好?

  6. 常见的反爬虫和应对方法?

  7. 解析网页的解析器使用最多的是那几个?

  8. 需要登录的网页,如何解决同时限制ip,cookie,session?

  9. 验证码的解决?

  10. 使用最多的数据库,对他们的理解?

  11. 编写过哪些爬虫中间件?

  12. 极验滑动验证码如何破解?

  13. 爬虫多久爬一次?爬下来的数据怎么存储?

  14. Cookie过期的处理问题?

  15. 动态加载又对及时性要求很高怎么处理?

  16. HTTPS有什么优点和缺点?

  17. HTTPS是如何实现安全传输数据的?

  18. 谈一谈你对Selenium和PhantomJS了解?

  19. 平常怎么使用代码的?

  20. 存放在数据库?

  21. 怎么监控爬虫的状态?

  22. 描述下Scrapy框架运行的机制?

  23. 谈谈你对Scrapy的理解?

  24. 怎么样让Scrapy框架发送一个post请求?

  25. 怎么判断网站是否更新?

  26. 图片、视频抓取怎么绕过防盗连接?

  27. 你爬出来的数据量大量有多大?大概多长时间爬一次?

  28. 用什么数据库存爬下来的数据?部署是你做的吗?如何部署?

  29. 增量爬取

  30. 爬取下来的数据如何去重,说一下scrapy的具体的算法依据。

  31. Scrapy的优缺点?

  32. 怎么设置爬取深度?

  33. scrapy和scrapy-redis有什么区别?为什么选择redis数据库?

  34. 分布式爬虫主要解决什么问题?

  35. 什么是分布式存储?

  36. 你所知道的分布式爬虫方案有哪些?

  37. scrapy-redis,有做过其他的分布式爬虫吗?

阅读(517) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~