Python爬虫入门（4）：Urllib库的高级用法

Tips的ChinaUnix博客

首页　| 　博文目录　| 　关于我

yxccccom

博客访问： 37608
博文数量： 36
博客积分： 0
博客等级：民兵
技术积分： 215
用户组：普通用户
注册时间： 2017-05-11 14:32

文章分类

全部博文（36）

python（34）
java（2）
java（0）
未分配的博文（0）

文章存档

2018年（4）

2017年（32）

我的朋友

最近访客

推荐博文

Python爬虫入门（4）：Urllib库的高级用法

发布时间：2017-08-17 09:31:08

怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒.........【阅读全文】

阅读(365) | 评论(0) | 转发(0)

Python爬虫入门（6）：Cookie的使用

发布时间：2017-08-07 14:40:20

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）在此之前呢，我们必须先介绍一个opener的概念。当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成o.........【阅读全文】

阅读(409) | 评论(0) | 转发(0)

Python爬虫入门（7）：正则表达式

发布时间：2017-07-26 10:20:34

1.了解正则表达式正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。2.正则表达式的语法规则（1）数量词的贪婪模式与非贪婪模式注：我们一般使用非贪婪模式来提.........【阅读全文】

阅读(426) | 评论(0) | 转发(0)

Python爬虫入门（8）：Beautiful Soup的用法

发布时间：2017-07-20 10:35:33

1. Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码.........【阅读全文】

阅读(521) | 评论(0) | 转发(0)

python实现简单爬虫功能

发布时间：2017-07-10 15:32:42

　　我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。python 来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用&nbs.........【阅读全文】

阅读(373) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6