发布时间:2017-08-17 09:31:08
怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我 们就写个例子来扒.........【阅读全文】
发布时间:2017-08-07 14:40:20
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)在此之前呢,我们必须先介绍一个opener的概念。当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成o.........【阅读全文】
发布时间:2017-07-26 10:20:34
1.了解正则表达式正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。2.正则表达式的语法规则(1)数量词的贪婪模式与非贪婪模式注:我们一般使用非贪婪模式来提.........【阅读全文】
发布时间:2017-07-20 10:35:33
1. Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.........【阅读全文】
发布时间:2017-07-10 15:32:42
我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!其实你很厉害的,右键查看页面源代码。python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用&nbs.........【阅读全文】