发布时间:2013-07-24 12:53:31
我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法。首页我们需要安装chardet模块,这个可以通过easy_install 或者pip来安装。安装完以后我们在控制台上导入模块,如果正常就可以。比如我们遇到的一些ISO-8859-2也是可以通过下面的方.........【阅读全文】
发布时间:2013-07-24 12:52:48
1、需要下载splinter2、下载chromedriver放在/usr/bin目录下#!/usr/bin/env pythonimport sysimport timefrom splinter import Browserdef splinter(url,q,p): browser=Browser('chrome') #login website browser.visit(url.........【阅读全文】
发布时间:2013-07-24 12:51:09
最近借做项目的机会,了解了几个常用的配置文件类型,包括ini、json、xml。我所需要的配置文件大概是这样:id = 6port = 22ip = 1.1.1.1pwd = 123456ip = 1.1.1.2pwd = 123456ip = 2.2.2.1pwd = 123456包括属性id、por.........【阅读全文】
发布时间:2013-07-24 12:48:04
关键字:scrapy 入门教程 爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html 在这篇入门教程中,我们假定你已经安装了Scrapy。如果你还没有安装,那么请参考安装指南。我们将使用开放目录项目(dmoz)作为.........【阅读全文】