Chinaunix首页 | 论坛 | 博客
  • 博客访问: 535786
  • 博文数量: 71
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 159
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-13 12:37
个人简介

aaaaaaaaa

文章分类

全部博文(71)

文章存档

2013年(71)

我的朋友

发布时间:2013-07-24 12:54:47

放假回来了,很久没更新博客了,以后得常更新,今天给大家分享下python第3方的模块包:mechanize。mechanize是非常合适的模拟浏览器的模块,它的特点主要有:1 http,https协议等。2 简单的HTML表单填写。3 浏览器历史记录和重载。4 Referer的HTTP头的正确添加(可选)。5 自动遵守robots.txt的。6 自动处理HTTP-EQU.........【阅读全文】

阅读(438) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:53:45

python做SEO相关事情,我在之前的文章已经讲到过,今天给大家分享python中文分词的一些知识。说到分词,如果是做GOOGLE的朋友,那用python分词很简单,可以直接根据空格来分词,或者有相关的nltk模块来处理。中文分词的话,就比较麻烦,因为不能通过空格来分词,并且分词还得考虑语义问题等。下面列出几个比较好的.........【阅读全文】

阅读(455) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:53:31

我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法。首页我们需要安装chardet模块,这个可以通过easy_install 或者pip来安装。安装完以后我们在控制台上导入模块,如果正常就可以。比如我们遇到的一些ISO-8859-2也是可以通过下面的方.........【阅读全文】

阅读(534) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:52:48

1、需要下载splinter2、下载chromedriver放在/usr/bin目录下#!/usr/bin/env pythonimport sysimport timefrom splinter import Browserdef splinter(url,q,p):        browser=Browser('chrome')        #login website        browser.visit(url.........【阅读全文】

阅读(877) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:51:09

最近借做项目的机会,了解了几个常用的配置文件类型,包括ini、json、xml。我所需要的配置文件大概是这样:id = 6port = 22ip = 1.1.1.1pwd = 123456ip = 1.1.1.2pwd = 123456ip = 2.2.2.1pwd = 123456包括属性id、por.........【阅读全文】

阅读(643) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册