Chinaunix首页 | 论坛 | 博客
  • 博客访问: 533086
  • 博文数量: 71
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 159
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-13 12:37
个人简介

aaaaaaaaa

文章分类

全部博文(71)

文章存档

2013年(71)

我的朋友

发布时间:2013-07-24 12:55:53

如果你想用python做下载器的话,需要掌握一些网络以及数据处理的相关模块。1 网络这块的话:urllib,urllib2,httplib.2 如果需要长时间停留抓取的话,还需要掌握格式化、多线程、多进程、数据库相关处理等。3 内容过滤这块主要有:正则表达式,beautifulsoup,sgml等。4 如果你需要做成GUI的形式,可以推荐用wxpython包.........【阅读全文】

阅读(331) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:55:27

最近在用python做一些网页分析方面的事情,很久没更新博客了,今天补上。下面的代码用到了1 python 多线程2 网页分析库:beautifulsoup ,这个库比之前分享的python SGMLParser 网页分析库要强大很多,大家有兴趣可以去了解下。    运行上面的程序需要安装beautifulsoup.........【阅读全文】

阅读(547) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:54:54

这段时间在用python处理网页抓取这块,互联网很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8,等待。我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码。比如beautiful soup内部的编码就是unicode的编码。下面介绍两种python 判断网页编码的方法:1 i.........【阅读全文】

阅读(377) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:54:47

放假回来了,很久没更新博客了,以后得常更新,今天给大家分享下python第3方的模块包:mechanize。mechanize是非常合适的模拟浏览器的模块,它的特点主要有:1 http,https协议等。2 简单的HTML表单填写。3 浏览器历史记录和重载。4 Referer的HTTP头的正确添加(可选)。5 自动遵守robots.txt的。6 自动处理HTTP-EQU.........【阅读全文】

阅读(421) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:53:45

python做SEO相关事情,我在之前的文章已经讲到过,今天给大家分享python中文分词的一些知识。说到分词,如果是做GOOGLE的朋友,那用python分词很简单,可以直接根据空格来分词,或者有相关的nltk模块来处理。中文分词的话,就比较麻烦,因为不能通过空格来分词,并且分词还得考虑语义问题等。下面列出几个比较好的.........【阅读全文】

阅读(435) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册