Python做下载器需要掌握哪些_MingZznet-ChinaUnix博客

Mingz技术博客

首页　| 　博文目录　| 　关于我

MingZznet

博客访问： 539028
博文数量： 71
博客积分： 0
博客等级：民兵
技术积分： 159
用户组：普通用户
注册时间： 2013-07-13 12:37

个人简介

aaaaaaaaa

文章分类

全部博文（71）

v8（4）
杂项（1）
firefox（1）
Qt（21）
Linux（1）
json（2）
ubuntu（0）
PyQt（1）
python（40）
未分配的博文（0）

文章存档

2013年（71）

我的朋友

最近访客

推荐博文

Python做下载器需要掌握哪些

发布时间：2013-07-24 12:55:53

如果你想用python做下载器的话，需要掌握一些网络以及数据处理的相关模块。1 网络这块的话：urllib,urllib2,httplib.2 如果需要长时间停留抓取的话，还需要掌握格式化、多线程、多进程、数据库相关处理等。3 内容过滤这块主要有：正则表达式，beautifulsoup，sgml等。4 如果你需要做成GUI的形式，可以推荐用wxpython包.........【阅读全文】

阅读(384) | 评论(0) | 转发(0)

python beautifulsoup抓取网页

发布时间：2013-07-24 12:55:27

最近在用python做一些网页分析方面的事情，很久没更新博客了，今天补上。下面的代码用到了1 python 多线程2 网页分析库：beautifulsoup ,这个库比之前分享的python SGMLParser 网页分析库要强大很多，大家有兴趣可以去了解下。运行上面的程序需要安装beautifulsoup.........【阅读全文】

阅读(582) | 评论(0) | 转发(0)

判断网页编码

发布时间：2013-07-24 12:54:54

这段时间在用python处理网页抓取这块，互联网很多网页的编码格式都不一样，大体上是GBK,GB2312，UTF-8，等待。我们在获取网页的的数据后，先要对网页的编码进行判断，才能把抓取的内容的编码统一转换为我们能够处理的编码。比如beautiful soup内部的编码就是unicode的编码。下面介绍两种python 判断网页编码的方法：1 i.........【阅读全文】

阅读(416) | 评论(0) | 转发(0)

mechanize自动登录程序

发布时间：2013-07-24 12:54:47

放假回来了，很久没更新博客了，以后得常更新，今天给大家分享下python第3方的模块包：mechanize。mechanize是非常合适的模拟浏览器的模块，它的特点主要有：1 http,https协议等。2 简单的HTML表单填写。3 浏览器历史记录和重载。4 Referer的HTTP头的正确添加（可选）。5 自动遵守robots.txt的。6 自动处理HTTP-EQU.........【阅读全文】

阅读(454) | 评论(0) | 转发(0)

分享python中文分词

发布时间：2013-07-24 12:53:45

python做SEO相关事情，我在之前的文章已经讲到过，今天给大家分享python中文分词的一些知识。说到分词，如果是做GOOGLE的朋友，那用python分词很简单，可以直接根据空格来分词，或者有相关的nltk模块来处理。中文分词的话，就比较麻烦，因为不能通过空格来分词，并且分词还得考虑语义问题等。下面列出几个比较好的.........【阅读全文】

阅读(479) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6