发布时间:2013-07-24 12:55:53
如果你想用python做下载器的话,需要掌握一些网络以及数据处理的相关模块。1 网络这块的话:urllib,urllib2,httplib.2 如果需要长时间停留抓取的话,还需要掌握格式化、多线程、多进程、数据库相关处理等。3 内容过滤这块主要有:正则表达式,beautifulsoup,sgml等。4 如果你需要做成GUI的形式,可以推荐用wxpython包.........【阅读全文】
发布时间:2013-07-24 12:55:27
最近在用python做一些网页分析方面的事情,很久没更新博客了,今天补上。下面的代码用到了1 python 多线程2 网页分析库:beautifulsoup ,这个库比之前分享的python SGMLParser 网页分析库要强大很多,大家有兴趣可以去了解下。 运行上面的程序需要安装beautifulsoup.........【阅读全文】
发布时间:2013-07-24 12:54:47
放假回来了,很久没更新博客了,以后得常更新,今天给大家分享下python第3方的模块包:mechanize。mechanize是非常合适的模拟浏览器的模块,它的特点主要有:1 http,https协议等。2 简单的HTML表单填写。3 浏览器历史记录和重载。4 Referer的HTTP头的正确添加(可选)。5 自动遵守robots.txt的。6 自动处理HTTP-EQU.........【阅读全文】
发布时间:2013-07-24 12:53:45
python做SEO相关事情,我在之前的文章已经讲到过,今天给大家分享python中文分词的一些知识。说到分词,如果是做GOOGLE的朋友,那用python分词很简单,可以直接根据空格来分词,或者有相关的nltk模块来处理。中文分词的话,就比较麻烦,因为不能通过空格来分词,并且分词还得考虑语义问题等。下面列出几个比较好的.........【阅读全文】