爬虫的设计-libin1201119-ChinaUnix博客

libin1201119konata.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

libin1201119

博客访问： 199026
博文数量： 40
博客积分： 2265
博客等级：大尉
技术积分： 434
用户组：普通用户
注册时间： 2010-08-23 17:01

文章分类

全部博文（40）

SIP（1）
生活（0）
系统架构（1）
设计模式（1）
UML（1）
jabber（3）
socket（5）
linux（12）

I/O（2）

oracle（3）

process（1）

shell（3）
python（6）
C（9）
未分配的博文（1）

文章存档

2014年（1）

2013年（2）

2012年（6）

2011年（5）

2010年（26）

我的朋友

xy1121

相关博文

爬虫的设计

分类： Python/Ruby

2010-08-28 18:05:14

   经过一个多月的努力，今天终于把爬虫的基本功能给搞定了，后期再慢慢的加强其他的一些功能吧，这次的设计我学到了很多的东西。
   刚开始是准备用C来做这个项目的，搞了一个多星期，用C的话会非常的麻烦，尤其在处理字符集的时候，后来感觉用python会简单的许多，于是开始学习这门语言，差不多用了一个星期的时间把里面的几个基本模块搞清楚,,,re,os,urllib,MySQLdb,threading,,,然后就是用正则来精确的匹配。也花了不少的时间，，，python就是强啊，直接的封装好了，只是需要调用模块就行了，用起来方便，，，不过总有一种不踏实的感觉啊，，，不知道在底层是如何的实现的，，，仔细想想也还好吧，不然用C要写几千行的代码了。。。
   现在的功能只局限于爬两层网页和读匹配的字段到mysql中，后期再加入其他的功能吧，如错误日志，统计，延时，插件等功能。
   最后不得不说python的功能确实很强大啊，记得以前用C写的那个多线程下载的程序，搞了好久，可是在python下直接from urllib import FancyURLopener引入就搞定了，嘿嘿方便

阅读(802) | 评论(0) | 转发(0) |

上一篇：re模块

下一篇：再论字符集(转)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6