经过一个多月的努力,今天终于把爬虫的基本功能给搞定了,后期再慢慢的加强其他的一些功能吧,这次的设计我学到了很多的东西。
刚开始是准备用C来做这个项目的,搞了一个多星期,用C的话会非常的麻烦,尤其在处理字符集的时候,后来感觉用python会简单的许多,于是开始学习这门语言,差不多用了一个星期的时间把里面的几个基本模块搞清楚,,,re,os,urllib,MySQLdb,threading,,,然后就是用正则来精确的匹配。也花了不少的时间,,,python就是强啊,直接的封装好了,只是需要调用模块就行了,用起来方便,,,不过总有一种不踏实的感觉啊,,,不知道在底层是如何的实现的,,,仔细想想也还好吧,不然用C要写几千行的代码了。。。
现在的功能只局限于爬两层网页和读匹配的字段到mysql中,后期再加入其他的功能吧,如错误日志,统计,延时,插件等功能。
最后不得不说python的功能确实很强大啊,记得以前用C写的那个多线程下载的程序,搞了好久,可是在python下直接from urllib import FancyURLopener引入就搞定了,嘿嘿 方便
阅读(788) | 评论(0) | 转发(0) |