Chinaunix首页 | 论坛 | 博客
  • 博客访问: 195872
  • 博文数量: 40
  • 博客积分: 2265
  • 博客等级: 大尉
  • 技术积分: 434
  • 用 户 组: 普通用户
  • 注册时间: 2010-08-23 17:01
文章分类

全部博文(40)

文章存档

2014年(1)

2013年(2)

2012年(6)

2011年(5)

2010年(26)

我的朋友

分类: Python/Ruby

2010-08-28 18:05:14

   经过一个多月的努力,今天终于把爬虫的基本功能给搞定了,后期再慢慢的加强其他的一些功能吧,这次的设计我学到了很多的东西。
   刚开始是准备用C来做这个项目的,搞了一个多星期,用C的话会非常的麻烦,尤其在处理字符集的时候,后来感觉用python会简单的许多,于是开始学习这门语言,差不多用了一个星期的时间把里面的几个基本模块搞清楚,,,re,os,urllib,MySQLdb,threading,,,然后就是用正则来精确的匹配。也花了不少的时间,,,python就是强啊,直接的封装好了,只是需要调用模块就行了,用起来方便,,,不过总有一种不踏实的感觉啊,,,不知道在底层是如何的实现的,,,仔细想想也还好吧,不然用C要写几千行的代码了。。。
   现在的功能只局限于爬两层网页和读匹配的字段到mysql中,后期再加入其他的功能吧,如错误日志,统计,延时,插件等功能。
   最后不得不说python的功能确实很强大啊,记得以前用C写的那个多线程下载的程序,搞了好久,可是在python下直接from urllib import FancyURLopener引入就搞定了,嘿嘿  方便
阅读(788) | 评论(0) | 转发(0) |
0

上一篇:re模块

下一篇:再论字符集(转)

给主人留下些什么吧!~~