Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1134541
  • 博文数量: 170
  • 博客积分: 1603
  • 博客等级: 上尉
  • 技术积分: 1897
  • 用 户 组: 普通用户
  • 注册时间: 2010-07-09 15:54
文章分类

全部博文(170)

文章存档

2016年(27)

2015年(21)

2014年(27)

2013年(21)

2012年(7)

2011年(67)

我的朋友

分类: Python/Ruby

2011-09-26 16:44:49

!!!!毛片是学习的动力系列!!!!
为了下个毛漫画哥们我花了不少时间折腾桀桀......本来re模块还不怎么熟悉的,现在好了...
其实最折腾的地方是[0-9]{n,m},因为sed里要转义,必须写成[0-9]\{n,m\},搞得我re里也这样写半天匹配不了还想不通哪里错了!

  1. #! /usr/bin/python
  2. # -*- coding: UTF-8 -*-
  3. import re,urllib,urllib2
  4. import os,sys,time
  5. #import binascii

  6. url_link = ''

  7. def downJPG(link,num):
  8.     jpg_file = '/root/1/%d.jpg' % num
  9.     print "print download jpg url %s to file %s" %(link,jpg_file)
  10.     data = urllib.urlretrieve(link,jpg_file)
  11.     print "download ok!"
  12. # print len(data)
  13. # f = file(jpg_file,'wb')
  14. # f.write(data)
  15. # f.close()


  16. def findLink(link,num):
  17.     if num > 18:sys.exit(0)
  18.     respone = urllib2.urlopen(link)
  19.     text = respone.read()
  20.     respone.close()
  21.     down_link = re.compile(r'http:\/\/[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}:[0-9]{1,5}\/h\/.*\/keystamp\=[0-9]{1,}-.[0-9a-zA-Z]{,20}/[0-9a-zA-Z]{1,6}\.jpg').findall(text)
  22.     if len(down_link)>0:
  23.         downJPG(down_link[0],num)
  24.     next_link = re.compile(r'<\/iframe>).findall(text)[0][18:]
  25.     findLink(next_link,num+1)


  26. if __name__ == '__main__':
  27.     findLink(url_link,1)


阅读(1754) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~