Python备份百度博客-yexin218-ChinaUnix博客

※一路风尘※leyond.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yexin218

博客访问： 6641395
博文数量： 227
博客积分： 10047
博客等级：上将
技术积分： 6678
用户组：普通用户
注册时间： 2006-07-11 10:33

个人简介

网上的蜘蛛

文章分类

全部博文（227）

存在与活（72）
网页开发（5）
时事新闻（0）
思科网络（0）
Java学习（22）

Eclipse（2）
音乐宝盒（2）
英语沙龙（3）

英语写作（0）
新闻娱乐（0）
图片欣赏（2）
网络美文（0）
数据库（0）

LDAP（0）
资料常识（1）
操作系统（8）

Linux（3）
C/C++（15）

驱动开发（5）

linuxWeb（0）
JSP日志（1）

图表编程（0）
编程开发（96）

Python（7）

Ruby（1）

AS3（2）

NS2（31）

Flex（35）

XML（3）

VirtualWiFi（5）

JQuery（2）

struts（0）

LifeRay（0）

Ajax（4）

Delphi（0）

OpenGL（6）
未分配的博文（0）

文章存档

2010年（19）

2009年（29）

2008年（179）

我的朋友

相关博文

Python备份百度博客

分类： Python/Ruby

2010-04-25 21:59:30

开始学Python,就看看urllib模块，然后参考网上的一些资料，自己动手写一个，新手完全不顾效率和程序的美观，只想试下。最难的部分在于正则，看了一些资料，还是不会，只好凑合使用，莫见笑~

''' Created on Apr 22, 2010 @author: Leyond ''' import urllib import re def downloadpage(url_hi ='',user ='codedeveloper', blogUrl = '/blog/item/809ad16011b3196c0d33fa5f.html'): url = url_hi +user+ blogUrl nFail =0 while nFail < 3: try: sock = urllib.urlopen(url) htmlSource = sock.read() #htmlContent = re.findall(r"

",htmlSource,re.I)

           # print htmlContent

            htmlSourceNew = htmlSource.replace("\n"," ")

            htmlContent = re.findall(r"

<\/td><\/tr><\/table>",htmlSourceNew,re.I)

            user += '/%s' % (blogUrl[11:])



            myfile = file(user,'w')

            myfile.write(""+htmlContent[0]+"
")#保存有效部分

            myfile.close()

            urls = re.findall(r"var.*pre.*?/blog/item/.*?html",htmlSource,re.I)

            if(len(urls)==1):

                blogUrl = re.findall(r"/blog/item/.*?html",urls[0],re.I)

                htmlUrl = '' + user + blogUrl[0]

                print htmlUrl

                downloadpage(blogUrl = blogUrl[0])#递归你所有的文章

            else:

                break

            



            sock.close()

            return

        except:

            nFail += 1

            print 'download blog fail: %s' % (blogUrl)

      

downloadpage()

用之前，需要在文件所在目录新建一个目录，例如我的博客就是 codedeveloper,使用这段程序，需要更改两个参数：

downloadpage(user = "yours",blogUrl = '/blog/item/yournewestblogurl.html')
其中user那里指的是你的用户名，yournewestblogurl说的是你最新那篇博文的地址~
等我进一步学习，我在慢慢改善~ 比如使用线程，wget下载等，还有就是处理图片问题。

阅读(3535) | 评论(0) | 转发(0) |

上一篇：凡事都别强求

下一篇：Python正则表达式的几种匹配用法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6