Chinaunix首页 | 论坛 | 博客
  • 博客访问: 5762282
  • 博文数量: 675
  • 博客积分: 20301
  • 博客等级: 上将
  • 技术积分: 7671
  • 用 户 组: 普通用户
  • 注册时间: 2005-12-31 16:15
文章分类

全部博文(675)

文章存档

2012年(1)

2011年(20)

2010年(14)

2009年(63)

2008年(118)

2007年(141)

2006年(318)

分类:

2009-02-20 15:11:46

一个同学的一个想法,想写个程序,把校内的日志抓下来,做成电子日记。

我就随手用curl写了几个脚本来简单的实现这么个功能,说是脚本,其实就是几个比较长的curl命令。

使用curl命令行来实现部分功能
1. 登录xiaonei:
curl -s -c cookie.txt -d "email=xxxxxx&password=xxxxx"

2. 使用这个cookie进行登录:
curl -s -b cookie.txt http://blog.xiaonei.com/MyBlog.do
就可以得到个人blog的页面了

3. 获得blog文章列表的一个shell
curl -s -D header.txt -b cookie.txt http://blog.xiaonei.com/MyBlog.do | grep GetEntry | grep -v "阅读" | grep -v "评论" | grep title | cut -f3 -d">" | cut -f1 -d"<" | sed 's%(%(%' | sed 's%)%)%'

4. 获得其中的一篇日志:
curl -L -s -b cookie.txt -o 2.html "http://blog.xiaonei.com/GetEntry.do?id=362652601&owner=50757"
[注意]:一定要加上“”,否则curl会丢弃掉&之后的部分,导致访问的URL不完整,从而出错

正则处理:
(.*)

(.*)就是blog的内容

当然可以使用python完成这个工作,主要是考虑到正则表达式python要方便一些;-)

参考:
Python PycURL 网络编程
http://www.pythonclub.org/doku/index.php/python-network-application/pycurl
python-curl=pycurl
http://www.hiadmin.com/python-curlpycurl/
教你学用CURL --- 命令行浏览器


阅读(2873) | 评论(6) | 转发(0) |
给主人留下些什么吧!~~

chinaunix网友2009-02-20 22:03:48

好想法! 用wget 行不?