Chinaunix首页 | 论坛 | 博客
  • 博客访问: 267299
  • 博文数量: 30
  • 博客积分: 4398
  • 博客等级: 中校
  • 技术积分: 305
  • 用 户 组: 普通用户
  • 注册时间: 2009-10-06 21:21
文章分类

全部博文(30)

文章存档

2013年(10)

2012年(1)

2011年(17)

2010年(2)

分类: Python/Ruby

2011-06-10 15:59:54

    Perl作为一门创建及管理网站内容的语言迅速地火了起来,而从网络上获取信息同样是Perl的强项。大多网站都是为人而建的,但是经常你想自动处理一些需要重复不断进入某个网站的工作。此类工作可能是简单到只是说:“这是一个URL列表,我想当其中的某些URL失效时会通过邮件通知。”,也可以是涉及到要对很多页面进行更复杂的处理。本书是讲关于如何使用LWP Perl获取并处理网页的。

    比如你想比较一下Amazon.combn.com网站上所有O’Reilly图书的价格,你可以亲自翻看每个页面并记录下价格。你也可以写一个LWP的程序去取回产品页,抽取出价格并生成一个报告。O’Reilly有大量印刷的图书,读完这本,你就可以写个程序,这比你一页一页的翻看列表页可要快得多的多了。

    还有比如有这样一个特殊页面,其中包括几十个文件(图片、音乐等)的链接,这些你都想下载。你可以在浏览器里每次机械地选中一个链接然后选择“另存为”来下载,还是赶紧写个短小的LWP程序来扫描该页面内的URL,然后无人值守地完成下载呢?

    除了从网页抽取数据,你还可以通过网站表单自动提交数据。不论是通过你公司的内部网接口上传50张图片文件,还是每周在当地图书馆的在线卡片目录搜索书名带有“Navajo”字样的新书,通过写个LWP程序提交表单数据及扫描结果数据来自动执行重复的过程,花点时间和心思还是值得的。


阅读(1375) | 评论(0) | 转发(0) |
0

上一篇:前 言

下一篇:Perl::LWP:本书适合读者

给主人留下些什么吧!~~