分类: Python/Ruby
2011-06-10 15:59:54
Perl作为一门创建及管理网站内容的语言迅速地火了起来,而从网络上获取信息同样是Perl的强项。大多网站都是为人而建的,但是经常你想自动处理一些需要重复不断进入某个网站的工作。此类工作可能是简单到只是说:“这是一个URL列表,我想当其中的某些URL失效时会通过邮件通知。”,也可以是涉及到要对很多页面进行更复杂的处理。本书是讲关于如何使用LWP及 Perl获取并处理网页的。
比如你想比较一下Amazon.com和bn.com网站上所有O’Reilly图书的价格,你可以亲自翻看每个页面并记录下价格。你也可以写一个LWP的程序去取回产品页,抽取出价格并生成一个报告。O’Reilly有大量印刷的图书,读完这本,你就可以写个程序,这比你一页一页的翻看列表页可要快得多的多了。
还有比如有这样一个特殊页面,其中包括几十个文件(图片、音乐等)的链接,这些你都想下载。你可以在浏览器里每次机械地选中一个链接然后选择“另存为…”来下载,还是赶紧写个短小的LWP程序来扫描该页面内的URL,然后无人值守地完成下载呢?
除了从网页抽取数据,你还可以通过网站表单自动提交数据。不论是通过你公司的内部网接口上传50张图片文件,还是每周在当地图书馆的在线卡片目录搜索书名带有“Navajo”字样的新书,通过写个LWP程序提交表单数据及扫描结果数据来自动执行重复的过程,花点时间和心思还是值得的。