Chinaunix首页 | 论坛 | 博客
  • 博客访问: 262384
  • 博文数量: 30
  • 博客积分: 4398
  • 博客等级: 中校
  • 技术积分: 305
  • 用 户 组: 普通用户
  • 注册时间: 2009-10-06 21:21
文章分类

全部博文(30)

文章存档

2013年(10)

2012年(1)

2011年(17)

2010年(2)

分类: Python/Ruby

2011-06-10 16:03:56

12章,7篇附录,如下:

 

第一章:概括地讲述LWP能做什么, LWP使用的替代方案及什么时候不能用LWP

 

第二章:解释网站工作原理以及一些在读取网站时容易上手但却有限制的函数。

 

第三章:介绍针对网站更加强大的接口。


第四章:演示如何使用URI类解析URL链接,及如何转换相对和绝对URL链接。

 

第五章:描述如何提交GETPOST方式的表单。

 

第六章:演示如何从HTML中使用规则表达式提取信息。

 

第七章:提供另外一种使用HTML::TokeParser模块从HTML中获取数据的方式。

 

第八章:一个使用tokens获取数据的实例。

 

第九章:演示如何使用HTML::TreeBuilder模块从HTML中获取数据。

 

第十章:讲述使用HTML::TreeBuilder模块修改HTML文档。

 

第十一章:处理请求中比较难的部分。

 

第十二章:探讨涉及从一个站点下载多个页面的技术问题。

 

附录ALWP模块的完整列表。

 

附录BHTTP代码列表,它们的含义,及LWP是否会把它们当作成功或失败。

.

附录C:包含了最常用的MIME类型及其含义。

 

附录D:列出了最常用语言标签及其含义(如:"zh-cn"指简体中文,而 "sv"是瑞典语)。

 

附录E:是一个最常用字符编码(字符集)以及用来表明它们的标签的列表。

 

附录F:是一个帮你理解最常用Unicode字符集的表格。它展示了每个字符和它的数字编码(分别以十进制、八进制和十六进制),以及任何或许需要对它进行HTML的跳脱。

 

附录G:是一个对Perl的面向对象编程特性的使用介绍。  


各章节次序

本书各章节是做了安排的,所以如果你按顺序读的话,你会碰到我不得不说“你不必理解这部分代码,因为直到两章之后才会涉及到这个主题。”的少量情况。但是,每章介绍的内容只有少许会在后面的章节中用到。例如,第三章列出了你可能最终会用到的各种LWP的方法,但是典型的工作只会用到其中很少的一部分,也只有很少一部分会出现在后面的章节中。

当你从一个方法的名称无法猜测到它的意思时,你可以随时返回它之前出现过的章节或是使用perldoc查看所适用的模块的在线参考文档。

 

重要的标准化文档

很多的互联网RFC文档定义了Web的基本协议和数据格式。以下是最重要的:

RFC 2616: HTTP 1.1  

RFC 2965: HTTP Cookies Specification 

 

RFC 2617: HTTP Authentication: Basic and Digest Access Authentication 

 

RFC 2396: Uniform Resource Identifiers: Generic Syntax 

 

HTML 4.01 specification 

 

HTML 4.01 Forms specification 

 

Character sets 

 

Country codes 

 

Unicode specifications 

 

RFC 2279: Encoding Unicode as UTF-8 

 

Request For Comments documents 

 

IANA protocol assignments 

 

阅读(2001) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~