如何构造一个C#语言的爬虫蜘蛛程序-Mem6yDb-ChinaUnix博客

linux乐园33307

首页　| 　博文目录　| 　关于我

Mem6yDb

博客访问： 760942
博文数量： 769
博客积分： 6000
博客等级：准将
技术积分： 4985
用户组：普通用户
注册时间： 2008-10-15 16:37

文章分类

全部博文（769）

未分配的博文（769）

文章存档

2011年（1）

2008年（768）

我的朋友

最近访客

推荐博文

如何构造一个C#语言的爬虫蜘蛛程序

分类：

2008-10-15 16:38:15

　　特别适合于构造蜘蛛程序，这是因为它已经内置了HTTP访问和多线程的能力，而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题：

　　⑴ HTML分析：需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。

　　⑵ 页面处理：需要处理每一个得到的页面。得到的内容可能要保存到磁盘，或者进一步分析处理。

　　⑶ 多线程：只有拥有多线程能力，蜘蛛程序才能真正做到高效。

　　⑷ 确定何时完成：不要小看这个问题，确定任务是否已经完成并不简单，尤其是在多线程环境下。

　　一、HTML解析

本文提供的HTML解析器由ParseHTML类实现，使用非常方便：首先创建该类的一个实例，然后将它的Source属性设置为要解析的HTML文档：

ParseHTML parse = new ParseHTML();

parse.Source = "

Hello World

接下来就可以利用循环来检查HTML文档包含的所有文本和标记。通常，检查过程可以从一个Eof方法的while循环开始：

while(!parse.Eof())

{

char ch = parse.Parse();

　　Parse方法将返回HTML文档包含的字符--它返回的内容只包含那些非HTML标记的字符，如果遇到了HTML标记，Parse方法将返回0值，表示现在遇到了一个HTML标记。遇到一个标记之后，我们可以用GetTag()方法来处理它。

if(ch==0)

{

HTMLTag tag = parse.GetTag();

}

　　一般地，蜘蛛程序最重要的任务之一就是找出各个HREF属性，这可以借助的索引功能完成。例如，下面的代码将提取出HREF属性的值（如果存在的话）。

Attribute href = tag["HREF"];

string link = href.Value;

　　获得Attribute对象之后，通过Attribute.Value可以得到该属性的值。

二、处理HTML页面

　　下面来看看如何处理HTML页面。首先要做的当然是HTML页面，这可以通过提供的HttpWebRequest类实现：

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(m_uri);

response = request.GetResponse();

stream = response.GetResponseStream();

　　接下来我们就从request创建一个stream流。在执行其他处理之前，我们要先确定该文件是二进制文件还是文本文件，不同的文件类型处理方式也不同。下面的代码确定该文件是否为二进制文件。

if( !response.ContentType.ToLower().StartsWith("text/") )

{

SaveBinaryFile(response);

return null;

}

string buffer = "",line;

　　如果该文件不是文本文件，我们将它作为二进制文件读入。如果是文本文件，首先从stream创建一个StreamReader，然后将文本文件的内容一行一行加入缓冲区。

[1]

【责编:Luzi】

--------------------next---------------------

阅读(313) | 评论(0) | 转发(0) |

上一篇：C# 制作以动画的方式显示图像_Asp.net教程_.Net教程_Vb.net教程_Vc.net_C#编程

下一篇：C#中将Big5繁体转换简体GB2312的程序

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6