使用JAVA语言来提取网站内部URL的算法-dongdongt-ChinaUnix博客

IT人的博客

首页　| 　博文目录　| 　关于我

dongdongt

博客访问： 1638023
博文数量： 3500
博客积分： 6000
博客等级：准将
技术积分： 43870
用户组：普通用户
注册时间： 2008-05-03 20:31

文章分类

全部博文（3500）

全部文章（3500）
未分配的博文（0）

文章存档

2008年（3500）

我的朋友

最近访客

推荐博文

使用JAVA语言来提取网站内部URL的算法

分类：

2008-05-04 19:01:14

一起学习

一、引言 20世纪末是万维网开始膨胀的时期，它的发展速度是十分惊人的。据统计，万维网已经连通了世界上几乎所有的国家，并且万维网正在急速发展。目前，万维网已经成为世界上最大的信息源，成为全球范围内科研、教育、商业和社会、新闻、学校和专业机构介绍、图书及娱乐等信息的集大成者。近年来对万维网的研究的两大热点是网络搜索引擎的研究和网络拓扑结构的研究。对于网络信息挖掘的首先要面对的问题就是如何提取出网站内部的URL，只有获得了网站的所有URL才可以网站的全部内容。基于此本文给出了一种实用有效的提取网站内部URL的方法。二、JAVA基础 Java语言方便灵活，是现在开发网络程序的主要语言。本文采用了Java语言来开发。在Java的提供的java.util.*和 java.net.* 工具包中提供了大量简单易用的API。此外，在网络上还有大量的开放源码。 HTMLParser v 1.3是一套优秀的开放源代码的提供HTML文件分析的工具包。它可以提供快速的、实事的文本分析的功能。HTMLParser最大的成功之处是它设计简单、速度快、应用方便。可以从下载此工具包和了解其用法。对于HTMLParser 工具包我们需要修改其中的htmlparser.java文件使其适用中文的html文件分析。htmlparser.java文件中具体实现细节就不再介绍。这里主要是把protected static final String DEFAULT_CHARSET = "ISO-8859-1"；修改成protected static final String DEFAULT_CHARSET = "gb2312"；因为采用默认的字符集"ISO-8859-1"对含有中文的html文件进行分析的时候就会出现乱码。必须进行new String(str.getBytes("ISO-8859-1")，"GB2312")的转换工作。对于修改好的htmlparser工具包，需要重新压缩成.jar文件，放到jdk的工作环境中。三、具体设计首先新建一个静态全局Vector变量L，在算法的递归调用中往L中不断添加新发现的URL。公式(1)是一个遍历网站内部URL的数学表达式。 S=T(ui) （1） s.t. ui O(ui) ui Ui-1 i=1，2…m 其中T(u)是遍历一个站点的所有URL的函数，为了保证该遍历方法收敛这里我给出了两个限制条件，ui为一网站中的URL，O(ui)是判断ui是否为该网站内部的URL。算法是： 1）定义全局静态变量public static Vector svecLink； 2）开始搜索网站W的主URL； 3）解析出第一页面的所有URL； 4）剔除无效的URL和非本站点的URL同时记录所获的URL的个数为a； 5）把URL添加到svecLink中； 6）从svecLink中取出最后a个URL分别递归调用此函数为了能保证遍历的收敛，程序必须对URL进行严格限制。下面是一些具体实现： 1）定义的全局变量 public final int DEEP=3; //遍历的深度 public static Vector svecLink, svecOutlink; //存放内部URL和外部URL public static String hostName; //主机名称 public static boolean bl; //判断标志 private String location; private Parser parser; //对超文本进行分析 2）获取主机名称GetHostName（）函数通过该函数来判断所得URL是否是本网站的URL，如果不是就不需要添加svecLink中如果是并且以前没有提取过就添加到svecLink中。 public String GetHostName(String hostname) { URL aurl; String ss=" "; try { aurl=new URL(hostname); ss=aurl.getHost(); } catch(MalformedURLException e) { e.printStackTrace(); } return ss; } 3）递归遍历方法由于网站中URL之间的连接构成了图，所以对图的遍历这里采用深度优先的方法。 public void extractLinks(String loc) throws ParserException { System.out.println("Parsing " loc " for links..."); Vector vecTemp=new Vector(); try { this.parser = new Parser(loc); //原理见HTMLParser parser.registerScanners(); bl=true; } catch (ParserException e) { bl=false; e.printStackTrace(); } String ss,str1; URL wwwurl; boolean byes; int a=0; b ; Node [] links = parser.extractAllNodesThatAre(LinkTag.class); //获取一个页面中//所有的URL for (int i = 0;i < links.length;i ) { if(bl) { byes=true; System.out.println("Total url is " links.length "This page has url " i); LinkTag linkTag = (LinkTag)links[i]; str1=linkTag.getLink(); if(str1.equals("")) continue; if(str1.charAt(str1.length()-1)==/ ||str1.charAt(str1.length()-1)==\) str1=str1.substring(0,str1.length()-1); if(!svecLink.contains(str1)) { try { wwwurl=new URL(str1); wwwurl.getContent(); } catch(MalformedURLException e) { byes=false; } catch(IOException e) { byes=false; } if(GetHostName(str1).equals(hostName) && byes) { a ; tID ; svecLink.add(str1); vecTemp.add(str1); System.out.println("the url is " str1); } else { svecOutlink.add(str1); } } } } String strNew; if(a>0&&b<=DEEP) { for(int i=0;i 下载本文示例代码

使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法使用JAVA语言来提取网站内部URL的算法

阅读(237) | 评论(0) | 转发(0) |

上一篇：JAVA 实现各种排序算法和复杂度分析2

下一篇：Java异常处理机制的详细讲解和使用技巧

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6