利用htmlparser进行网页信息的抽取-softiger-ChinaUnix博客

softiger的IT&nbsp;BLOGsoftiger.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

softiger

博客访问： 2587399
博文数量： 709
博客积分： 12251
博客等级：上将
技术积分： 7905
用户组：普通用户
注册时间： 2005-07-17 00:00

个人简介

实现有价值的IT服务

文章分类

全部博文（709）

IT管理工具（9）
软件工程（0）
IT管理框架（29）
书籍（2）
话里有话（39）
Tivoli（0）
finance（1）
个人工具（21）

工作（20）
技术--java编程--（2）
运营--myweb（0）
文化--人物（1）
生活--搞笑“梨花（1）
运营--互联网要闻（8）
运营--电子商务研（0）
运营--静看电子商（15）
运营--静看互联网（25）

运营--团队管理（0）
运营--团队建设（6）
文化--人文沙龙（6）
管理--项目管理与（17）
文化--历史（7）
技术--模式（0）
技术--J2EE（98）

javascript dom（0）

css（5）

xml处理（1）

Java模式（2）

servlet学习（9）
文化--西方哲学（2）
文化--古诗词（3）
技术--建模（3）
技术--Windows 管（2）
文化--传统文化（30）
技术--JavaScript（8）

drw（3）
随笔（65）

名词解释（7）
运营--Web2.0（18）

运营--web2.0--pi（7）
技术--MySql（49）
技术--网络运用（3）
经常使用站点（2）
运营--网站建设与（11）
运营--社区（0）
运营--Seo技能（2）
技术--安全（5）
技术--Java编程（96）

技术--Java编程--（32）

技术--Java编程--（3）

技术--Java编程--（4）
技术--Web服务器（51）
技术--Ms Sql 相（14）
技术--Oracle相关（2）
技术--Shell编程（10）
技术--Linux系统（41）

网络命令（4）

系统命令（1）
未分配的博文（5）

文章存档

2012年（7）

2011年（147）

2009年（3）

2008年（5）

2007年（74）

2006年（431）

2005年（42）

我的朋友

最近访客

推荐博文

利用htmlparser进行网页信息的抽取

分类： IT职场

2007-02-13 11:48:35

利用htmlparser进行网页信息的抽取

2006-08-29 21:54

这是个好东西,有相见恨晚之意,也比较容易上手,对很多的功能都进行了封装,做信息采集的朋友应该尽快使用它来做抓取工作.下面给一个完整的例子:

这是一个用来抽取某个网站中产品评论的类,有兴趣的朋友可以仔细看下,欢迎交流!

package com;

import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Span;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.util.NodeList;

class WrapperComment implements CatchCommentInterface{
String url="";//define a visit url
StringBuffer sb=new StringBuffer();//to sava the replaced content
WrapperComment(String newsLink){//define a constructor
  this.url=newsLink;
}

public String getPageContent(){
  String pageContent="";
  try{
   Parser parser=new Parser(url);//contructor
   parser.setEncoding("GB2312");//set encode
   TagNameFilter bodyFilter=new TagNameFilter("body");//get the body content
   NodeList nodelist=parser.extractAllNodesThatMatch(bodyFilter);
   pageContent=nodelist.toHtml();//output pagecontent
  }catch(Exception e){
   e.printStackTrace();
  }
  return pageContent;
}

public NodeList getTableContent(String content){
  NodeList nodelist=null;
  NodeFilter[] nodeFilter=new NodeFilter[3];
  try{
   Parser parser=new Parser(content);//contructor
   parser.setEncoding("GB2312");//set encode
   TagNameFilter tableFilter=new TagNameFilter("table");//get the table content
   HasAttributeFilter tableAttribute=new HasAttributeFilter("bgcolor","#cfe0fc");//hava the attribute "bgcolor"
   HasAttributeFilter tableAttribute2=new HasAttributeFilter("width","100%");//hava the attribute "width"
   nodeFilter[0]=tableFilter;
   nodeFilter[1]=tableAttribute;
   nodeFilter[2]=tableAttribute2;
   AndFilter andFilter=new AndFilter(nodeFilter);//to link the three filter that above together
   nodelist=parser.extractAllNodesThatMatch(andFilter);//get the result that fit for the filter
   nodelist.remove(nodelist.size()-1);//to remove the last element
  }catch(Exception e){
   e.printStackTrace();
  }
  return nodelist;
}

public void getCommentDetail(NodeList nodelist){
  int nodesize=nodelist.size();
  String tableContent="";
  for(int i=0;i   tableContent=nodelist.elementAt(i).toHtml();
   System.out.println(getCommentTime(tableContent));
   System.out.println(getCommentText(tableContent));
   System.out.println("----------------------------------");
  }
}

public String getCommentTime(String content){
  String commentTime="";
  String tempText="";
  try{
   Parser parser=new Parser(content);
   parser.setEncoding("GB2312");
   TagNameFilter trFilter=new TagNameFilter("td");
   TagNameFilter bFilter=new TagNameFilter("b");
   HasChildFilter childFilter=new HasChildFilter(bFilter);
   AndFilter andFilter=new AndFilter(trFilter,childFilter);
   NodeList nodelist=parser.extractAllNodesThatMatch(andFilter);
   TableColumn td=(TableColumn)nodelist.elementAt(0);
   tempText=td.toHtml();
   String regx="2006-[0-9]{1,2}-[0-9]{1,2} [0-9]{1,2}:[0-9]{1,2}:[0-9]{1,2}";
   Pattern pattern=Pattern.compile(regx);
   Matcher matcher=pattern.matcher(tempText);
   if(matcher.find()){
    commentTime=matcher.group();
   }else{
    commentTime="no find";
   }
  }catch(Exception e){
   e.printStackTrace();
  }
  return commentTime;
}

public String getCommentText(String content){
  String commentText="";
  int nodesize;
  try{
   Parser parser=new Parser(content);
   parser.setEncoding("GB2312");
   NodeClassFilter span=new NodeClassFilter(Span.class);
   HasAttributeFilter idFilter=new HasAttributeFilter("id");
   AndFilter andFilter=new AndFilter(span,idFilter);
   NodeList nodelist=parser.extractAllNodesThatMatch(andFilter);
   nodesize=nodelist.size();
   for(int i=0;i    Span sp=(Span)nodelist.elementAt(i);
    commentText=commentText+sp.toPlainTextString();
   }
  }catch(Exception e){
   e.printStackTrace();
  }
  return commentText;
}
}

阅读(2550) | 评论(0) | 转发(0) |

上一篇：使用 JTidy 协助抽取网页内容

下一篇：解析Html页面:HTML Parser的试用 (转)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6