Chinaunix首页 | 论坛 | 博客
  • 博客访问: 83491
  • 博文数量: 31
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 839
  • 用 户 组: 普通用户
  • 注册时间: 2013-03-12 14:38
个人简介

我在收集一些石头,我期待它们有一天能够串联成一串项链。

文章分类

全部博文(31)

文章存档

2013年(31)

我的朋友

分类: Java

2013-03-12 16:49:06

解析html文件,采用Jar包 htmlparser,filter组合应用。
1.获取新网页的链接。形如

点击(此处)折叠或打开

  1. Parser parser = Parser.createParser(all,"charest");//all为文件,charest为编码

  2. public String getlink(Parser parser) {
  3.         String link="";
  4.         try {
  5.             AndFilter andFilter = new AndFilter(new TagNameFilter("a"),new HasAttributeFilter("target", "_blank"));
  6.             NodeList nodeList = parser.extractAllNodesThatMatch(andFilter);
  7.             for (int i = 0; i < nodeList.size(); i++) {
  8.                 Node node = nodeList.elementAt(i);
  9.                                 if (!node.toPlainTextString().equals("")) {
  10.                     link+=node.toPlainTextString();
  11.                     link+="@";
  12.                 }
  13.             }
  14.         } catch (Exception e) {
  15.             // TODO: handle exception

  16.             return "";
  17.         }
  18.                 return link;
  19.     }

2.获取图片

点击(此处)折叠或打开

  1. public void pic(Parser parser,String num,String name,String category) {
  2.         String src="";
  3.         String alt="";
  4.         String datasrc = "";
  5.         try {
  6.             TagNameFilter tagNameFilter = new TagNameFilter("img");
  7.             NodeList nodeList=parser.extractAllNodesThatMatch(tagNameFilter);
  8.             //System.out.println(nodeList.size());

  9.             if (nodeList.size()>0) {
  10.                 for (int i = 0; i < nodeList.size(); i++) {
  11.                 Tag tagnode=(Tag)nodeList.elementAt(i);
  12.                 src = tagnode.getAttribute("src");
  13.                 //System.out.println("src :"+src+"e");

  14.                 alt = tagnode.getAttribute("alt");
  15.                 //System.out.println("alt :"+alt+"e");

  16.                 datasrc = tagnode.getAttribute("data-src");
  17.                 //System.out.println("data-src:"+datasrc+"e");

  18.                             }
  19.             }
  20.             
  21.         } catch (ParserException e) {
  22.             // TODO Auto-generated catch block

  23.             e.printStackTrace();
  24.             return ;
  25.         }
  26.                 parser.reset();
  27.     }


阅读(584) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~