nutch 0.9二次开发--网页快照-oop_ming-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

喜欢编程的鱼

首页　| 　博文目录　| 　关于我

博客访问： 2037560
博文数量： 606
博客积分： 9991
博客等级：中将
技术积分： 5725
用户组：普通用户
注册时间： 2008-07-17 19:07

文章分类

全部博文（606）

C-sharp（1）
数据建模（1）

UML（1）
数据挖掘（8）

文本分类（2）
服务器（2）

Apache Http serv（2）
性能调优（3）

JProfiler（3）
网络技术（1）
信息安全（4）
搜索引擎（22）

Apache Lucene Ma（1）

googleapi（3）

nutch（10）

heritrix（1）

lucene（7）
设计模式（13）

J2EE模式（2）

行为模式（4）

结构模式（1）

创建模式（3）
web（88）

FreeMarker（1）

Weblogic（3）

JSF（1）

Ajax（12）

Tomcat（5）

xml（6）

servlet（4）

JSP（19）

css（2）

javascript（30）

html（5）
开发工具（38）

Flex Builder（10）

NetBeans（0）

eclipse（28）
算法设计（6）
操作系统（30）

Linux（24）

windows（2）

Solaris（4）
数据库（65）

Memcached（2）

NoSQL（0）

MS SQL（18）

MySQL（13）

Oracle（32）
软件工程（2）
Java（249）

iBATIS（1）

junit（3）

J2ME（1）

SWT（2）

webservice（17）

quartz（6）

J2EE（11）

J2SE（80）

面试题集（2）

问题集锦（1）

其他（8）

ANT（3）

jboss（1）

hibernate（56）

spring（33）

struts（23）
未分配的博文（73）

文章存档

2011年（10）

2010年（67）

2009年（155）

2008年（386）

我的朋友

最近访客

推荐博文

nutch 0.9二次开发--网页快照

分类：

2008-12-19 16:49:40

nutch通过相关词进行搜索网页的时候,会查询出这个关键词对应的相关信息..

比如:title,url,content等等.

通过URL我们可以链接到相关真实的URL.

而网页快照其实是nutch在索引时,索引以前网页的内容.

所有当点击网页快照时,我们根据索引文档的ID,去索引出原网页内容.

Hit hit = new Hit(getIndexNo,getIndexDocNo);
HitDetails details = bean.getDetails(hit);
String content = new String(bean.getContent(details));

nutch 网页快照的中文问题

tomcat下的ROOT目录（nutch所在的目录）
修改cached.jsp，把
***
else
content = new String( bean.getContent(details) );
改成
content = new String( bean.getContent(details) ,"utf-8");
就ok了

阅读(1866) | 评论(0) | 转发(0) |

0

上一篇：nutch 0.9二次开发--搜索结果高亮

下一篇：使Apache支持对mht文件的Web服务

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们