Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2566523
  • 博文数量: 709
  • 博客积分: 12251
  • 博客等级: 上将
  • 技术积分: 7905
  • 用 户 组: 普通用户
  • 注册时间: 2005-07-17 00:00
个人简介

实现有价值的IT服务

文章存档

2012年(7)

2011年(147)

2009年(3)

2008年(5)

2007年(74)

2006年(431)

2005年(42)

分类: Java

2007-04-16 16:14:25

Nutch搜索技术相关的资料.oO

┌─────────────────────────
│Nutch相关的资料 - 中文处理 (05年06月17日开始收集)    
└─────────────────────────


http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html

以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。
由Jack Tang于04-Apr-2005提出,是描述在Nutch搜索中加入中文支持的技术。
因为刚刚提出,没有成熟,需要探索才能使用,有点挑战!希望早日搞定!

┌─────────────────────────
│Nutch相关的资料 - Apache (05年06月14日开始收集)    
└─────────────────────────

Nutch JavaDoc Overview (Nutch 0.6 API)
Nutch的Java代码文档。

Nutch Mailing Lists
Nutch的邮件列表。

Nutch - Tutorial
Nutch的教程。(入门必读!)


Nutch维基:分解Nutch爬虫。(有相当详尽的资料,值得研读!)


Nutch维基:分布式网页数据库。


Nutch维基:入口。


Nutch维基:Nutch分布式文件系统。


Nutch维基:Nutch文件格式。


Nutch维基:Nutch文件系统。(旧的版本!)


Nutch维基:讲述Nutch的插件系统,可惜不全。

┌─────────────────────────
│Nutch相关的资料 - Online (05年06月08日开始收集)    
└─────────────────────────

Nutch Documentation
This is not the offical nutch wiki, but some private collected documentation!!!
By Stefan Groschupf.


什么是 Nutch ? Nutch 和 Larbin / Lucene 相比较有什么不同? 测试笔记。


介绍一下 Nutch 进行全网的爬行(Whole-web Crawling) 的操作测试过程以及注意事项。


是作者对nutch的一些试用记录。作者认为,搭建网站时实现本站检索的最好的方案,是采用车东基于lucene的开源项目web lucene的软件包。而nutch似乎比较适合于建立垂直搜索引擎网站。

Nutch - A Flexible and Scalable Open-Source Web Search Engine 
(PDF File,是一篇Doug Cutting参与的描述Nutch的论文。)


(PDF File,是一篇Doug Cutting的introduce Nutch的power point file。)

http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
关于“International Parser”,Doug Cutting replied to this thread.

http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
关于Myanmar language analyzer。


Known as "vearch" engines, these new players provide unprecedented speed and relevancy by cataloging a narrow selection of sites...


天地任我行。。。
阅读(3214) | 评论(1) | 转发(0) |
给主人留下些什么吧!~~