由Crawl 得到fetch list,fetch list 里面全部都是链接,nutch采用了生产者-消费者 模型,一个生产者,多个消费者
读取 fetch list 里面的元素,然后将这些元素放入到多个FetchItemQueue里面去,每个主机对应一个队列,当队列中的元素少的时候,QueueFeeder再将往队列中放。然后由多个FetcherThread线程抓取数据,获得该URL里面的内容,遵循Protocal接口实现相应的方法,让Fetch能够获得内容。
参考:
阅读(2953) | 评论(0) | 转发(0) |