Archive | 十月, 2010

【Nutch代码笔记】crawl 过程草稿

花了一天看了Nutch crawl的主要过程:Injector Generator Fetcher ParseSegment CrawlDb LinkDb。

整个在crawler中串起来的工作使我对原来hadoop中业务的使用从神秘、神奇一下到了实际。虽些都和我们一般编程中的一个进程空间要顺序完成一个比较复杂的任务,一般会分解成几个阶段,又几个子任务分别完成,每次下个任务的输入就是上个任务的输出。不同在于,在利用hadoop的分布式模型中,这些中间结果都是存储在 hadfs文件系统上面。只要自己的处理模型设计清楚了,设计好处理的几个步骤,根据hadoop的约定,写好自己的 mapper和reduceer(并不是每个步骤都需要,如nutch中,很多步骤是没有reducer的)就可以开展业务了。

@todo 只是一个草稿,需要整理

Injector.inject(Path c[......]

阅读全文

Tags: , ,

Comments { 0 }