Archive | lucene RSS feed for this section

Elasticsearch的几个重要概念(Mapping、Document、Index、Node、Shard)

关于Elasticsearch使用中的几个重要的概念整理如下。包括MappingDocumentindex等逻概念,也包括Node?shard等物理概念。(本身这样区分逻辑和物理也是有些问题的)。几个逻辑概念和熟悉的关系数据库中的概念比较,便于理解;而几个重要的物理概念,和Hadoop使用中对应的几个熟悉的概念类比,便于理解。

逻辑概念

要理解逻辑概念,先看下ESRestful接口中一个经典URL,表示一个索引文档。

es_url_format

  • Index?对应一个逻辑数据库。一个index是一个索引的集合。
  • Mapping对应数据库里的表定义。Mapping是对于index上每种type的定义
  • Type?则是数据库里的一个表。是index上的一类document
  • Document是数据库里的一个行。对应一个type的一个实例。

官方解释:

mapping

A?ma[......]

阅读全文

Tags: , ,

Comments { 0 }

Lucene (Doug Cutting November 24 2004 University of Pisa)[reference]

 

Lucene

 

Doug?Cutting
cutting@apache.org

November?24?2004
University?of?Pisa

 

 

Prelude

  • my?background..
  • please?interrupt?with?questions
  • blog?this?talk?now?so?that?we?can?search?for?it?later
  • (using?a?Lucene-based?blog?search?engine,?of?course)
  • In?this?course,?Paolo?and?Antonio?have?presented?many?techniques.
  • I?present?real?software?that?us[......]

阅读全文

Tags: ,

Comments { 0 }

【Nutch代码笔记】crawl 过程草稿

花了一天看了Nutch crawl的主要过程:Injector Generator Fetcher ParseSegment CrawlDb LinkDb。

整个在crawler中串起来的工作使我对原来hadoop中业务的使用从神秘、神奇一下到了实际。虽些都和我们一般编程中的一个进程空间要顺序完成一个比较复杂的任务,一般会分解成几个阶段,又几个子任务分别完成,每次下个任务的输入就是上个任务的输出。不同在于,在利用hadoop的分布式模型中,这些中间结果都是存储在 hadfs文件系统上面。只要自己的处理模型设计清楚了,设计好处理的几个步骤,根据hadoop的约定,写好自己的 mapper和reduceer(并不是每个步骤都需要,如nutch中,很多步骤是没有reducer的)就可以开展业务了。

@todo 只是一个草稿,需要整理

Injector.inject(Path c[......]

阅读全文

Tags: , ,

Comments { 0 }