search engine | idouba

Tag Archives | search engine

Elasticsearch的几个重要概念(Mapping、Document、Index、Node、Shard)

关于Elasticsearch使用中的几个重要的概念整理如下。包括MappingDocumentindex等逻概念,也包括Node?shard等物理概念。(本身这样区分逻辑和物理也是有些问题的)。几个逻辑概念和熟悉的关系数据库中的概念比较,便于理解;而几个重要的物理概念,和Hadoop使用中对应的几个熟悉的概念类比,便于理解。

逻辑概念

要理解逻辑概念,先看下ESRestful接口中一个经典URL,表示一个索引文档。

es_url_format

  • Index?对应一个逻辑数据库。一个index是一个索引的集合。
  • Mapping对应数据库里的表定义。Mapping是对于index上每种type的定义
  • Type?则是数据库里的一个表。是index上的一类document
  • Document是数据库里的一个行。对应一个type的一个实例。

官方解释:

mapping

A?ma[......]

阅读全文

Tags: , ,

Comments { 0 }

【转】数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。

搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别人提高排名的[......]

阅读全文

Tags: , ,

Comments { 0 }