1. ES

基于lucene的分布式搜索引擎

1.1. 分布式架构原理

创建的索引指定N个shard，支持横向扩展，提高性能；每个shard都有一个primary shard,负责写入数据，还有几个replica shard，primary shard写入数据后，会将数据同步到其它几个replica shard
es集群多个节点，会自动选举一个节点为master节点，master节点负责维护索引元数据，切换primary shard和replica shard身份。要是master节点宕机，会重新选举一个节点为master

ES写入/查询流程

通过doc id来查询，根据doc id进行hash，判断出来当时把doc id分配到哪个shard上去，从哪个shard去查询
客户端发送请求到任意一个node，成为coordinate node
coordinate node对doc id进行哈希路由，请求转发到对应的node，使用round-robin随机轮询算法，在primary shard以及所有replica中随机选择一个，读请求负载均衡
接收请求的node返回document给coordinate node
coordinate node返回document给客户端

正向索引是通过key找value，反向索引则是通过value找key

倒排索引如下：

主要是filesystem cache，让机器内存，至少可以容纳总数据量的一半

比如现在一行数据，id,name,age...30个字段。但是现在搜索只需要根据id,name,age3个字段来搜索，如果在es里写入了一行数据所有字段，则导致90%的数据不是用来搜索的，就会占据fileasystem cache的内存。

解决使用es+hbase,hbase适用于海量数据在线存储，但不要做复杂的搜索