博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
浅谈ElasticSearch的嵌套存储模型
阅读量:6887 次
发布时间:2019-06-27

本文共 3402 字,大约阅读时间需要 11 分钟。

hot3.png

image 最近一个半月都在搞SparkStreaming+Hbase+Redis+ES相关的实时流项目开发,其中重度使用了ElasticSearch作为一个核心业务的数据存储,所以这段时间更新文章较少,现在开发基本完事,接下来的会写几篇有关ElastiSearch的使用心得。

大多数时候我们使用es都是用来存储业务比较简单的数据,比如日志log类居多,就算有一些有主外键关联的数据,我们也会提前join好,然后放入es中存储。

的确,扁平化后的数据存入索引,无论是写入,更新,查询都比较简单。但是有一些业务却没法扁平化后存储。比如我们这次的业务数据。由于业务本身比较复杂,先看下数据实体模型。

image

总共是三层模型,可以看到User(用户)包含多个Quest(题目),每个题目又包含多个Kp(知识点),其中User,Quest,Kp都是一个实体类,可以包含多个属性,按照es的字段类型应该叫做object类型,先说说为什么不能扁平化处理在写入索引,因为一旦扁平化其实只有统计知识点相关的聚合才是正确的,若想统计题目和人的一些聚合指标有些是查不出来的,因为一旦扁平前2级数据会被冗余放大好多倍,导致计算指标会出现问题。常规的count+distinct可以出来,但是一些sum指标就不对了,会多算冗余数据的和,而且没法再减出去,如果想做可能需要多次查询才能搞定,理想情况下,一次查询就能搞定大部分查询或聚合 所以只有嵌套设计才能贴合真实的数据模型,换做关系型数据需要三张表,用mongodb也可以但是查询+聚合就没有es这么强大和高效

三层嵌套的好处就是贴合实际的数据实体模型,但是带来的弊端也非常明显,对深层嵌套数据的删除,修改比较麻烦,虽然也能做到,但是每一层的数据量越大,性能可能就越低,所以嵌套方案,适合存储和查询多级嵌套数据,且更新和删除操作少的业务情况,尽量没有修改和删除。

es的嵌套查询和聚合支持都比较完善,并且支持嵌套反转查询。嵌套数据的添加可以使用script脚本方式来完成,直接将java的bean给转换完为json提交即可。

下面来看下动态mapping+嵌套类型设置,一个模板如下:

{  "order": 0,  "template": "work*",  "settings": {    "index": {      "number_of_replicas": "0",      "number_of_shards": "3"    }  },  "mappings": {    "_default_": {      "dynamic_templates": [        {          "nested_kps": {            "mapping": {              "type": "nested"            },            "path_match": "quests.kps"          }        },        {          "nested_quests": {            "mapping": {              "type": "nested"            },            "match": "quests"          }        },        {          "string_fields": {            "mapping": {              "index": "not_analyzed",              "type": "string"            },            "match": "*",            "match_mapping_type": "string"          }        },        {          "message": {            "mapping": {              "index": "analyzed",              "type": "string"            },            "match": "message",            "match_mapping_type": "string"          }        },        {          "date_fields": {            "mapping": {              "doc_values": true,              "type": "date"            },            "match": "*",            "match_mapping_type": "date"          }        },        {          "float_fields": {            "mapping": {              "doc_values": true,              "type": "float"            },            "match": "*",            "match_mapping_type": "float"          }        },        {          "double_fields": {            "mapping": {              "doc_values": true,              "type": "double"            },            "match": "*",            "match_mapping_type": "double"          }        },        {          "integer_fields": {            "mapping": {              "doc_values": true,              "type": "integer"            },            "match": "*",            "match_mapping_type": "integer"          }        },        {          "long_fields": {            "mapping": {              "doc_values": true,              "type": "long"            },            "match": "*",            "match_mapping_type": "long"          }        }      ],      "_all": {        "enabled": false      }    }  },  "aliases": {}}

嵌套类型的关键词是nested,如果一个类型是nested,就相当于是设置了Java里面的List是一个集合对象list,可以有多个同一种类型的实体类数据,每个数据里面还可以有自己的嵌套类型或其他类型,上面的动态mapping里面数据类型设置各个类型的定义,并且根据path设置了嵌套的动态mapping设置。这样以来就相当于设置了三层嵌套。

到此我们应该能理解嵌套模型的定义和使用场景了,下篇会给出如何插入数据和使用script追加数据。

有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。

输入图片说明

转载于:https://my.oschina.net/u/1027043/blog/847603

你可能感兴趣的文章
一道数学题的思考
查看>>
原生JS 编写移动端 tab选项卡
查看>>
注解的使用踩过坑
查看>>
方法 - Go 语言学习笔记
查看>>
排序算法--冒泡排序
查看>>
从内容打到社交,头腾大战矛头又指向了游戏
查看>>
Python 爬虫十六式 - 第一式:HTTP协议
查看>>
给我的个人简历添加动态效果
查看>>
flutter Swiper+GridView
查看>>
macOs 安装过homebrew,但是再次执行 brew install 安装时候一直卡在 homebrew updating.......
查看>>
JavaScript开发中常用优秀插件,慢慢积累,会一直保持更新
查看>>
函数式编程尝试之俄罗斯方块
查看>>
「移动开发」iuap mobile玩转前端自动化构建
查看>>
05.web缓存
查看>>
LeetCode 53 Maximum Subarray 最大子数组
查看>>
函数 - Go 语言学习笔记
查看>>
Spring Security小教程 Vol 1. 最简单的应用
查看>>
C++ map的insert方法
查看>>
in和exists的区别与SQL执行效率分析
查看>>
MySQL数据库性能优化之硬件瓶颈分析
查看>>