elasticsearch菜鸟教程阿里云elasticsearch内核介绍( 三 ) _云知道

在Flush时，首先根据设定的列排序，这个排序可以利用内存中的doc values，排序之后得到老的docID到新docID的映射，因为之前docID是按照写入顺序生成的，现在重排后，生成的是新的排列。如果排序后与原来顺序完全一致，那么什么都不做，跟之前流程一样进行Flush 。
如果排序后顺序发生变化，如何排序呢？对于已经写到文件中的数据，比如store field和term vector，需要从文件中读出来，重新排列后再写到一个新文件里，原来的文件就相当于一个临时文件。对于内存中的数据结构，直接在内存中重排后写到文件中。
相比没有IndexSorting时，对性能影响比较大的一块就是store field的重排，因为这部分需要从文件中读出再写回，而其他部分都是内存操作，性能影响稍小一些。这里我们也可以做一些思考，如果将store field和term vector这类数据也buffer在内存中，是否可以提升IndexSorting开启时的写入性能？
2. Merge时保证新的Segment数据有序
由于Flush时Segment已经是有序的了，所以在Merge时也就可以采用非常高效的Merge Sort的方式进行。
总结IndexSorting是一种能够极大提高查询效率的技术，它通过预排序和提前中断大大减少了需要扫描的数据量，而且附带的优化是可以提高压缩率，减少存储空间。对于查询时需要按照某列排序的场景，它非常有用，但对于相关性分数排序的场景则无法通过预排序来优化。IndexSorting的缺点是对写入性能有影响，主要是体现在Segment的Flush和Merge阶段，对于非常看重写入性能的场景也不适合使用。总体上说，这是一项非常有用也很新的技术，相信它在Lucene和ES中的重要性会越来越强，也会有越来越多的业务场景受益于这个功能。

elasticsearch菜鸟教程阿里云elasticsearch内核介绍( 三 )

推荐阅读

自考本科什么意思

荣耀70充电器多少W 荣耀7充电器多少W

银粉怎么洗要如何清洗银粉

面试湖北省教资2022年报名时间+报名条件一览

床头靠窗户好吗？床头靠窗户好吗风水

教苹果手机显示连接apple id服务器时出错怎么办

抖音边框怎么弄

S6-差一点就成为我心目中完美的手机

政策来“救场”！双节猪价或冲破“云霄”？

cdr平移快捷键平移快捷键是啥

唐山市开平区农林畜牧水产局怎么样,开平区人民政府

临沂有哪些高职院校，临沂有哪些好的职业技术学校？

浙江工贸技师学院，浙江工贸技师学院怎么样寝室怎么样下沙的

唐山什么时候开通到大连的高铁，丰润到大连有动车吗要多长时间

买房贷款申请条件

卡片要怎么包装才不会坏卡片要怎么包装快递

elasticsearch菜鸟教程 阿里云elasticsearch内核介绍( 三 )

推荐阅读

elasticsearch菜鸟教程阿里云elasticsearch内核介绍( 三 )