博客
关于我
MergeTree原理解析(五)
阅读量:389 次
发布时间:2019-03-05

本文共 1396 字,大约阅读时间需要 4 分钟。

ClickHouse技术解析:MergeTree引擎深入理解

引言

ClickHouse的核心设计理念围绕MergeTree引擎展开,作为其基础,理解MergeTree的工作原理至关重要。本文将从分区、索引、标记文件、数据块等方面深入探讨MergeTree的实现细节,揭示其高效查询背后的秘密。


MergeTree创建与存储

创建

MergeTree表的创建语法简洁,主要参数包括:

  • 分区键:决定数据如何划分,支持单列或多列分区键。
  • 排序规则:决定数据块内部的排序顺序,默认与主键一致。
  • 索引粒度:决定索引间隔,默认为8192行。

示例:

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    ...) ENGINE = MergeTree()    [PARTITION BY expr]    [ORDER BY expr]    [PRIMARY KEY expr]    [SAMPLE BY expr]    [SETTINGS name=value, ...]

存储

MergeTree采用按列存储压缩算法

  • 列存储:每列独立存储,支持LZ4、ZSTD等压缩算法。
  • 排序:数据按ORDER BY规则预先排序。
  • 数据块:按大小或规则划分数据块,优化存储和查询效率。

数据分区

分区规则

分区ID生成规则包括:

  • 不指定分区键:默认分区ID为all
  • 整型分区:直接使用整型字符表示。
  • 日期分区:转换为YYYYMMDD格式。
  • 其他类型:使用128位Hash值。
  • 分区名称

    分区名称格式为:

    PartitionID_MinBlockNum_MaxBlockNum_Level

    其中:

    • PartitionID:分区ID。
    • MinBlockNum:最小数据块编号。
    • MaxBlockNum:最大数据块编号。
    • Level:合并次数。

    分区合并

    分区合并基于以下规则:

  • 新数据写入时,系统会自动创建新的分区目录。
  • 相同分区目录会按规则合并。
  • 合并时会生成新的partition.datminmax索引文件。

  • 一级索引

    稀疏索引优势

    稀疏索引优势体现在:

  • 索引标记占用少量空间。
  • 索引数据常驻内存,查询速度快。
  • 仅需12208行索引标记支持1亿行数据。
  • 索引粒度

    index_granularity定义索引粒度,影响数据标记和索引文件。每8192行生成一次索引标记。

    索引生成规则

    索引文件primary.idx内容规则:

    • 每8192行记录一次索引值。
    • 支持多列索引,例如ORDER BY(CounterID, EventDate)

    二级索引

    二级索引类型

    MergeTree支持四种二级索引:

  • minmax:基于最小和最大值。
  • set:基于集合元素。
  • ngrambf_v1:基于多字段聚合。
  • tokenbf_v1:基于子字符串匹配。
  • 二级索引创建

    二级索引语法:

    INDEX index_name expr TYPE index_type(...)GRANULARITY granularity

    创建时会生成相应的索引和标记文件。

    转载地址:http://mqzzz.baihongyu.com/

    你可能感兴趣的文章
    pandas读取数据用来深度学习
    查看>>
    pandas读取文件时,不去掉前面的0 保留原有的数据格式
    查看>>
    Pandas进阶大神!从0到100你只差这篇文章!
    查看>>
    spring5-介绍Spring框架
    查看>>
    pandas,python - 如何在时间序列中选择特定时间
    查看>>
    Spring 框架之 AOP 原理深度剖析
    查看>>
    Pandas:如何按列元素的组合分组,以指示基于不同列的值的同现?
    查看>>
    Pandas:将一列与数据帧的所有其他列进行比较
    查看>>
    PANDA和GLOB:将文件夹中的所有xlsx文件转换为CSV类型错误:__init__()获得意外的关键字参数‘;xfid‘;
    查看>>
    panda查找想要找的行合并成一个新pd
    查看>>
    PANDA:基于多列对数据表的行运行计算,并将输出存储在新列中
    查看>>
    PandoraFMS 监控软件 SQL注入漏洞复现
    查看>>
    PandoraFMS 监控软件 任意文件上传漏洞复现
    查看>>
    PanTools多网盘登录神器
    查看>>
    Papyrus项目常见问题解决方案
    查看>>
    Parallel.ForEach使用示例
    查看>>
    Parallel.ForEach的基础使用
    查看>>
    parallels desktop for mac安装虚拟机 之parallelsdesktop密钥 以及 parallels desktop安装win10的办公推荐可以提高办公效率...
    查看>>
    parallelStream导致LinkedList遍历时空指针的问题
    查看>>
    Parameter ‘password‘ not found. Available parameters are [md5String, param1, username, param2]
    查看>>