HBase学习二:HBase的表结构

您所在的位置:网站首页 hbase的架构 HBase学习二:HBase的表结构

HBase学习二:HBase的表结构

#HBase学习二:HBase的表结构| 来源: 网络整理| 查看: 265

HBase的表结构

初次接触HBase,可能看到以下描述会懵:“基于列存储”,“稀疏MAP”,“RowKey”,“ColumnFamily”。 其实没那么高深,我们需要分两步来理解HBase, 就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。

内存结构 文件存储结构

先介绍几个名称概念 在这里插入图片描述 行键RowKey:

行键,类似mysql中的主键,Table中的记录按照Row Key排序,行键是表结构的一部分; 由于Hbase只支持3中查询方式: 1、基于Rowkey的单行查询 2、基于Rowkey的范围扫描 3、全表扫描 因此,Rowkey对Hbase的性能影响非常大,Rowkey的设计就显得尤为的重要。 rowkey 行键可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),最好是 16。 在 HBase 内部,rowkey 保存为字节数组。 rowkey是行的唯一标识,相同行键的数据属于同一行 HBase 会对表中的数据按照 rowkey 升序排序 (字典顺序) 【注意】字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行键必须用0作左填充。

列族/列簇ColumnFamily

Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。就像是家族的概念,我们知道一个家族是由于很多个的家庭组成的。列族也类似,列族是由一个一个的列组成(任意多)。 Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。 Hbase的列族不是越多越好,列族越多,在取一行数据需要参与IO、搜寻的文件就越多;官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。 一个列族会储存一个物理文件; 通常将具有相同IO(读写)属性的列放在同一个列族下,IO属性即经常在一起查询的字段,由具体的实际业务中决定;

列Column

列为每一行的列名和对应的值;可以理解为mysql的列; 一个列族包含一个或多个列;列族是表结构的一部分,而列不是; 定位一个列,必须指定列族; 列名都以列族作为前缀,如:courses:history,courses:math;都属于courses这个列族;

单元格cell

HBase 中通过 rowkey 和 columns 确定的为一个存储单元称为 cell; 每个 cell 都保存着同一份数据的多个版本。版本通过时间戳来索引。 由{rowkey, column( = + ), version} 唯一确定的单元。 Cell 中的数据是没有类型的,全部是字节码形式存贮。

时间戳TimeStamp/版本信息Version

每一个


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3