HBase学习二:HBase的表结构 |
您所在的位置:网站首页 › hbase的架构 › HBase学习二:HBase的表结构 |
HBase的表结构
初次接触HBase,可能看到以下描述会懵:“基于列存储”,“稀疏MAP”,“RowKey”,“ColumnFamily”。 其实没那么高深,我们需要分两步来理解HBase, 就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。 内存结构 文件存储结构先介绍几个名称概念 列族/列簇ColumnFamily Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。就像是家族的概念,我们知道一个家族是由于很多个的家庭组成的。列族也类似,列族是由一个一个的列组成(任意多)。 Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。 Hbase的列族不是越多越好,列族越多,在取一行数据需要参与IO、搜寻的文件就越多;官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。 一个列族会储存一个物理文件; 通常将具有相同IO(读写)属性的列放在同一个列族下,IO属性即经常在一起查询的字段,由具体的实际业务中决定;列Column 列为每一行的列名和对应的值;可以理解为mysql的列; 一个列族包含一个或多个列;列族是表结构的一部分,而列不是; 定位一个列,必须指定列族; 列名都以列族作为前缀,如:courses:history,courses:math;都属于courses这个列族;单元格cell HBase 中通过 rowkey 和 columns 确定的为一个存储单元称为 cell; 每个 cell 都保存着同一份数据的多个版本。版本通过时间戳来索引。 由{rowkey, column( = + ), version} 唯一确定的单元。 Cell 中的数据是没有类型的,全部是字节码形式存贮。时间戳TimeStamp/版本信息Version 每一个 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |