第五章：OB Server的存储引擎

您所在的位置：网站首页 › 硬盘使用次数检测准确吗 › 第五章：OB Server的存储引擎

第五章：OB Server的存储引擎

2023-03-21 08:10| 来源: 网络整理| 查看: 265

传统数据库有随机写、写放大等问题

大量随机写：buffer pool和表空间页面“一一对应”，数据更新时会在磁盘上产生频繁的随机写（check point)

写放大：随机写导致SSD的写放大问题，影响性能及磁盘寿命。

读数据：如果buffer Pool中有，则直接从内存读，如果没有，则从硬盘中提取到buffer pool中

可以提升热数据的读取速度，减少时延。

写数据：修改数据时，先将数据写到buffer pool，再刷新到磁盘

通过check point将脏数据刷新到硬盘中，造成随机写和写放大：

数据页离散分布，造成大量随机写，延迟大，影响性能。

SSD上的随机写会导致严重的写放大，不仅影响写操作性能，而且显著降低SSD的寿命。

一般使用高端读写型的SSD

准“内存数据库”+LSM-Tree存储，避免随机写

增量数据直接写入内存，并将Redo-Log落盘及同步给从副本后，即可通知业务成功

内存占用率达到阈值后冻结MemTable，并执行转储/合并等操作以释放内存空间

内存增量数据批量合并到磁盘，以顺序写代替随机写

读数据时，需要从热点缓存、MemTable以及转储SSTable中读取数据，保证数据一致性。

技术优势：

读写分离：读内存和写内存分开

提升写速度：准内存处理，数据修改主要是内存操作，无频繁check point操作，提高写性能。

避免随机写：内存的脏数据批量合并之后，顺序写入SSD硬盘，避免随机写，提高写性能并延长SSD寿命。

数据持久性：为避免内存中数据丢失，redo-log以WAL机制实施落盘，保证数据持久性。

降低成本：磁盘数据按主键有序排列，磁盘碎片少，并提供快速检索能力。使用普通读密集型SSD硬盘。

底层存储会划分微块和宏块，由数据库内部管理。

OceanBase转储和合并简介

转储操作（minor freeze）：目的是不断的把内存的MemTable写入磁盘以释放内存空间。

转储过程首先会冻结MemTable（阻止当前的MemTable再有新的写入），并生成新的活跃MemTable。

Partition副本可以独立决定冻结当前MemTable，并转储到磁盘上。

转储出的数据只与相同大版本的增量数据做数据归并，不与全局静态数据合并。

合并操作（Major freeze)：是将动静态数据做归并，会比较费时。当转储产生的增量数据积累到一定程度时，通过Major freeze实现大版本的合并。

磁盘数据按主键有序排列，提供快速检索能力。内存增量数据（MemTable)分多级做批量归并（Minor-Major),最终整合到磁盘（SSTable),对整体性能影响较小。

OceanBase转储和合并区别：转储和合并的最大区别在于，合并是集群上所有的Partition在一个统一的快照点和全局静态数据进行合并的行为，是一个全局的操作，最终形成一个全局快照。转储和合并的对比如下：

转储（Minor freeze)合并（Major freeze)Partition级别，只是MemTable的物化全局级别，产生一个全局快照。每个Partition独立决定自己MemTable的冻结操作，主备Partition无需保持一致。全局Partition一起做MemTable的冻结操作，要求主备Partition保持一致。转储只与相同大版本的Minor SSTable合并，产生新的Minor SSTable，所以只包含增量数据，最终被删除的行需要特殊标记。合并会把当前大版本的SSTable和MemTable与前一个大版本的全量静态数据进行合并，产生新的全量数据。

控制内存数据落盘（“转储”及“合并”）

触发memstore内存dump操作的阈值

freeze_trigger_percentage参数；默认值是70，即memstore的内存写满70%时，自动触发转储或者合并，具体行为取决于参数设置。

转储（minor freeze)的时机

内存达到阈值后自动触发。

手工触发：以root@sys用户执行alter system major freeze；命令

转储次数已满：当转储次数已经达到major_compact_trigger参数指定的次数时，自动触发合并；值为0时则关闭转储，直接触发合并

支持轮转合并，多个Zone按次序合并。

控制内存数据落盘（“转储”及“合并”）-其他说明

是否可以彻底关闭合并？

enable_major_freeze=False;建议保持默认值True

enable_manual_merge=True;开启手工合并，需要手工触发所有的合并操作。极少数特殊运维场景会用到，不建议使用。

合并的并发线程数： merge_thread_count参数控制并发度，并发的粒度为分区。

默认值是0，值过大可能会影响在线业务性能。

少数快速写内存场景中，可以适当调大并发度，加快内存dump的速度。

查看内存使用情况

查看memstore的使用情况

show parameters like 'memstore_limit_percentage';

__all_virtual_tenant_memstore_info,按租户区分。

查看内存使用情况

查看memstore的使用情况

show parameters like 'memstore_limit_percentage'; __all_virtual_tenant_memstore_info，按租户区分

查看内存使用情况

查看非memstore内存使用情况

__all_virtual_memory_info，按租户区分

查看内存使用情况

查看非memstore内存分类情况 __all_virtual_memory_info，按租户和模块(mod_name)区分

统计每台机器上数据盘的使用情况 __all_virtual_disk_stat;

统计每个zone里数据盘的使用情况 __all_virtual_disk_stat,__all_server;

检查集群合并状态

检查集群合并的状态： select * from __all_zone where name = 'merge_status';

LSMTree存储高数据压缩率，降低存储需求。

通过数据编码压缩技术实现高压缩，比通用的压缩算法更懂数据，从而实现更高的压缩效率。

字典：把重复性较高的数据进行去重，把去重后的数据建立字典，而把原来存放数据的地方存成指向特定字典下标的引用。数据访问时无需解码。

第二次压缩是通用压缩，使用lz4等压缩算法对encoding之后的数据再做一次瘦身。

支持snappy、lz4、zstd等压缩算法，允许用户在压缩率和解压缩时间上做各自的权衡

使用相同的块大小（16KB）以及相同的压缩算法（lz4），同样的数据存放在OceanBase中，要比在MySQL 5.7中平均节省一半的空间。

查询性能基本没有变化，写入（合并）性能有了较大的提升。

【本文地址】

第五章：OB Server的存储引擎

第五章：OB Server的存储引擎

今日新闻

推荐新闻