0
0

聊一聊 HBase 是如何写入数据的？

技术分享 4年前 (2022-05-19) 0 999+

关注

hi，大家好，我是大D。今天继续了解下 HBase 是如何写入数据的，然后再讲解一下一个比较经典的面试题。

Region Server 寻址

HBase Client 访问 ZooKeeper；
获取写入 Region 所在的位置，即获取 hbase:meta 表位于哪个 Region Server；
访问对应的 Region Server；
获取 hbase:meta 表，并查询出目标数据位于哪个 Region Server 中的哪个 Region 中。并将该 table 的 Region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问；

写 Hlog

HBase Client 向 Region Server 发送写 Hlog 请求；
Region Server 会通过顺序写入磁盘的方式，将 Hlog 存储在 HDFS 上；

写 MemStore 并返回结果

HBase Client 向 Region Server 发送写 MemStore 请求；
只有当写 Hlog 和写 MemStore 的请求都成功完成之后，并将反馈给 HBase Client，这时对于整个 HBase Client 写入流程已经完成。

MemStore 刷盘

HBase 会根据 MemStore 配置的刷盘策略定时将数据刷新到 StoreFile 中，完成数据持久化存储。

为什么要把 WAL 加载到 MemStore中，再刷写成 HFile 呢？

WAL (Write-Ahead-Log) 预写日志是 HBase 的 RegionServer 在处理数据插入和删除过程中用来记录操作内容的一种日志。每次Put、Delete等一条记录时，首先将其数据写入到 RegionServer 对应的 HLog 文件中去。

而WAL是保存在HDFS上的持久化文件，数据到达 Region 时先写入 WAL，然后被加载到 MemStore 中。这样就算Region宕机了，操作没来得及执行持久化，也可以再重启的时候从 WAL 加载操作并执行。

那么，我们从写入流程中可以看出，数据进入 HFile 之前就已经被持久化到 WAL了，而 WAL 就是在 HDFS 上的，MemStore 是在内存中的，增加 MemStore 并不能提高写入性能，为什么还要从 WAL 加载到 MemStore中，再刷写成 HFile 呢？

数据需要顺序写入，但 HDFS 是不支持对数据进行修改的；
WAL 的持久化为了保证数据的安全性，是无序的；
Memstore在内存中维持数据按照row key顺序排列，从而顺序写入磁盘；

所以 MemStore 的意义在于维持数据按照RowKey的字典序排列，而不是做一个缓存提高写入效率。

另外，非常欢迎大家加我VX： Abox_0226 ，备注「进群」，有关大数据技术的问题在群里一起探讨。

举报

发表评论

评论已关闭。

相关文章

.NET 生态系统中 LoongArch 与 RISC-V 的整合深度分析

.NET 生态系统中 LoongArch 与 RISC-V 的整合深度分析

不到80元的E88无刷电机无人机拆解

不到80元的E88无刷电机无人机拆解

C#AI系列(5): 从零开始 C# 轻松语音识别

C#AI系列(5): 从零开始 C# 轻松语音识别

人生第一篇博客：千里之行，始于足下

人生第一篇博客：千里之行，始于足下

洛谷 P11345 [KTSC 2023 R2] 基地简化题解

洛谷 P11345 [KTSC 2023 R2] 基地简化题解

从 Spring Boot 2.x 到 3.5.x + JDK21：一次完整的生产环境迁移实战

从 Spring Boot 2.x 到 3.5.x + JDK21：一次完整的生产环境迁移实战

当前内容话题

上一页： PowerShell 笔记 – 基础篇

下一页：因为一句话，秒懂二叉树旋转

0

- 资讯
- 技术