没有增量数据写入，但是合并时间很长

云澈 · 2026 年4 月 15 日 10:03

【使用环境】生产环境
【 OB or 其他组件】
【使用版本】4.2.1.10
【问题描述】
租户并没有增量的写入，但是合并很慢，40万分区耗时7小时
【复现路径】问题出现前后相关操作
1.该租户有40万分区

2.查询到分区的合并历史，4点后分区没有进行操作了，直到8点才进行major merge。

如何排查4点-8点集群在做什么操作，哪里影响了合并的进度

淇铭 · 2026 年4 月 15 日 10:09

SHOW VARIABLES like ‘version_comment’; --具体的版本信息查一下

以下的信息查一下
select* from CDB_OB_MAJOR_COMPACTION

select * from __all_virtual_server_compaction_progress where tenant_id = xxx;

select * from __all_virtual_tablet_compaction_progress where tenant_id = xxx;

select * from GV$OB_SSTABLES where tenant_id = xxx and tablet_id = xxx and svr_ip = “xxx”;

云澈 · 2026 年4 月 15 日 10:13

1.txt (18.7 KB)

AntTech_7N26K0 · 2026 年4 月 15 日 10:36

学习一下

淇铭 · 2026 年4 月 15 日 10:44

SELECT * FROM __all_virtual_compaction_diagnose_info

WHERE tenant_id = <tenant_id>; 这个信息也麻烦查一下

云澈 · 2026 年4 月 15 日 10:51

MySQL [oceanbase]> SELECT * FROM __all_virtual_compaction_diagnose_info where tenant_id=1002 limit 1;
Empty set (14.636 sec)

淇铭 · 2026 年4 月 15 日 10:56

从查看的信息来看你们的数据量确实挺大的合并的执行时间确实很长等待合并调度的时间并不长
这两个截图看看
1、在ocp 租户–> 性能监控–>存储与缓存物理 IO 次数，物理IO吞吐量，物理IO耗时
2、在ocp 租户–> 性能监控–>性能与SQL 看下租户 CPU 消耗，内存使用率

云澈 · 2026 年4 月 15 日 11:01

云澈 · 2026 年4 月 15 日 11:02

但如果增量数据很少，大部分的宏块都是可以复用的吧，按理说不该那么久。

淇铭 · 2026 年4 月 15 日 11:15

是的看着你们的磁盘的物理io耗时挺高的你们的磁盘是机械盘还是SSD盘呀你们同盘部署的么？
看着UPDATE_TABLET ~50min 耗时就50min分钟了可能是 tablet 数多或者是你的磁盘性能差看着你们的tablet确实不少还有就是磁盘性能确实不是很好

云澈 · 2026 年4 月 15 日 11:19

如果tablet数量过多是在合并的哪个步骤有影响呢，不是直接复用宏块嘛

淇铭 · 2026 年4 月 15 日 11:21

那应该是磁盘性能问题你们的磁盘是机械盘还是SSD盘呀你们同盘部署的么？

云澈 · 2026 年4 月 15 日 11:28

数据是单独一块盘，我不太理解，这种情况下是哪个步骤用到了磁盘io啊。如果是重写宏块的话，磁盘io用的挺多吧，我们这基本是静态数据。

淇铭 · 2026 年4 月 15 日 11:35

你们还有其他的监控么？可以看到服务器磁盘的监控信息 clog盘和data盘在一起么？

云澈 · 2026 年4 月 15 日 11:38

clog和data盘不在一起。这块磁盘io是什么时候用的可以给讲解下嘛

淇铭 · 2026 年4 月 15 日 13:47

读仍然很重
合并要读层叠的 SSTable、边界宏块、Bloom/索引等来做判定和归并；复用越多，往往说明「扫描与判定」的工作量仍在。读对盘的表现就是 IOPS / 读吞吐 / 读延迟，尤其是和在线业务抢盘时。
不可能 100% 复用
有变更、重叠、层间合并范围时，部分区间仍要写出新宏块；还有元数据 / tablet 更新（ UPDATE_TABLET 也不小），这些仍是写。
其它写盘路径照样存在
例如 Clog、转储、其它租户的合并等，和「宏块复用」无直接关系，但会叠加在同一盘上。

宏块复用主要省的是「新宏块写入」；增量合并仍会带来明显的读盘和部分写盘，所以磁盘（尤其是读 IO 和混合负载下）仍可能有压力，只是通常比不做复用、全量重写要轻。

淇铭 · 2026 年4 月 15 日 13:58

https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000003633625?back=kb
这个是4.x版本合并慢的一些优化办法另外就是建议升级到更高的版本例如LTS425版本

云澈 · 2026 年4 月 15 日 14:06

意思是中间几个小时都是在做分片信息的读取，这个工作耗时比较久？

淇铭 · 2026 年4 月 15 日 14:09

不过看磁盘的io物理耗时看着都是sstore_read读的耗时特别高

云澈 · 2026 年4 月 15 日 14:16

所以说即使没有增量数据产生，还是会从sstable中读信息。应该是以分片为单位进行读取吧，导致读的压力比较大。