monitor租户合并失败

AntTech_TLWCTG · 2025 年4 月 10 日 08:07

【使用环境】测试环境
【 OB or 其他组件】OB
【使用版本】4.2.1.11
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作

先部署OB（4.2.1.11）,然后部署OCP，部署时选择使用已有的 OceanBase 数据库。部署完OCP后接管了之前部署的OB（4.2.1.11），10日2:00租户合并卡住了。
select * from GV$OB_COMPACTION_DIAGNOSE_INFO WHERE TENANT_ID = 1004;

1、详细信息如下
error_no=-4034,last_error_time=1744242924134227,error_trace=YB420A0B093D-00063243EF61C025-0-0,warning=“info=“DAG_MAJOR_MERGE”;ls_id=1001;tablet_id=1152921504606847757;compaction_scn=1744221601753879228;extra_info=“merge_type=“MEDIUM_MERGE””;”/
2、查看对应的日志信息
trace.log (65.0 KB)
3、查看ocp日志
cd /root/ocp/log
grep ERROR ocp-server.*

完整日志：
ocp-server.log (29.2 MB)

4、昨天也发了一个类似的帖子，按照回复内容更换了OB内核版本

AntTech_TLWCTG · 2025 年4 月 10 日 08:11

1、OB内核版本

2.使用obdiag进行合并失败根因分析
obdiag_major_hold_20250410080926.zip (16.3 KB)

淇铭 · 2025 年4 月 10 日 09:28

把这个时间段的四个节点的observer.log日志都发一下

AntTech_TLWCTG · 2025 年4 月 10 日 09:29

Ocp_monitor租户是在单节点OB上

淇铭 · 2025 年4 月 10 日 09:30

obdiag日志采集一下
obdiag gather scene run --scene=observer.io
–config db_host=xx.xx.xx.xx
–config db_port=xxxx
–config tenant_sys.user=root@sys
–config tenant_sys.password=***
–config obcluster.servers.global.ssh_username=test
–config obcluster.servers.global.ssh_password=******
–config obcluster.servers.global.home_path=/home/admin/oceanbase

淇铭 · 2025 年4 月 10 日 09:31

那就单独发这个节点的日志这个时间段的日志

AntTech_TLWCTG · 2025 年4 月 10 日 09:47

obdiag_gather_pack_20250410094127.zip (14.7 MB)

淇铭 · 2025 年4 月 10 日 09:48

observer.log的日志也提供一下

AntTech_TLWCTG · 2025 年4 月 10 日 09:54

我这日志为什么只有8点之后的日志呢，OB没有重启，没有执行操作

AntTech_TLWCTG · 2025 年4 月 10 日 09:58

这几次都是OCP使用的OB集群下的monitor租户合并失败，别的租户都没事。部署的OB业务集群合并也没有问题。

淇铭 · 2025 年4 月 10 日 09:58

应该给你设置的日志清理策略有关系

目前在observer.log看到大量 4389的报错，clog日志同步太慢，和IO调度相关
1.在服务器上监控下磁盘IO情况 iostat -mxdt 3
2.在ocp 租户–> 性能监控–>存储与缓存物理 IO 次数，物理IO吞吐量，物理IO耗时
3.在ocp 租户–> 性能监控–>性能与SQL 看下 clog同步延迟，租户 CPU 消耗，内存使用率

独善其身 · 2025 年4 月 10 日 10:00

这个问题挺有深度

AntTech_TLWCTG · 2025 年4 月 10 日 10:01

AntTech_TLWCTG · 2025 年4 月 10 日 10:11

筛选10日2:00-03:00时间段的曲线图

AntTech_TLWCTG · 2025 年4 月 10 日 10:15

与内存使用率高有关系吗，这个还没开始跑业务呢，内存占用有点高

淇铭 · 2025 年4 月 10 日 11:28

看着io没什么读写 io延迟很高 io耗时也很高

淇铭 · 2025 年4 月 10 日 13:55

1、建议你先用dd测试一下磁盘 iostat -mxdt 3 用这命令看看 io是不是有性能问题
2、/var/log/messages 这个文件的信息也检查一下
3、原先确实有磁盘的问题你目前更换了磁盘接口也不定能保证磁盘没有问题目前的磁盘物理io耗时也很高不正常你在用在ocp 租户–> 性能监控–>存储与缓存物理 IO 次数，物理IO吞吐量，物理IO耗时 10日2:00之前的io情况

淇铭 · 2025 年4 月 11 日 09:49