monitor租户合并失败

【 使用环境 】 测试环境
【 OB or 其他组件 】OB
【 使用版本 】4.2.1.11
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作

先部署OB(4.2.1.11),然后部署OCP,部署时选择使用已有的 OceanBase 数据库。部署完OCP后接管了之前部署的OB(4.2.1.11),10日2:00租户合并卡住了。
select * from GV$OB_COMPACTION_DIAGNOSE_INFO WHERE TENANT_ID = 1004;


1、详细信息如下
error_no=-4034,last_error_time=1744242924134227,error_trace=YB420A0B093D-00063243EF61C025-0-0,warning=“info=“DAG_MAJOR_MERGE”;ls_id=1001;tablet_id=1152921504606847757;compaction_scn=1744221601753879228;extra_info=“merge_type=“MEDIUM_MERGE””;”/
2、查看对应的日志信息
trace.log (65.0 KB)
3、查看ocp日志
cd /root/ocp/log
grep ERROR ocp-server.*


完整日志:
ocp-server.log (29.2 MB)

4、昨天也发了一个类似的帖子,按照回复内容更换了OB内核版本

1、OB内核版本


2.使用obdiag进行合并失败根因分析
obdiag_major_hold_20250410080926.zip (16.3 KB)

把这个时间段的四个节点的observer.log日志 都发一下

Ocp_monitor租户是在单节点OB上

obdiag日志采集一下
obdiag gather scene run --scene=observer.io
–config db_host=xx.xx.xx.xx
–config db_port=xxxx
–config tenant_sys.user=root@sys
–config tenant_sys.password=***
–config obcluster.servers.global.ssh_username=test
–config obcluster.servers.global.ssh_password=******
–config obcluster.servers.global.home_path=/home/admin/oceanbase

那就单独发这个节点的日志 这个时间段的日志

obdiag_gather_pack_20250410094127.zip (14.7 MB)

observer.log的日志 也提供一下


我这日志为什么只有8点之后的日志呢,OB没有重启,没有执行操作

这几次都是OCP使用的OB集群下的monitor租户合并失败,别的租户都没事。部署的OB业务集群合并也没有问题。

应该给你设置的日志清理策略有关系


目前在observer.log看到大量 4389的报错,clog日志同步太慢,和IO调度相关
1.在服务器上监控下磁盘IO情况 iostat -mxdt 3
2.在ocp 租户–> 性能监控–>存储与缓存 物理 IO 次数,物理IO吞吐量,物理IO耗时
3.在ocp 租户–> 性能监控–>性能与SQL 看下 clog同步延迟 , 租户 CPU 消耗,内存使用率

这个问题挺有深度

筛选10日2:00-03:00时间段的曲线图

与内存使用率高有关系吗,这个还没开始跑业务呢,内存占用有点高

看着io没什么读写 io延迟很高 io耗时也很高

1、建议你先用dd测试一下磁盘 iostat -mxdt 3 用这命令看看 io是不是有性能问题
2、/var/log/messages 这个文件的信息 也检查一下
3、原先确实有磁盘的问题 你目前更换了磁盘接口 也不定能保证磁盘没有问题 目前的磁盘物理io耗时也很高 不正常 你在用在ocp 租户–> 性能监控–>存储与缓存 物理 IO 次数,物理IO吞吐量,物理IO耗时 10日2:00之前的io情况

1 个赞