腾讯COS 备份长期运行会导致4.2.1.7"自杀"

【 使用环境 】生产环境
【 OB or 其他组件 】OB 4.2.1.7
【 使用版本 】OB 4.2.1.7
【问题描述】
我是1:1:1模式部署的系统在最近OCP升级到4.3.0、OB升级到4.2.1.7以后OB经常自己挂掉

备注:之前的日志找不到了,这不是道为什么全是下面文件的日子信息

挂以后OCP会记录错误信息:
告警详情:[OBServer 非预期的内部错误] 集群:obcluster1,主机:10.10.10.147,日志类型:observer,日志文件:/home/admin/observer/log/observer.log,日志级别:ERROR,关键字=Unexpected internal error happen,错误码=4388,日志详情=[2024-07-06 19:32:12.732481] ERROR issue_dba_error (ob_log.cpp:1875) [2405246][T1001_ReplaySrv][T1001][Y0-0000000000000000-0-0] [lt=3830][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4389, file=“ob_ls_adapter.cpp”, line_no=106, info=“single replay task cost too much time. replay may be delayed”)。

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

observer.log.zip (330.9 KB)

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

用obdiag巡检 贴出巡检日志 看看具体什么问题导致的

看一下每天的合并是否正常,并贴一下当前集群内存的资源情况

看这个报错是follow 节点的日志回放超时了

初步怀疑运行时候就是内存不够导致ob出的问题,你先用obdiag gather sysstat 收集一下集群性能报告,收集的报告贴一下

该问题疑似500租户内存泄漏,但缺少当时数据库日志进一步确认,后续问题复现,麻烦再提供异常节点的observer.log信息。

该问题已确认。
使用cos备份介质引发的glibc模块内存泄漏。
select * from gv$ob_memory where tenant_id=500 order by used desc limit 20;

规避方式:
1)切换其他备份介质,例如:NFS
2)升级OB4.2.1.BP8版本,预计7月底发布。