observer空间占用异常BUG

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】4.3.5
【问题描述】
observer正常数据空间2.5t左右,这几天测试备份,自建了一个s3协议存储,写入性能比较低,约16M/收左,在ocp设置备份策略,开的备份速度参数ha_low_thread_score为30+
怀疑是因为备份存储写入性能低,导致备份生产速度大于写入速度,后面发现OBserver节点数据磁盘占用率暴涨,目前执行了合并、重启操作,均未能降下去,请各位大佬告知下原因以及解决办法!
观察监控,备份开始时间是9:45,空间开始上涨是9:00整,持续一天!obdiag巡检信息晚点提供!
今天早上自动合并后空间又膨胀不回收!
图片


图片
check_report.rar (12.7 KB)

1 个赞

先用敏捷诊断工具执行个巡检看下结果,
obdiag check run

https://www.oceanbase.com/docs/common-obdiag-cn-1000000003607664

你好,巡检跑到这个步骤不动了!


今天自动触发合并后,空间膨胀了不回收!

1,确认合并是否正常完成了
2,确认是否有长会话在跑,跑的过程中可能有临时数据落盘导致磁盘空间上涨。

合并正常完成,业务回话导致数据上涨幅度没这么大!

你上obdiag巡检日志已上传,辛苦查看下!

巡检结果
版本:4.3.5.0_100000202024123117-5d6cb5cbc3f7c1ab6eb22e40abec8e160a8764d5(Dec 31 2024 17:35:01)

  1. cluster.core_file_find | [critical] [remote_10_10_100_12] The core file exists.
    12这台机器上有core文件,可以确认下是否为OB的core,如果是OB的core 这个OB实例大概宕过,需要取下当时的日志以及解析下core文件

  2. 需要在这个在这三台机器执行 ip -s link show em1 看下

|    network.network_drop    | [critical] [remote_10_10_100_12] network: em1  RX drop is not 0, please check by ip -s link show em1                                                                                                                           |
|                            | [critical] [remote_10_10_100_14] network: em1  RX drop is not 0, please check by ip -s link show em1                                                                                                                           |
|                            | [critical] [remote_10_10_100_13] network: em1  RX drop is not 0, please check by ip -s link show em1                                                                                                                           |
  1. 内核版本低,开启cgroup后 observer有宕掉的风险,参考
    https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000001260425?back=kb
| system.kernel_bad_version  | [critical] node: remote_10_10_100_12 kernel version is 3.10.0-1160.119.1.el7.x86_64, There is a risk of system downtime when deploying OBServer using cgroup method on an operating system with kernel version 3.10 issue #910 |
|                            | [critical] node: remote_10_10_100_14 kernel version is 3.10.0-1160.119.1.el7.x86_64, There is a risk of system downtime when deploying OBServer using cgroup method on an operating system with kernel version 3.10 issue #910 |
|                            | [critical] node: remote_10_10_100_13 kernel version is 3.10.0-1160.119.1.el7.x86_64, There is a risk of system downtime when deploying OBServer using cgroup method on an operating system with kernel version 3.10 issue #910 |
  1. 其它一些warning依据建议调整下

  2. 磁盘空间告警

是1-1-1结构吗?

查下这个

select * from DBA_OB_ROOTSERVICE_EVENT_HISTORY where TIMESTAMP> '2025-08-21 08:50:00' and TIMESTAMP< '2025-08-21 09:20:00';

另外在OCP上概览 集群资源分配 Top5 数据盘使用率 截图看下,
租户资源使用 Top5 数据量(GiB)截图看下

围观

同步 【急】observer空间暴涨占用异常BUG