observer空间占用异常BUG

狂炫老板画的大饼 · 2025 年8 月 21 日 23:11

【使用环境】生产环境
【 OB or 其他组件】
【使用版本】4.3.5
【问题描述】
observer正常数据空间2.5t左右，这几天测试备份，自建了一个s3协议存储，写入性能比较低，约16M/收左，在ocp设置备份策略，开的备份速度参数ha_low_thread_score为30+
怀疑是因为备份存储写入性能低，导致备份生产速度大于写入速度，后面发现OBserver节点数据磁盘占用率暴涨，目前执行了合并、重启操作，均未能降下去，请各位大佬告知下原因以及解决办法！
观察监控，备份开始时间是9:45，空间开始上涨是9:00整，持续一天！obdiag巡检信息晚点提供！
今天早上自动合并后空间又膨胀不回收！

check_report.rar (12.7 KB)

靖顺 · 2025 年8 月 21 日 23:16

先用敏捷诊断工具执行个巡检看下结果，
obdiag check run

https://www.oceanbase.com/docs/common-obdiag-cn-1000000003607664

狂炫老板画的大饼 · 2025 年8 月 22 日 09:42

你好，巡检跑到这个步骤不动了！

今天自动触发合并后，空间膨胀了不回收！

嗨森滴 · 2025 年8 月 22 日 09:59

1，确认合并是否正常完成了
2，确认是否有长会话在跑，跑的过程中可能有临时数据落盘导致磁盘空间上涨。

狂炫老板画的大饼 · 2025 年8 月 22 日 10:01

合并正常完成，业务回话导致数据上涨幅度没这么大！

狂炫老板画的大饼 · 2025 年8 月 22 日 10:19

你上obdiag巡检日志已上传，辛苦查看下！

旭辉 · 2025 年8 月 22 日 10:52

巡检结果
版本：4.3.5.0_100000202024123117-5d6cb5cbc3f7c1ab6eb22e40abec8e160a8764d5(Dec 31 2024 17:35:01)

cluster.core_file_find | [critical] [remote_10_10_100_12] The core file exists.
12这台机器上有core文件，可以确认下是否为OB的core，如果是OB的core 这个OB实例大概宕过，需要取下当时的日志以及解析下core文件
需要在这个在这三台机器执行 ip -s link show em1 看下

|    network.network_drop    | [critical] [remote_10_10_100_12] network: em1  RX drop is not 0, please check by ip -s link show em1                                                                                                                           |
|                            | [critical] [remote_10_10_100_14] network: em1  RX drop is not 0, please check by ip -s link show em1                                                                                                                           |
|                            | [critical] [remote_10_10_100_13] network: em1  RX drop is not 0, please check by ip -s link show em1                                                                                                                           |

内核版本低，开启cgroup后 observer有宕掉的风险，参考
https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000001260425?back=kb

| system.kernel_bad_version  | [critical] node: remote_10_10_100_12 kernel version is 3.10.0-1160.119.1.el7.x86_64, There is a risk of system downtime when deploying OBServer using cgroup method on an operating system with kernel version 3.10 issue #910 |
|                            | [critical] node: remote_10_10_100_14 kernel version is 3.10.0-1160.119.1.el7.x86_64, There is a risk of system downtime when deploying OBServer using cgroup method on an operating system with kernel version 3.10 issue #910 |
|                            | [critical] node: remote_10_10_100_13 kernel version is 3.10.0-1160.119.1.el7.x86_64, There is a risk of system downtime when deploying OBServer using cgroup method on an operating system with kernel version 3.10 issue #910 |

其它一些warning依据建议调整下

image1848×648 49.8 KB
磁盘空间告警

image1850×668 56.2 KB

旭辉 · 2025 年8 月 22 日 11:00

是1-1-1结构吗？

查下这个

select * from DBA_OB_ROOTSERVICE_EVENT_HISTORY where TIMESTAMP> '2025-08-21 08:50:00' and TIMESTAMP< '2025-08-21 09:20:00';

旭辉 · 2025 年8 月 22 日 11:14

另外在OCP上概览集群资源分配 Top5 数据盘使用率截图看下，
租户资源使用 Top5 数据量（GiB）截图看下

AntTech_K7LPYM · 2025 年8 月 22 日 12:25

围观

旭辉 · 2025 年8 月 25 日 16:44

同步【急】observer空间暴涨占用异常BUG