【急】observer空间暴涨占用异常BUG

仗剑天涯 · 2025 年8 月 22 日 11:29

【使用环境】生产环境
【 OB or 其他组件】
【使用版本】4.3.5
【问题描述】
observer正常数据空间2.5t左右，这几天测试备份，自建了一个s3协议存储，写入性能比较低，约16M/收左，在ocp设置备份策略，开的备份速度参数ha_low_thread_score为30+
怀疑是因为备份存储写入性能低，导致备份生产速度大于写入速度，后面发现OBserver节点数据磁盘占用率暴涨，目前执行了合并、重启操作，均未能降下去，请各位大佬告知下原因以及解决办法！
观察监控，备份开始时间是9:45，空间开始上涨是9:00整，持续一天！obdiag巡检信息晚点提供！
今天早上自动合并后空间又膨胀不回收！

可参考今天上午发的原始帖子：observer空间占用异常BUG

check_report.rar (12.7 KB)

辞霜 · 2025 年8 月 22 日 11:33

OceanBase 社区已接收您的帖子，正在跟进中。

旭辉 · 2025 年8 月 25 日 16:37

8.22号10点自动恢复了，未保留当时OBServer日志，查看OCP历史监控在8.20号数据量开始增长，由正常7TB至8.22号10点增长至顶峰（OCP显示数据量58.75TB，数据盘占用量13.5TB），然后迅速回落至正常水位，OCP上显示的数据量和数据盘占用量关系不对（OCP4.3.4，monitor租户配置1C2G，较低可能导致数据采集不对），前分析这个情况很可能是OCP监控采集到的数据不对，需获取当时monitor租户的性能监控，建议扩容ocp_monitor租户及meta租户及升级OCP至4.3.6，以及下次出现时保留现场日志及黑屏SQL查询获取真实数据情况。

select * from oceanbase.CDB_OB_SPACE_USAGE order by USAGE_BYTES desc;
select * from oceanbase.CDB_OB_SERVER_SPACE_USAGE order by USAGE_BYTES desc;
select * from oceanbase.CDB_OB_TABLE_SPACE_USAGE order by REQUIRED_SIZE  desc limit 50;

旭辉 · 2025 年12 月 17 日 15:17

第1个问题：occupy size比required size大，是已知问题，计划在4.3.5.5修复，规避方式：先以required size为准

第2个问题：目前怀疑REQUIRED_SIZE突然增大，有时持续几天后恢复正常，这种一般是增量合并导致的，有些宏块上的数据碎片化较高，可能导致一段时间内不释放，一般来说当发现required size相对于occupy size比较高，同时一轮全量合并后恢复，那基本就能确认是宏块空间碎片导致的了，这个是已知的现象，但是没有作为bug，一般解决方式是手动发起一轮全量合并，进行数据重整，具体操作：

修改参数： alter table $tablename set progressive_merge_num = 1，然后执行 alter system major freeze，合并结束后，设置 alter table $tablename set progressive_merge_num = 0（以上操作仅针对磁盘放大严重的表）。数据重整后，磁盘空间释放。

pai · 2026 年1 月 5 日 18:22

学到了