【急】observer空间暴涨占用异常BUG

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】4.3.5
【问题描述】
observer正常数据空间2.5t左右,这几天测试备份,自建了一个s3协议存储,写入性能比较低,约16M/收左,在ocp设置备份策略,开的备份速度参数ha_low_thread_score为30+
怀疑是因为备份存储写入性能低,导致备份生产速度大于写入速度,后面发现OBserver节点数据磁盘占用率暴涨,目前执行了合并、重启操作,均未能降下去,请各位大佬告知下原因以及解决办法!
观察监控,备份开始时间是9:45,空间开始上涨是9:00整,持续一天!obdiag巡检信息晚点提供!
今天早上自动合并后空间又膨胀不回收!

可参考今天上午发的原始帖子:observer空间占用异常BUG

图片

图片
check_report.rar (12.7 KB)

1 个赞

OceanBase 社区已接收您的帖子,正在跟进中。

8.22号10点自动恢复了,未保留当时OBServer日志,查看OCP历史监控 在8.20号数据量开始增长,由正常7TB至8.22号10点增长至顶峰(OCP显示数据量58.75TB,数据盘占用量13.5TB) ,然后迅速回落至正常水位,OCP上显示的数据量和数据盘占用量 关系 不对(OCP4.3.4,monitor租户配置1C2G,较低 可能导致数据采集不对),前分析这个情况很可能是OCP监控采集到的数据不对,需获取当时monitor租户的性能监控,建议扩容ocp_monitor租户及meta租户及升级OCP至4.3.6,以及下次出现时保留现场日志及黑屏SQL查询获取真实数据情况。

select * from oceanbase.CDB_OB_SPACE_USAGE order by USAGE_BYTES desc;
select * from oceanbase.CDB_OB_SERVER_SPACE_USAGE order by USAGE_BYTES desc;
select * from oceanbase.CDB_OB_TABLE_SPACE_USAGE order by REQUIRED_SIZE  desc limit 50;
1 个赞

第1个问题:occupy size比required size大,是已知问题,计划在4.3.5.5修复,规避方式:先以required size为准

第2个问题:目前怀疑REQUIRED_SIZE突然增大,有时持续几天后恢复正常,这种一般是 增量合并导致的,有些宏块上的数据碎片化较高,可能导致一段时间内不释放,一般来说当发现required size相对于occupy size比较高,同时一轮全量合并后恢复,那基本就能确认是宏块空间碎片导致的了,这个是已知的现象,但是没有作为bug,一般解决方式是手动发起一轮全量合并,进行数据重整,具体操作:

修改参数 : alter table $tablename set progressive_merge_num = 1, 然后执行 alter system major freeze,合并结束后,设置 alter table $tablename set progressive_merge_num = 0(以上操作仅针对磁盘放大严重的表)。数据重整后,磁盘空间释放。

1 个赞

学到了