社区版4.3.2.1集群,单台机器磁盘空间异常使用,服务停止

【 使用环境 】生产环境
【 OB or 其他组件 】 oceanbase
【 使用版本 】4.3.2.1
【问题描述】3台机器部署集群,运行一段时间后,单台机器磁盘使用量异常,服务停止。每台机器的数据文件划分了最大2T。


微信截图_20240924095017

【复现路径】问题出现前后相关操作
【附件及日志】

用obdiag 分析一下日志看看,https://www.oceanbase.com/docs/common-obdiag-cn-1000000001326845

remote_192.168.200.234.zip (34.1 MB)
麻烦看下这台机器的日志,目前就这台机器会出问题

查一下集群的datafile_disk_percentage参数和datafile_size当前值

这里看日志报错4184 磁盘满了,但是看你上面的磁盘大小不一致可能是其他原因或者bug导致。麻烦把集群架构,集群信息租户信息也发出来,租户的unit分布。如果是obd搭建的yaml文件也发出来一份

datafile.txt (1.5 KB)




obd白屏方式部署,不是通过yaml部署

234 这个节点的空间使用异常,内部空间满了。
可以先重启这个 OB 节点看看。

昨天重启过了,跑了一段时间,今天早上登陆上去看到服务又停止了。关键问题,这个集群已经重新部署过一次了,之前也是这个问题,单个节点磁盘爆满。目前运行的集群是重装之后的,还是单个节点异常

有没有尝试过更换台机器呢,重装还屡次出问题可能是硬件缘故了

看datafile_size 参数设置2T 实际看OCP上展示的是500G,麻烦看下

show parameters like ‘%datafile%’;
show parameters like ‘%log_disk_size%’;

select * from oceanbase.__all_virtual_disk_stat;

查询.txt (4.3 KB)
麻烦看一下

可能是合并问题导致的麻烦查一下该sql 截图看看结果
select * from CDB_OB_MAJOR_COMPACTION;

业务租户的id
select * from __all_virtual_tx_data_table where tenant_id = xxx;

应该是1004租户吧 1003是1004的meta元租户的ID。

select * from __all_tenant; 可以查看下。

1004.txt (3.2 KB)

select /*+ query_timeout(30000000) */ a.TENANT_ID, a.DATABASE_NAME,
a.TABLE_NAME, a.TABLE_ID,
sum(
case
when
b.nested_offset = 0 then
IFNULL(b.data_block_count+b.index_block_count+b.linked_block_count, 0) * 2 * 1024 * 1024
else
IFNULL(b.size, 0)
end
) /1024.0/1024/1024 as data_size_in_GB
from CDB_OB_TABLE_LOCATIONS a inner join __all_virtual_table_mgr b
on a.svr_ip = b.svr_ip and a.svr_port=b.svr_port and a.tenant_id =
b.tenant_id and a.LS_ID = b.LS_ID and a.TABLET_ID = b.TABLET_ID
and a.tenant_id = 1004 and a.svr_ip = ‘192.168.200.234’
and b.table_type >= 10 and b.size > 0 group by a.TABLE_ID;

没法跑成功,query_timeout值我设置了600000000都超时,只能运行select * from CDB_OB_MAJOR_COMPACTION;

帮忙查询下该表
select * from CDB_OB_TABLET_REPLICAS where COMPACTION_SCN<GLOBAL_BRO…and tenant_id=1004;

在RS leader所在的observer上去查看日志,基于’replica not merged’关键字
image

有没有在单个节点徒增数据量期间执行建索引?