张永平zyp
2024 年1 月 22 日 11:05
#1
【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
版本 社区版4.0
SELECT version();
5.7.25-OceanBase_CE-v4.0.0.0
【问题描述】清晰明确描述问题
经常使用一些临时表,创建并使用后删除掉,表的创建和删除比较频繁(使用的etl工具需要经常创建一些表用来同步,同步结束后会删除掉)
在使用过程中刚开始完全没问题,近期突然就报错
(同步:表的更新插入操作,将需要更新的数据生成一个表,然后更新插入到新表ob库里面,再把产生的表删除掉)
在创建表索引出现服务器空间不足这一问题,然后上服务器查看磁盘空间,没看出不足的情况;这里截了云平台的图
【复现路径】问题出现前后相关操作
出现这个问题后,报完错,然后在跑一遍任务就大概率成功了,数据会正常入库 ;暂时就没管,后面报错的频率越来越高
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
四层其他行为信息jg_jgxw_other_action_批量日志.zip (18.8 KB)
【SOP系列 22 】——故障诊断第一步(系统巡检和诊断信息收集)
王利博
2024 年1 月 22 日 11:16
#3
select * from gv$ob_servers\G
show parameters LIKE ‘%log_disk_size%’;
show parameters like ‘%datafile%’ ;
show parameters LIKE ‘%memory%’;
麻烦执行下 看看
张永平zyp
2024 年1 月 22 日 11:21
#4
老师去代理那台服务器执行吗?obproxy /OCP 有这两个组件的服务器
王利博
2024 年1 月 22 日 11:52
#8
再看下这个和df -h
select zone,svr_ip,svr_port,round((data_disk_capacity/1024/1024/1024),2) as data_disk_gb,round((data_disk_in_use/1024/1024/1024),2) as data_disk_used_gb,round((data_disk_capacity-data_disk_in_use)/1024/1024/1024,2) as data_disk_free_gb from gv$ob_servers;
秃蛙
2024 年1 月 22 日 13:59
#10
2个问题
1)看这个信息是数据磁盘剩余只有几十G空间了,说明当前OB申请的磁盘空间不足了。
2)看这个磁盘信息,应该不是OB节点的磁盘信息吧,没有占用800G的磁盘,和上面对不上。
处理方式:
如果确认OB节点数据和日志磁盘大小足够。可以调大OB数据磁盘预占用空间大小。datafile_size(只能调大不能调小,建议按数据磁盘80-90%大小申请)。
秃蛙
2024 年1 月 22 日 14:31
#12
87是ob节点吗,看着没有空间占用。
datafile_size 可以先设置3200G,磁盘的80%。
张永平zyp
2024 年1 月 22 日 14:34
#13
87是节点,这个87好奇怪啊,92和93都用了 87一点没用上
秃蛙
2024 年1 月 22 日 14:44
#14
张永平zyp
2024 年1 月 22 日 14:51
#15
非常谢谢老师了,我们当时云平台安装的时候 出了点问题 后面需要重装才能用 ,暂时没办法在云平台上直接新增副本
张永平zyp
2024 年1 月 22 日 14:52
#16
我们的云平台只有主机和告警这些 当时好像是应为使用账号的原因造成的,重装风险太大然后就一直这样用着了
秃蛙
2024 年1 月 22 日 14:55
#18
当前集群只有2副本,集群风险比ocp使用问题大,ocp可以重装或者新的服务器安装,再重新接管当前业务集群。2副本坏一个节点就不可用了。
张永平zyp
2024 年1 月 22 日 15:28
#23
当时安装的时候肯定是三个节点的 一个是代理,当时安装走的是奇数 三台节点才对 ,现在的话 应为账号的原因 是直接重装ocp就行了吗 ?