突然发现ob登录不上，显示超时，停止后无法启动

AntTech_7DG9Y0 · 2024 年8 月 5 日 10:23

【使用环境】生产环境 or 测试环境
【 OB or 其他组件】
【使用版本】OceanBase_CE 4.0.0.0
【问题描述】
今天准备登录数据库时发现无法登录，连接超时，使用 obd cluster stop obclus后再 obd cluster start obclus时会卡在Initialize cluster。
参考其他人的发现说clog满了，clog这里设置了50G 查看确实满了

可是对于clog的相关操作都是登录ob节点，这边都无法登录，通过（./bin/observer -r 127.0.0.1:2882:2881 -p 2881 -P 2882 -z zone1 -n obcluster -c 1 -d /mds/data -i lo -l INFO -o __min_full_resource_pool_memory=2147483648,memory_limit=6G,system_memory=1G,datafile_size=30G,log_disk_size=50G,log_disk_utilization_threshold=95,log_disk_utilization_limit_threshold=98,cpu_count=16,enable_syslog_wf=False,enable_syslog_recycle=True,max_syslog_file_count=4）这种方式启动，又无法连接，连接显示密码错误，这该如何解决呢？后续如何避免这个问题呢？
【复现路径】问题出现前后相关操作
observer.zip (9.1 MB)

zmix · 2024 年8 月 5 日 10:59

连接密码报错。确定密码没问题吗，

AntTech_7DG9Y0 · 2024 年8 月 5 日 11:08

对的，上周还能正常登录的，这次登录发现登录不了。我这个是单机部署的，有啥重置密码的方法么？我再重置下也可以

zmix · 2024 年8 月 5 日 11:17

好像没有

旭辉 · 2024 年8 月 5 日 11:33

clog盘设置太小，可以通过指定初始化参数方式启动observer ./bin/observer -r，扩大log_disk_size，
observer sys租户root密码忘记，如果部署了ocp可以在ocp中修改，目前不支持其它找回方式，
后续建议使用ocp运维管理oceanbase，配置告警，像clog目录告警等基本告警可以及时发现处理，另外clog和数据盘分开。

旭辉 · 2024 年8 月 5 日 12:30

可参考下这个帖子
clog回收机制是什么？clog盘满如何应急处理？ clog盘满问题后续如何排查？habocd_gaMTIwMjU5NTAzNC4xNzE0OTc1MTY1_ga_T35KTM57DZ*MTcyMjgyMTQ0MC4xMDYuMS4xNzIyODI4OTcxLjcuMC4w

AntTech_7DG9Y0 · 2024 年8 月 5 日 14:33

这个-r是指我描述中的log_disk_size=50G这个参数加大么？

旭辉 · 2024 年8 月 5 日 14:58

你本地clog空间是多少？如果不足需要扩容下

AntTech_7DG9Y0 · 2024 年8 月 5 日 15:09

我本地磁盘是300G的，设置是50G

旭辉 · 2024 年8 月 5 日 16:29

可以调大至100GB

AntTech_7DG9Y0 · 2024 年8 月 5 日 16:43

我现在调整到100G，但是obd cluster start obclus --wop 这样启动还是会卡在Initialize cluster，

辞霜 · 2024 年8 月 5 日 17:41

你参数修改方式是通过obd修改的么，把数据库改成和obd的yaml文件参数一致，再用obd修改

旭辉 · 2024 年8 月 5 日 18:30

使用/bin/observer -r 方式启动指定log_disk_size=100G

AntTech_7DG9Y0 · 2024 年8 月 6 日 10:10

obd cluster edit-config obclus 是这样修改么？
我用这个修改方式修改后还是会卡在Initialize cluster那里

辞霜 · 2024 年8 月 6 日 10:16

麻烦再提供一份最新的启动ob期间的日志看看

AntTech_7DG9Y0 · 2024 年8 月 6 日 10:26

observer.zip (2.9 MB)

辞霜 · 2024 年8 月 6 日 10:40

–wop去掉试试呢，wop是without parameters

AntTech_7DG9Y0 · 2024 年8 月 6 日 10:50

我这个ob所在的节点负载有点大的，连接的程序都报超时，后来登录都登录不上，这才停止再启动导致现在这个样子了，之前是不带–wop启动，然后看到提示1005，按照官方说的是加上，后面我就一直加上这个参数启动了，现在不加这个参数还是卡在Initialize cluster

AntTech_7DG9Y0 · 2024 年8 月 6 日 10:53

诶这会启动成功了谢谢大哥

辞霜 · 2024 年8 月 6 日 10:54

clog disk space is almost full 看一下日志是不是还是这个报错。
提供下集群的yaml文件，df -h节点环境 free -g内存大小