ocp部署运行了几个月了,莫名的服务挂了,无法访问

【 使用环境 】生产环境
【 OB or 其他组件 】ocp
【 使用版本 】4.0
【问题描述】
ocp已经部署两三个月了,一直运行很稳定,昨天发现无法访问,ob服务没有影响,ocp的web界面无法访问,求老师帮处理下

rootservice.log.wf.zip (29.1 KB)
rootservice.log.zip (7.8 MB)
observer.log.zip (2.5 MB)
observer.log.20230216080436.7z (9.2 MB)
observer.log.wf.20230216080436.zip (1.3 MB)

先确认下元数据库是否正常,你说的OB服务没有影响,是OCP的元数据库正常,还是OCP接管的OB集群没有影响。
如果元数据库正常,那就重新启动下OCP的docker。

如何确认ocp的元数据库没问题那?是登录查看下吗?
我说的ob服务没有影响,应该是接管的ob集群没问题

登录查看下,能正常登录查看和写入,就没有问题

docker重启ocp,是不会影响原ob的集群的吧?我们这个是正式环境

不会影响,ocp的docker是个无状态的服务。

老师,重启是好使了。我们这个原因能帮分析下吗?

需要进入到ocp的docker里,看下ocp的日志

dockerLog.txt (35.8 KB)

是exec进入看下logs里面的日志吗?

是的,看ocp的日志

老师,需要那几个日志?我们日志有点多啊

你可以先grep ERROR大概看下,看不懂了再发出来

老师,grep error,日志太多了。能再具体点的搜索吗?
error.log-.zip (2.0 MB)