OCP-Express奇怪的启动失败问题

【 使用环境 】测试环境
【 OB or 其他组件 】OB、OCP-Express
【 使用版本 】4.2.1.3
【问题描述】

1、共2台虚拟机,通过OBD白屏安装的方式,在1号机上安装了OBProxy + OCP-Express,在2号机上安装了observer+obagent

2、集群正常运行,且已经增大了ocp租户的全局配置项ob_query_timeout为100秒

3、1号机reboot,启动后,执行“obd cluster restart 集群名称”,ocp-express启动失败,日志显示

4、虽然ocp-express启动失败,但是observer和obproxy正常,且应用可正常连接数据库

5、尝试单独重启ocp-exrepss,执行“obd cluster restart <集群名称> -c ocp-express”,依然启动失败

6、stop 集群,再start集群,可以启动成功;或者在集群成功启动但ocp-express失败的情况下,单独stop ocp-express 在 start ocp-exrepss,则ocp-express启动成功

7、为啥?

ocp-express.log (782.5 KB)

看日志里的报错应该是通过 obproxy 去连接 metadb 连不上
5 和 6 中单独启动 ocp-express 有什么区别呢
具体重启的时间点是什么时候
obd 的log在 ~/.obd/log/obd 这个文件,可以发一下

刚才重新试了一遍:

15:53:50重启服务器

系统引导 2024-01-12 15:55

15:59:18左右执行 obd cluster restart fvob

16:00:38左右重启完成,ocp-express启动失败,数据库和obproxy、obagent正常

从开始执行restart到重启完成的obd日志如下:

obd.log (142.9 KB)

重新测试了一下,当执行“obd cluster restart 集群名称”后,ocp-express执行失败,之后执行 “obd cluster restart 集群名称 -c ocp-express”,ocp-express依然启动失败;但是先“obd cluster stop 集群名称 -c ocp-express”后,再“obd cluster start 集群名称 -c ocp-express”,则ocp-express启动成功

※ 先 stop 再 start ocp-express,启动成功

※ restart ocp-express,启动失败

可以吧 ocp-express 和 obd 的日志都发一下吗


目前日志里看到的只是启动之后检查进程失败,可以手动执行下这个命令试试看有什么报错

obd.log (142.9 KB)

ocp-express.log (478.1 KB)

这两个日志,是一次reboot后,执行 obd cluster restart 后的obd和ocp-express日志,且ocp-express启动失败

restart 是不是 ob 和 obproxy 也一起重启了


看日志里这个报错应该是 OB 目前还不能提供服务,然后 ocp-express 就启动失败了

obd cluster restart 集群,这样的命令,observer不会stop吗?

但是我先执行restart 集群,发现ocp-express启动失败后,我又单独restart了ocp-express,依然启动失败;restart 集群后,数据库和obproxy是正常提供服务的

restart 的时候看输出就只是在重启 ocp-express 吗
是通过连接上集群来验证的是否正常提供服务吗,还是看 obd 输出的

reboot后:

1、首先 <obd cluster restart 集群>,发现 ocp-express 启动失败,但其余组件和数据库启动成功

2、之后,<obd cluster restart 集群 -c ocp-express>,发现 ocp-express 依然启动失败

3、最后,<obd cluster stop 集群 -c ocp-express>,再 <obd cluster start 集群 -c ocp-express>,ocp-express 启动成功

reboot重启机器后。再执行restart命令后。ocp-express 可以登录麻?

直接 restart 集群后,ocp-express 启动失败,无法登录

怀疑可能是启动ocp-express的时候ob集群并未能提供完整服务,但是又与上面提到的场景2有冲突。场景2中的observer进行是否有被stop?麻烦看下observer进程的启动时间是否被重置

定位为一个内部的bug,启动命令里多了一个空格导致启动失败, stop 状态 时执行restart时,会先start 然后stop再 start . 2次start 会 set 环境变量2次。
将会在下个版本修复