【 使用环境 】测试环境
【 OB or 其他组件 】OB、OCP-Express
【 使用版本 】4.2.1.3
【问题描述】
1、共2台虚拟机,通过OBD白屏安装的方式,在1号机上安装了OBProxy + OCP-Express,在2号机上安装了observer+obagent
2、集群正常运行,且已经增大了ocp租户的全局配置项ob_query_timeout为100秒
3、1号机reboot,启动后,执行“obd cluster restart 集群名称”,ocp-express启动失败,日志显示
4、虽然ocp-express启动失败,但是observer和obproxy正常,且应用可正常连接数据库
5、尝试单独重启ocp-exrepss,执行“obd cluster restart <集群名称> -c ocp-express”,依然启动失败
6、stop 集群,再start集群,可以启动成功;或者在集群成功启动但ocp-express失败的情况下,单独stop ocp-express 在 start ocp-exrepss,则ocp-express启动成功
7、为啥?
ocp-express.log (782.5 KB)
看日志里的报错应该是通过 obproxy 去连接 metadb 连不上
5 和 6 中单独启动 ocp-express 有什么区别呢
具体重启的时间点是什么时候
obd 的log在 ~/.obd/log/obd 这个文件,可以发一下
刚才重新试了一遍:
15:53:50重启服务器
系统引导 2024-01-12 15:55
15:59:18左右执行 obd cluster restart fvob
16:00:38左右重启完成,ocp-express启动失败,数据库和obproxy、obagent正常
从开始执行restart到重启完成的obd日志如下:
obd.log (142.9 KB)
重新测试了一下,当执行“obd cluster restart 集群名称”后,ocp-express执行失败,之后执行 “obd cluster restart 集群名称 -c ocp-express”,ocp-express依然启动失败;但是先“obd cluster stop 集群名称 -c ocp-express”后,再“obd cluster start 集群名称 -c ocp-express”,则ocp-express启动成功
※ 先 stop 再 start ocp-express,启动成功
※ restart ocp-express,启动失败
可以吧 ocp-express 和 obd 的日志都发一下吗
目前日志里看到的只是启动之后检查进程失败,可以手动执行下这个命令试试看有什么报错
obd.log (142.9 KB)
ocp-express.log (478.1 KB)
这两个日志,是一次reboot后,执行 obd cluster restart 后的obd和ocp-express日志,且ocp-express启动失败
restart 是不是 ob 和 obproxy 也一起重启了
看日志里这个报错应该是 OB 目前还不能提供服务,然后 ocp-express 就启动失败了
obd cluster restart 集群,这样的命令,observer不会stop吗?
但是我先执行restart 集群,发现ocp-express启动失败后,我又单独restart了ocp-express,依然启动失败;restart 集群后,数据库和obproxy是正常提供服务的
restart 的时候看输出就只是在重启 ocp-express 吗
是通过连接上集群来验证的是否正常提供服务吗,还是看 obd 输出的
reboot后:
1、首先 <obd cluster restart 集群>,发现 ocp-express 启动失败,但其余组件和数据库启动成功
2、之后,<obd cluster restart 集群 -c ocp-express>,发现 ocp-express 依然启动失败
3、最后,<obd cluster stop 集群 -c ocp-express>,再 <obd cluster start 集群 -c ocp-express>,ocp-express 启动成功
王利博
#16
reboot重启机器后。再执行restart命令后。ocp-express 可以登录麻?
直接 restart 集群后,ocp-express 启动失败,无法登录
渠磊
#18
怀疑可能是启动ocp-express的时候ob集群并未能提供完整服务,但是又与上面提到的场景2有冲突。场景2中的observer进行是否有被stop?麻烦看下observer进程的启动时间是否被重置
渠磊
#19
定位为一个内部的bug,启动命令里多了一个空格导致启动失败, stop 状态 时执行restart时,会先start 然后stop再 start . 2次start 会 set 环境变量2次。
将会在下个版本修复