使用OBD白屏部署三节点集群后,集群启动失败。无法启动中控机上的obproxy,且中控机无法连接meta db

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】OB
【 使用版本 】4.1.0
【问题描述】使用OBD白屏部署三节点的集群后,启动集群时中控机器上的obproxy无法启动,且中控机无法连接meta db
【复现路径】问题出现前后相关操作
【问题现象及影响】
影响:
obproxy program health check x
[WARN] failed to start 192.168.1.101 obproxy
[ERROR] obproxy-ce start failed
【附件】
obd.log (2.1 MB)

1 个赞


这是手动启动集群的信息,还望大佬们指点迷津!

1 个赞

No such component: obproxy
你配置文件中组件名字是不是写错了 开源应该是obproxy-ce

我用OBD白屏部署的,没有写配置文件。刚刚我又启动了下集群,发现obproxy可以启动,但ocp-express启动失败了又。这一晚上我也没更改什么啊

1 个赞

把ocp-express启动失败场景下的的日志 ~/.obd/log/obd 发一下

obd_ocp_fail.log (1018.3 KB)
麻烦您帮忙看一下

好像是端口占用和磁盘空间不足的原因。可是新装的系统我就部署了这一个集群啊。虽然前面部署了几次同名的集群,但都销毁了,这种情况下是什么占用了那么多的空间呢?


贴一下 这2个log

bootstrap.log (528.0 KB)
只有这个Log

目前看是ocp租户执行sql时超时了。调整一下超时时间,用ocp的租户登上去,然后 set global ob_query_timeout = 100000000; 然后重新start ocpexpress

我刚刚试了一下,貌似还是不行。看了下日志,还是sql超时的原因。不过log里面的ob_query_timeout貌似不是我设置的值,这是因为我设置错了吗?我用的下面的命令登录后设置的
1680751814650

用ocp的租户登上去执行试试 -umeta@ocp

meta用户的访问被拒绝了

@DaFn 用这个启动参数里的默认密码登录

待会儿我重新部署一下试试。我还有个问题哈,就是用obd destroy销毁集群过后,集群占用的磁盘空间怎么释放啊。我已经销毁了,怕重新部署的话,磁盘空间不足

obd cluster destroy 会清理磁盘目录的 你可以看下你配置文件里面的data 路径和log路径 正常都会被清空的

是清空了的。我在/home/user目录下放的OB根目录以及data和log的目录。但系统的根目录的占用率太高了。这是为啥啊?磁盘挂载在根目录下的。

你找一下磁盘被哪个目录占得多 du -sh * ,另外 在/home/user 目录执行du -sh .obd 看下.obd占了多少

obd 没占你空间啊,下面四个100%的也不是ob占的 。 你的根目录才用2%

上午刚销毁完集群有段时间磁盘空间没被释放,给我急到了,下午这又看走眼了。谢了啊!
(大号被禁言了,这是我新建的小号)
我刚刚试了用ocp租户更改ob_query_timeout的值,但改完启动集群还是同样的错误啊,这是为何。


下面是ocp-express下bootstrap日志里的错误,能再帮忙看一下吗