OceanBase企业版新建集群时bootstrap 10分钟超时报错

【产品名称】OceanBase企业版 OCP 3.1.1

【产品版本】oceanbase-2.2.77-20210825181323.el7.x86_64

【问题描述】4台主机 每台8CPU,128GB内存,/、/data/1,/data/log1目录都是200GB

新建集群在bootstrap时,10分钟后超时。截图和日志如下:

此时手工mysql能够登录,操作如下:

1.确认时区正常,这4台主机都是虚拟机,时区当然正常

2.确认空间正常,/、/data/1和/data/log1目录都是200GB

3.确认权限正常,都是ob安装过程自动配置的,没有改过。

没有时差,还专门做了ntpdate,空间也充足:

看着最后错误是java.lang.thread,换了淘宝的java: AlibabaDragonwell8.8.8x64linux.tar

还是没有用。

是严格按照安装步骤一步步进行的: https://www.oceanbase.com/docs/oceanbase-database/oceanbase-database/V3.1.2/deployment-introduction

bootstrap 失败原因是ob常见问题。通常多出在环境上。

常见原因有:

  • 三节点 时间不同步。使用 clockdiff 命令互相测试,一共6种。
  • 相关目录权限或大小设置不对。/data/log1 空间利用率最终不能达到 95%
  • 各个进程启动参数不对。通过 OCP 安装的没有这个问题。

以前也总结过详细,请查看: https://mp.weixin.qq.com/s/uoHUd40VzIn5MISbESoA  

建议用 ntpdate 同步时间后,清理完/data/1 /data/log1 目录,确认下端口均未被占用后再 bootstrap 试一下

https://mp.weixin.qq.com/s/uoHUd40VzIn5MISbESoA   打不开

时差肯定小于100ms,启用了chronyd,可以看到每几秒钟就矫正时间,绝对小于100ms

/data/log1和/data/1目录肯定没问题,现在正在等超时,目录下只有正在新建的cluster子目录(该cluster名每次都用新的)


三台主机的2881,2882都没有使用;然后新建集群时就被observer使用了。mysql能够通过2881端口登录。

判断三节点时间误差的方法是:

在源端机器a 上 clockdiff 目标机器b ip

[root@obce-0000 ~]# clockdiff 172.20.249.49
.
host=172.20.249.49 rtt=750(187)ms/0ms delta=0ms/0ms Sat Sep 18 16:39:37 2021


如果确定各项配置没有问题,可以在部署失败后,尝试重新创建集群,详情参考:

0065.O OCP创建OceanBase集群报错Do IO Bench处理记录

https://mp.weixin.qq.com/s/h2ndxoudRHHvrrp4TahHow

OceanBase 2.2 安装部署问题解答 (qq.com)    点这个看看。