【 使用环境 】生产环境
【 OB or 其他组件 】observer
【 使用版本 】oceanbase-all-in-one-4.3.0.1
【问题描述】通过官网的快速上手的教程使用obd 白屏部署成功部署了集群,部署完当时也能连上主节点的2881端口,但是今天再连就连不上了,没人动这个环境。集群是16核,32G的三台离线局域网服务器
【复现路径】尝试重启,就卡在observer restart了。stop再start集群,倒是成功启动了。可是observer的CPU基本都在200%~400%之间。ob-express也登录不进去,2883端口倒是可以登录但是没有任何反应。
【附件及日志】日志:
logs.tar.gz (232.7 KB)
推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
谐云
#3
提供一下日志。
obd log在 ~/.obd/log/
ob 的日志: 在ob的安装目录 里面有log
另外你部署配置也需要提供一下,看看是不是资源你给的太低
王利博
#4
重启的话建议用stop/start 如果使用restart的话会先stop再start 所以可以直接使用stop和start来进行重启。
重启后如果cpu高, 可以看下per top -p cpu这么高 - #5,来自 近墨者 进行查看。
obexpress登陆不进去提示什么
obexpress没有任何提示,登录那个按钮一直在转圈,刷新页面再点击,就是提示当前用户没有登录或登录出错了,请登陆后重试
王利博
#6
根据上面提供下日志。和obd cluster list && obd cluster display name
logs.tar.gz (232.7 KB)
集群三个设备都是配置16核,32G内存,400G硬盘,
谐云
#8
看obd 的log 是正常启动状态。这得分析ob 的日志了。现在ob 是连上没反应吗?
现在2个方案:
1.根据ob 的日志去排查问题
2.如果这是刚部署完的集群 可以直接obd cluster redeploy xxx 这会重新部署一套新的ob