租户连不上,打算重启一下试试,结果停止后,起不来了

【 使用环境 】生产环境
【 使用版本 】4.2.1.1
【问题描述】租户连不上,打算重启一下试试,结果停止后,起不来了。
整体过程:

  1. 磁盘不足启动提示2003,删除了obproxy下的obproxy.log.xxxxx的日志,然后可以起来了,数据库正常访问
  2. 反馈租户上数据库连不上,打开ocp网页,发现租户页面一直转圈圈卡在这里。
  3. 执行了obd cluster stop myoceanbase,然后执行obd cluster start myoceanbase,则一直起不来了
    【复现路径】
    先执行了obd cluster stop myoceanbase,然后执行obd cluster start myoceanbase
    【附件及日志】
1 个赞

链接被拒,是否使用非ODB修改密码方式修改过密码?
可以 more obserger.log|grep ‘NOTICE’
看一下启动ob的流程在哪里卡住了

1 个赞

密码的话,我去确认下,应该是没有人动的,more obserger.log|grep ‘NOTICE’查不到,修改用more observer.log|grep ‘NOTICE’依然查不到。
打开observer.log日志文件发现有这样的error

可以提供一份observer日志附件么

这个是昨天运行的observer.log日志
observer.zip (5.6 MB)

log_disk_base_path="/usr/local/ewell/myoceanbase/oceanbase/store/clog"
你的clog文件是不是被删了,报错意思应该跟文件或文件路径异常有关

我对比了下其他正常运作的环境,clog/log_pool目录下 少了个meta的文件,这个是不是就是clog被删除了,导致现在服务起不来了


:sob:数据还能救出来吗,单节点部署的

可能是的,meta文件存在是啥我这边也不太清楚了,你试试复制一份其他集群的过去,如果不行就酒不回来了

这边咨询了一下内核同学,复制一份其他集群的过去的方法不可行。。。
查一下为啥被删除了吧 是否存在误操作,这个文件正常使用是不会被删除的

还是起不来,但是看observer.log好像多了一批输出


这是最新的observer.log日志
observer.zip (5.9 MB)

我们有没有方案在这种情况下导出来数据呀,事务日志不要了,重新部署一下集群,数据能拿回多少就多少呀

昨天早上10点多我将数据库起来了,当时可以正常使用,之后下午反馈租户中数据库连不上了,然后就重启不了了。询问了下,是之后有人要清理磁盘空间,删除了事务日志,具体怎么操作的还在确认,估计是还原不回来了。:sob: