ob数据库突然掉线

有掉线时间段得observer.log日志嘛 上面那个就是嘛?

是的

error.log (64.0 KB)
这个是错误日志


大佬,这个是数据库宿主机的配置

May 4 05:23:52 aqjg-15 audit[37130]: ANOM_ABEND auid=0 uid=0 gid=0 ses=72985 pid=37130 comm=“T1_TNT_L0_G0” exe="/root/.obd/repository/oceanbase-ce/4.0.0.0/e1c71a4cb252e51f210aae129cee0f09613d42bb/bin/observer" sig=11 res=1
May 4 05:23:52 aqjg-15 systemd[1]: Started Process Core Dump (PID 1926453/UID 0).
May 4 05:23:52 aqjg-15 audit[1]: SERVICE_START pid=1 uid=0 auid=4294967295 ses=4294967295 msg=‘unit=systemd-coredump@4-1926453-0 comm=“systemd” exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success’
May 4 05:23:57 aqjg-15 systemd-coredump[1926454]: Core file was truncated to 2147483648 bytes.
May 4 05:24:07 aqjg-15 systemd-coredump[1926454]: Process 37130 (observer) of user 0 dumped core.#012#012Stack trace of thread 37683:#012#0 0x000014ff202677cb n/a (n/a)
May 4 05:24:09 aqjg-15 systemd[1]: systemd-coredump@4-1926453-0.service: Succeeded.
May 4 05:24:09 aqjg-15 audit[1]: SERVICE_STOP pid=1 uid=0 auid=4294967295 ses=4294967295 msg=‘unit=systemd-coredump@4-1926453-0 comm=“systemd” exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success’
May 4 05:24:09 aqjg-15 systemd[1]: session-72985.scope: Succeeded.
May 4 05:24:09 aqjg-15 systemd-logind[2615]: Removed session 72985.
May 4 05:24:41 aqjg-15 qemu-ga[2002]: info: guest-exec called: “vmstat 1 2”
这个是ob数据库掉线的时候,操作系统的日志

mini-local-example.txt (2.0 KB)
这个是数据库的配置文件

看日志像是网络问题。可以先通过obdiag巡检一下看看,

  1. obdiag check 巡检
  2. obdiag analyze log 日志分析
  3. obdiag gather scene run --scene=observer.unknown 未知问题信息采集回来

obdiag文档:OceanBase分布式数据库-海量数据 笔笔算数1

把巡检结果和日志分析结果先发出来,定位不了再把3收集的信息发出来

1 个赞

好的,谢谢。可能要等我们同事再一次去生产现场才可以拿到问题信息

obdiag check 巡检.txt (27.1 KB)
你好,这个是obdiag check 巡检的结果

1 个赞

result_details .txt (1.5 MB)
这个是obdiag analyze log 日志分析的结果

1 个赞

看错误码这样还是有一些不太清除吧

obdiag gather scene run --scene=observer.unknown 未知问题信息采集回来
这个是不是需要observer.log日志支持,如果清掉了是不是就会检测不出来这一天的情况

使用的什么方式部署的呢
obd 还是ocp

OBD

以上日志的报错是进程异常退出了,应该会产生core文件的,可以看下安装目录下是否有core开头的大文件,或者grep “kernel.core_pattern” /etc/sysctl.conf 看下是否有配置core路径。
这个问题没法单纯看observer.log日志确认问题原因,如果有core文件对排查帮助比较大。如果没有的话,暂时无法定位出来。可以设置下core路径,后续复现后第一时间保留core文件和宕机前后的observer日志文件。

大佬,有没有相关文档提供,看样子没有配置

core

谢谢,看来要等复现了,以前没有配置core日志