ob数据库突然掉线

王利博 · 2024 年5 月 7 日 18:17

有掉线时间段得observer.log日志嘛上面那个就是嘛？

桃纭 · 2024 年5 月 7 日 18:24

是的

桃纭 · 2024 年5 月 7 日 18:43

error.log (64.0 KB)
这个是错误日志

桃纭 · 2024 年5 月 7 日 19:01

大佬，这个是数据库宿主机的配置

桃纭 · 2024 年5 月 7 日 19:03

May 4 05:23:52 aqjg-15 audit[37130]: ANOM_ABEND auid=0 uid=0 gid=0 ses=72985 pid=37130 comm=“T1_TNT_L0_G0” exe="/root/.obd/repository/oceanbase-ce/4.0.0.0/e1c71a4cb252e51f210aae129cee0f09613d42bb/bin/observer" sig=11 res=1
May 4 05:23:52 aqjg-15 systemd[1]: Started Process Core Dump (PID 1926453/UID 0).
May 4 05:23:52 aqjg-15 audit[1]: SERVICE_START pid=1 uid=0 auid=4294967295 ses=4294967295 msg=‘unit=systemd-coredump@4-1926453-0 comm=“systemd” exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success’
May 4 05:23:57 aqjg-15 systemd-coredump[1926454]: Core file was truncated to 2147483648 bytes.
May 4 05:24:07 aqjg-15 systemd-coredump[1926454]: Process 37130 (observer) of user 0 dumped core.#012#012Stack trace of thread 37683:#012#0 0x000014ff202677cb n/a (n/a)
May 4 05:24:09 aqjg-15 systemd[1]: systemd-coredump@4-1926453-0.service: Succeeded.
May 4 05:24:09 aqjg-15 audit[1]: SERVICE_STOP pid=1 uid=0 auid=4294967295 ses=4294967295 msg=‘unit=systemd-coredump@4-1926453-0 comm=“systemd” exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success’
May 4 05:24:09 aqjg-15 systemd[1]: session-72985.scope: Succeeded.
May 4 05:24:09 aqjg-15 systemd-logind[2615]: Removed session 72985.
May 4 05:24:41 aqjg-15 qemu-ga[2002]: info: guest-exec called: “vmstat 1 2”
这个是ob数据库掉线的时候，操作系统的日志

桃纭 · 2024 年5 月 7 日 19:11

mini-local-example.txt (2.0 KB)
这个是数据库的配置文件

王利博 · 2024 年5 月 7 日 19:46

王利博 · 2024 年5 月 7 日 19:48

看日志像是网络问题。可以先通过obdiag巡检一下看看，

obdiag check 巡检
obdiag analyze log 日志分析
obdiag gather scene run --scene=observer.unknown 未知问题信息采集回来

obdiag文档：OceanBase分布式数据库-海量数据笔笔算数1

把巡检结果和日志分析结果先发出来，定位不了再把3收集的信息发出来

桃纭 · 2024 年5 月 8 日 11:10

好的，谢谢。可能要等我们同事再一次去生产现场才可以拿到问题信息

桃纭 · 2024 年5 月 9 日 11:49

obdiag check 巡检.txt (27.1 KB)
你好，这个是obdiag check 巡检的结果

桃纭 · 2024 年5 月 9 日 11:57

result_details .txt (1.5 MB)
这个是obdiag analyze log 日志分析的结果

王利博 · 2024 年5 月 9 日 15:14

桃纭 · 2024 年5 月 9 日 16:00

看错误码这样还是有一些不太清除吧

桃纭 · 2024 年5 月 9 日 16:37

obdiag gather scene run --scene=observer.unknown 未知问题信息采集回来
这个是不是需要observer.log日志支持，如果清掉了是不是就会检测不出来这一天的情况

王利博 · 2024 年5 月 9 日 16:51

使用的什么方式部署的呢
obd 还是ocp

桃纭 · 2024 年5 月 9 日 16:54

OBD

秃蛙 · 2024 年5 月 9 日 17:01

以上日志的报错是进程异常退出了，应该会产生core文件的，可以看下安装目录下是否有core开头的大文件，或者grep “kernel.core_pattern” /etc/sysctl.conf 看下是否有配置core路径。
这个问题没法单纯看observer.log日志确认问题原因，如果有core文件对排查帮助比较大。如果没有的话，暂时无法定位出来。可以设置下core路径，后续复现后第一时间保留core文件和宕机前后的observer日志文件。

桃纭 · 2024 年5 月 9 日 17:18

大佬，有没有相关文档提供，看样子没有配置

王利博 · 2024 年5 月 9 日 17:24

core

桃纭 · 2024 年5 月 9 日 17:46

谢谢，看来要等复现了，以前没有配置core日志