OceanBase集群宕机

老师您好,我们的OceanBase集群最近两天出现了两次集群宕机的情况,请麻烦协助我们分析宕机的原因呢

1 个赞

怎么个协助法 :joy:

2 个赞

需要老师帮我们看看应用日志,看能否找到原因

1 个赞

用obdiag 诊断工具分析一下日志先,https://www.oceanbase.com/docs/common-obdiag-cn-1000000002821497

1 个赞

1、看看是否有core文件生成
sysctl -a | grep pattern
输出结果如下:

kernel.core_pattern = /data/core-%e-%p-%t

2、在 observer 原进程所在的用户下执行 ulimit -c
3、提供一下宕机下所有节点的observer.log日志
4、lscpu | grep avx

2 个赞

老师您好,我这个10.10.100.15节点,CPU为什么会超频这么多呢,最高达到1600%,另外,OB是否可以设置并行线程参数呢

1 个赞

宕机 先按照我发的排查一下 ocp也可以看看是否 日志查询 observer.log 近 10min 中内是否包含 “CRASH ERROR” 关键字日志。

1 个赞

老师您好,有core文件生成,下面是对应节点的截图和日志文件,今天下午1点22之前也出现了集群宕机的问题,我取了最近半小时的日志,明显在10.10.100.15节点上的日志是其他两个节点日志好几倍,感觉路由没有将压力分摊到不同的节点上呢,15机器的压力最大

14节点:


10.10.100.14节点.rar (17.7 MB)

15节点:


10.10.100.15节点-2.rar (29.2 MB)
10.10.100.15节点-1.rar (29.1 MB)
10.10.100.15节点-3.rar (23.3 MB)

16节点:


10.10.100.16节点.rar (15.3 MB)

1 个赞

缺少avx指令集导致的 ob集群依赖avx指令集

2 个赞

老师您好,应该如何处理呢

1 个赞

就在刚才,集群又出现宕机了,我们需要如何处理呢

2 个赞

已查看CPU支持avx指令集,

系统版本为:
系统版本: CentOS Linux 7 (Core)
Linux版本: 3.10.0-1160.71.1.el7.x86_64

我已验证这个版本的操作系统,也是支持AVX指令集的

具体是需要做什么设置才能使用AVX指令集吗

avx指令集 包括 avx avx2 avx512 不是只有avx 需要cpu支持这些指令集 你们可以问问厂商是否支持

1 个赞

老师您好,您是说因为缺失AVX指令集,导致的我们的集群压力没有路由到不同的sever节点,导致的节点负载过高,然后出现的集群宕机是吗

缺少avx指令集 ob集群就会出现问题

1 个赞

好的,我已经在问服务器厂商了,等他们回复

1 个赞

老师您好,我和服务器厂商沟通了,不支持avx512 指令集,只能支持AVX 和AVX 2.0,是否有解决办法呢

1 个赞

换个低版本吧~4.2.2.1

1 个赞

您好,4.2.2.1这个版本的集群,不依赖CPU的型号吗,我们目前的CPU型号是2683v4,不支持avx512 指令集,只能支持AVX 和AVX 2.0

我用这个的版本,是不需要avx的,可以试试~