老师您好,我们的OceanBase集群最近两天出现了两次集群宕机的情况,请麻烦协助我们分析宕机的原因呢
怎么个协助法
需要老师帮我们看看应用日志,看能否找到原因
1、看看是否有core文件生成
sysctl -a | grep pattern
输出结果如下:
kernel.core_pattern = /data/core-%e-%p-%t
2、在 observer 原进程所在的用户下执行 ulimit -c
3、提供一下宕机下所有节点的observer.log日志
4、lscpu | grep avx
宕机 先按照我发的排查一下 ocp也可以看看是否 日志查询 observer.log
近 10min 中内是否包含 “CRASH ERROR” 关键字日志。
老师您好,有core文件生成,下面是对应节点的截图和日志文件,今天下午1点22之前也出现了集群宕机的问题,我取了最近半小时的日志,明显在10.10.100.15节点上的日志是其他两个节点日志好几倍,感觉路由没有将压力分摊到不同的节点上呢,15机器的压力最大
14节点:
10.10.100.14节点.rar (17.7 MB)
15节点:
10.10.100.15节点-2.rar (29.2 MB)
10.10.100.15节点-1.rar (29.1 MB)
10.10.100.15节点-3.rar (23.3 MB)
16节点:
10.10.100.16节点.rar (15.3 MB)
缺少avx指令集导致的 ob集群依赖avx指令集
老师您好,应该如何处理呢
就在刚才,集群又出现宕机了,我们需要如何处理呢
已查看CPU支持avx指令集,
系统版本为:
系统版本: CentOS Linux 7 (Core)
Linux版本: 3.10.0-1160.71.1.el7.x86_64
我已验证这个版本的操作系统,也是支持AVX指令集的
具体是需要做什么设置才能使用AVX指令集吗
avx指令集 包括 avx avx2 avx512 不是只有avx 需要cpu支持这些指令集 你们可以问问厂商是否支持
老师您好,您是说因为缺失AVX指令集,导致的我们的集群压力没有路由到不同的sever节点,导致的节点负载过高,然后出现的集群宕机是吗
缺少avx指令集 ob集群就会出现问题
好的,我已经在问服务器厂商了,等他们回复
老师您好,我和服务器厂商沟通了,不支持avx512 指令集,只能支持AVX 和AVX 2.0,是否有解决办法呢
换个低版本吧~4.2.2.1
您好,4.2.2.1这个版本的集群,不依赖CPU的型号吗,我们目前的CPU型号是2683v4,不支持avx512 指令集,只能支持AVX 和AVX 2.0
我用这个的版本,是不需要avx的,可以试试~