部署集群后节点observer进程相继中断,使用obdiag check提示如下,这是什么问题导致的?

怎样才能保证磁盘没问题? 节点1已经是更换过一次了,之前使用OCP部署集群的时候有个IO问题,当时是把节点1更换成了现在这个

1 个赞

我也想知道

一些年久老旧的磁盘会经常有问题,建议经常做下巡检,关注相关告警,及时替换有问题的磁盘,另外建议使用SSD盘。

有什么性能标准要求吗?现在就是SSD盘

SSD盘就可以的

高技术含量

这个问题有进展了吗?

提供一个排查方法:目前看来节点3是没有问题的,3个节点你可以分别独立部署,验证下是否每个节点都能部署并运行成功;然后分别1和3,2和3部署 看下是否都能部署成功,这样一步步排除问题

今天刚部署了2和3一起,报的错和之前3节点的一样,节点2被加入了黑名单;
刚才又只部署了节点3,运行了一会也挂掉了,日志麻烦您看下
observer.7z (4.8 MB)

麻烦确认下
1.操作系统类型及版本
2.你说的挂掉是observer进程不在了吗?ps -ef|grep observer
3.发下节点3单独部署的yaml文件

1、centos7.9 32c 128G 500GSSD
2、
image
3、
config.zip (525 字节)

image
挂掉了,我是从obd命令看的

在分析中

1.麻烦参考这两篇文档配置下core参数及路径,然后再将昨天单独部署的节点3启动下,应该会有core文件出来

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000001576682

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000001576680

2.lscpu 看下

1、两篇文档中的内容都配置过了,然后下图标注的地方没有改,data目录是指store这个目录吗?
image
2、

是的,由于没有配置data_dir,默认就在home_path下store目录

好的 我修改下路径进行启动看看,您说的core文件出来,是从哪里看

目前已分析出原因:
当前使用的cpu不支持avx指令,OB内核用到了avx指令

解决方案:
更换支持AVX指令的CPU型号,如果后续还有其它问题麻烦在这里回复,咱们继续排查

应该是cpu不支持avx指令集引发了异常core,可以换个支持avx指令集的服务器部署下。

收到 多谢老师,我们尝试更换试下

非常感谢老师指导,我们尝试更换试下