服务器经常停止响应,怎么办?

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】4.2.1.8
【问题描述】1-1-1集群,集群服务器使用机械盘,服务器常常停止响应,必须要强制重新启动操作系统后才能恢复,请问可能是什么原因?从哪些方面排查?

从日志开始排查

1 个赞

没思路的时候巡检就是最好的思路,obdiag check run
https://www.oceanbase.com/docs/common-obdiag-cn-1000000002968718

1 个赞

服务层面看,是某一台服务器会停止响应吗,先看ocp有没有关于硬件上的告警,其次看下集群资源消耗和负载情况,异常的服务器是否是leader节点
服务器层面看,分析下是不是存在磁盘hung,或者系统进程异常

1 个赞