【 使用环境 】生产环境 部署模式 6-6-6
【 使用版本 】4.3.1.0
【问题描述】ocp告警observer进程不存在,同时告警observer crash
【复现路径】问题出现前正常的使用应用系统,正常的跑ETL调度,批处理数据
【备注说明】一共3个节点进程消失掉线,znoe1域有2个节点,zone3域有1个节点,掉线后应用系统基本卡死状态,用户的查询等操作都出现阻塞卡慢问题。
【附件及日志】
1、observer crash的告警日志信息如下:
告警详情:[OBServer crash] 集群:wjw_hxk,主机:172.22.5.98,日志类型:observer,日志文件:/home/admin/wjw_hxk/oceanbase/log/observer.log,日志级别:INFO,关键字=CRASH ERROR!!!,错误码=-1,日志详情=[2024-08-28 16:43:10.192300] INFO pktc_resp_cb_on_sk_destroy (pktc_resp.h:41) [3257161][pnio1][T0][Y0-0000000000000000-0-0] [lt=5] PNIO resp_cb on sk_destroy: packet_id=1314615971 s=0xfffccc3fe9d8CRASH ERROR!!! IP=ffffffffffffffff, RBP=ffffffffffffffff, sig=11, sig_code=1, sig_addr=0x0, RLIMIT_CORE=unlimited, timestamp=1724834590193795, tid=2954538, tname=T1006_PX_G0, trace_id=YB42AC160575-00061F3DAE3E9B63-0-0, extra_info=(), lbt=, SQL_ID=11DAB0EEA42929F7CB34CF5BFFA3F823, SQL_STRING=INSERT /*+ monitor enable_parallel_dml parallel(1) opt_param(‘ddl_execution_id’, 0) opt_param(‘ddl_task_id’, 729357559) opt_para。
2、observer进程消失的告警分析数据(ocp告警事件下载的),故障节点ip为172.22.5.98/22/17
详情分析数据见附件压缩包:
告警分析数据_14000988.zip (710.1 KB)