OBServer 非预期的内部错误

【 使用环境 】生产环境
【 OB or 其他组件 】 OB
【 使用版本 】 4.2.5.1
【问题描述】
告警概述:alarm_template_id=0:ob_cluster=admin-1734054671:host=10.188.XX.XX OBServer 非预期的内部错误
告警详情:[OBServer 非预期的内部错误] 集群:admin,主机:10.188.XX.XX,日志类型:observer,日志文件:/home/admin/oceanbase/log/observer.log,日志级别:ERROR,关键字=Unexpected internal error happen,错误码=4388,日志详情=[2025-03-27 00:19:13.986681] ERROR issue_dba_error (ob_log.cpp:1866) [1600][T1004_SSTableDe][T1004][Y0-0000000000000000-0-0] [lt=7][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4392, file=“ob_shared_macro_block_manager.cpp”, line_no=490, info=“defragmentation can’t be finished, something is wrong”)。

使用下obdiag做一些集群巡检
在线分析日志,诊断出出现过的错误

obdiag analyze log --from “2025-03-27 00:09:00” --to “2025-03-27 00:20:00”

1 个赞
  • 4388 加上 - 4392出现感觉像是磁盘问题导致的微块数据异常了,用诊断工具obdiag 再分析一把这个报警时间前10分钟左右的日志看看
obdiag analyze log --from "2025-03-27 00:09:00" --to "2025-03-27 00:20:00" \
  --config obcluster.servers.nodes[0].ip=xx.xx.xx.1 \
  --config obcluster.servers.nodes[1].ip=xx.xx.xx.xx.2 \
  --config obcluster.servers.global.ssh_username=test \
  --config obcluster.servers.global.ssh_password=****** \
  --config obcluster.servers.global.home_path=/home/admin/oceanbase

obdiag文档:https://www.oceanbase.com/docs/common-obdiag-cn-1000000002488226

1 个赞

从发布的信息来看,应该看不出问题方向

这个错误是部署ocp上的observer出现的错误。尝试用diag分析,却无输出。

[admin@tob_ocp log]$ grep “20:59:01.448647” observer.log.20250330210358215
[2025-03-30 20:59:01.448647] ERROR issue_dba_error (ob_log.cpp:1866) [1815][T1005_SSTableDe][T1005][Y0-0000000000000000-0-0] [lt=11][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4392, file=“ob_shared_macro_block_manager.cpp”, line_no=490, info=“defragmentation can’t be finished, something is wrong”)
[admin@tob_ocp log]$
[admin@tob_ocp log]$
[admin@tob_ocp log]$
[admin@tob_ocp log]$ obdiag analyze log --files observer.log.20250330210358215
obdiag version: 3.2.0
analyze_log_offline start …
analyze nodes’s log start. Please wait a moment…
analyze start ok

FileListInfo:
±----------±-----------------------------------+
| Node | LogList |
+===========+====================================+
| 127.0.0.1 | [‘observer.log.20250330210358215’] |
±----------±-----------------------------------+

Analyze OceanBase Offline Log Summary:

±----------±---------±-----------±-------------------±------------±----------±--------+
| Node | Status | FileName | First Found Time | ErrorCode | Message | Count |
+===========+==========+============+====================+=============+===========+=========+
| 127.0.0.1 | PASS | | | | | |
±----------±---------±-----------±-------------------±------------±----------±--------+
For more details, please run cmd ’ cat /home/admin/oceanbase/log/obdiag_analyze_pack_20250331100919/result_details.txt ’

Trace ID: 280711fe-0dd5-11f0-b35c-548028527160
If you want to view detailed obdiag logs, please run: obdiag display-trace 280711fe-0dd5-11f0-b35c-548028527160
[admin@tob_ocp log]$ cat /home/admin/oceanbase/log/obdiag_analyze_pack_20250331100919/result_details.txt

Analyze OceanBase Offline Log Summary:
±----------±---------±-----------±-------------------±------------±----------±--------+
| Node | Status | FileName | First Found Time | ErrorCode | Message | Count |
+===========+==========+============+====================+=============+===========+=========+
| 127.0.0.1 | PASS | | | | | |
±----------±---------±-----------±-------------------±------------±----------±--------+

Details:

Node: 127.0.0.1
Status: PASS
FileName: None
First Found Time: None
ErrorCode: None
Message: None
Count: None
Last Found Time: None
Cause: None
Solution: None
Trace_IDS: None

[admin@tob_ocp log]$

errcode=-4392这个应该是个磁盘故障问题,当前告警是否仍在持续中

每天都有在报错,从操作系统层面并没有发现磁盘问题。
另外, obdiag analyze log --files observer.log.20250330210358215 这个命令没有分析在文件中存在ERROR错误,是哪里没有配置正确吗?

这里显示ip为127.0.0.1。你的集群ip为host=10.188.XX.XX。是不是调用错了