oceanbase假死

【 使用环境 】测试环境
【 OB 】
【 使用版本 】
【问题描述】北京: ob单机版本部署,在整点执行报表模块的时候,出现了observer假死(执行任何sql都显示timeout,例如show database;),请教提供排查思路,以及可能性。
【复现路径】obd cluster display obtest
Get local repositories and plugins ok
Open ssh connection ok
Connect to observer x
[ERROR] OBD-1006: Failed to connect to oceanbase-ce
See https://www.oceanbase.com/product/ob-deployer/error-codes .
Trace ID: a38e5c54-5d78-11f0-b17a-9827825013dc
If you want to view detailed obd logs, please run: obd display-trace a38e5c54-5d78-11f0-b17a-9827825013dc
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

针对您描述的情况,推荐使用 obdiag 工具进行日志采集,以便进一步分析问题。从您的描述来看,这个问题可能是由于多种原因导致的,包括但不限于资源争用、系统负载过高、特定SQL语句执行时间过长等。

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

此外,考虑到问题是出现在整点执行报表模块时,这很可能与特定的SQL语句或系统负载有关。因此,我们也需要收集这段时间内的长事务信息。

日志采集场景: 长事务
日志采集命令: obdiag gather scene run --scene=observer.long_transaction

请您按照上述命令收集相关日志,并将收集到的日志压缩包提供给我们,以便于我们进一步分析问题。

为了更好地帮助您定位问题,请您提供以下信息:

  1. 在出现问题的时间段内,是否有大规模的数据导入或导出操作?
  2. 报表模块执行的具体SQL语句是什么?是否可以提供执行该SQL前后的系统负载情况?
  3. 系统的硬件配置如何?例如CPU、内存、存储等信息。
  4. 是否可以查看并提供系统日志,尤其是关于资源使用率(如CPU、内存、磁盘I/O等)的日志信息?
  5. 该测试环境是否仅用于测试,还是也承载了一部分生产任务?如果是后者,那么是否有定时的任务会影响到系统的性能?

希望以上信息能够帮助我们更快地找到问题所在。期待您的回复。

附上敏捷诊断工具 obdiag 使用帮助链接

单机版本应该是要联系官方支持了,社区应该很少这个版本的案例问题

看着应该是社区版的单节点,麻烦提供一份observe日志,ob启动失败需要看下ob的日志
~/obtest/oceanbase/log