observer突然间数个节点cpu彪高,集群卡顿

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】5.7.25-OceanBase_CE-v4.2.1.6
【问题描述】凌晨突然有数个节点cpu使用率飙升至60%+,致使集群卡顿,Flink应用任务停止。
【复现路径】暂无
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

推荐使用 obdiag 工具进行日志采集,以便我们能够更好地了解问题的具体情况。

日志采集场景: CPU高
日志采集命令: obdiag gather scene run --scene=observer.cpu_high

请您先执行上述命令,将采集到的日志提供给我们,以便我们进一步分析问题的原因。同时,为了更准确地定位问题,请您提供以下信息:

  1. CPU 使用率升高的具体时间点是什么时候?
  2. 在 CPU 使用率升高之前,是否有执行过特定的操作或任务?
  3. 集群当前的负载情况如何?是否有大量的并发请求?
  4. Flink 应用任务停止前,是否有异常日志或错误信息?
  5. 集群配置信息,如硬件配置、OceanBase 版本等。

附上敏捷诊断工具 obdiag 使用帮助链接

1 个赞

1、提供当时的observer.log日志
2、按照小助手提示的 用obdiag日志采集 可以收集到cpu的日志信息
obdiag gather scene run --scene=observer.cpu_high

1 个赞

OCP部署的集群,直接用OCP上下载的日志可以么?

当然可以,您可以直接使用 OCP 下载日志来帮助分析问题。以下是具体步骤,您可以按照这些步骤来下载和查看相关日志:

下载 OBServer 日志

  1. 进入 OCP 集群总览页

    • 在 OCP 的 集群 界面,通过 集群列表 进入到具体集群的 总览 页。
  2. 下载日志

    • 单击 ,选择并单击 下载日志
    • 时间范围 需包含告警时间。
    • 日志类型 选择 OBServer 日志
    • 单击 下载 ,下载 OBServer 日志

查看日志

  1. 解压下载的日志文件

    • 下载的文件通常是一个压缩包,解压后会得到 observer.log 文件。
  2. 搜索 WARN 和 ERROR 级别的日志

    • observer.log 文件中搜索 WARNERROR 级别的日志,查看日志详情。

具体步骤示例

  1. 进入集群总览页

    • 登录 OCP。
    • 在左侧导航栏中选择 集群
    • 选择具体的集群,进入 总览 页。
  2. 下载日志

    • 在集群 总览 页的右上角,单击 并选择 下载日志
    • 设置 时间范围日志类型,确保时间范围包含告警时间,日志类型选择 OBServer 日志
    • 单击 下载
  3. 查看日志

    • 解压下载的文件,找到 observer.log
    • 使用文本编辑器或命令行工具(如 grep)搜索 WARNERROR 级别的日志。

示例命令

# 解压日志文件
tar -zxvf downloaded_logs.tar.gz

# 查找 WARN 和 ERROR 级别的日志
grep -i 'warn\|error' observer.log

通过以上步骤,您可以获取并查看相关的日志信息,从而帮助分析 CPU 使用率升高的原因。如果您在查看日志过程中发现任何异常信息,请提供这些信息以便我们进一步分析。 [1], [2], [4]

更多信息请查看:

  1. inc_backup_delay 日志备份延迟
  2. 查询日志
  3. 使用图形化界面部署 OCP
  4. base_backup_timeout 数据备份任务超时
  5. 日志服务
  6. 使用图形化界面升级 OCP
  7. 多集群模式概述
  8. ob_cluster_operation_info OB 集群运维操作提醒

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

ocp下载不了 obsever.log的日志 只能下载自己的日志

observer的日志默认保存多久?

OBServer 日志保留策略

https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000001300755?back=kb

插眼学习

单独部署了obdiag服务,执行的时候报错。麻烦看看需要怎么解决?
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[ERROR] Gather obstack info on the host 172.18.190.102 observer pid 22830
[ERROR] hard code scene execute failed, error :‘NoneType’ object has no attribute ‘open_session’

sql_result.txt (25.9 MB)
只生成了一个sql.txt文件,供参考。

看着下面这个obdiag的收集信息 没有问题 你上面的执行obdiag 什么命令报错了

看起来是你环境网络设置这块有些特别的地方,我来跟进一下

ok

ok