observer突然间数个节点cpu彪高，集群卡顿

fuwarren · 2024 年11 月 8 日 18:21

【使用环境】生产环境
【 OB or 其他组件】OB
【使用版本】5.7.25-OceanBase_CE-v4.2.1.6
【问题描述】凌晨突然有数个节点cpu使用率飙升至60%+，致使集群卡顿，Flink应用任务停止。
【复现路径】暂无
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接（右键跳转查看）：

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试，在发帖时输入 [@论坛小助手] 即可召唤小助手，欢迎试用！

论坛小助手 · 2024 年11 月 8 日 18:22

推荐使用 obdiag 工具进行日志采集，以便我们能够更好地了解问题的具体情况。

日志采集场景: CPU高
日志采集命令: obdiag gather scene run --scene=observer.cpu_high

请您先执行上述命令，将采集到的日志提供给我们，以便我们进一步分析问题的原因。同时，为了更准确地定位问题，请您提供以下信息：

CPU 使用率升高的具体时间点是什么时候？
在 CPU 使用率升高之前，是否有执行过特定的操作或任务？
集群当前的负载情况如何？是否有大量的并发请求？
Flink 应用任务停止前，是否有异常日志或错误信息？
集群配置信息，如硬件配置、OceanBase 版本等。

附上敏捷诊断工具 obdiag 使用帮助链接

淇铭 · 2024 年11 月 11 日 09:24

1、提供当时的observer.log日志
2、按照小助手提示的用obdiag日志采集可以收集到cpu的日志信息
obdiag gather scene run --scene=observer.cpu_high

fuwarren · 2024 年11 月 14 日 11:07

OCP部署的集群，直接用OCP上下载的日志可以么？

论坛小助手 · 2024 年11 月 14 日 11:16

当然可以，您可以直接使用 OCP 下载日志来帮助分析问题。以下是具体步骤，您可以按照这些步骤来下载和查看相关日志：

下载 OBServer 日志

进入 OCP 集群总览页
- 在 OCP 的集群界面，通过 集群列表 进入到具体集群的总览页。
下载日志
- 单击 … ，选择并单击 下载日志。
- 时间范围 需包含告警时间。
- 日志类型 选择 OBServer 日志。
- 单击下载，下载 OBServer 日志。

查看日志

解压下载的日志文件
- 下载的文件通常是一个压缩包，解压后会得到 observer.log 文件。
搜索 WARN 和 ERROR 级别的日志
- 在 observer.log 文件中搜索 WARN 和 ERROR 级别的日志，查看日志详情。

具体步骤示例

进入集群总览页
- 登录 OCP。
- 在左侧导航栏中选择集群。
- 选择具体的集群，进入总览页。
下载日志
- 在集群总览页的右上角，单击 … 并选择 下载日志。
- 设置 时间范围 和 日志类型，确保时间范围包含告警时间，日志类型选择 OBServer 日志。
- 单击下载。
查看日志
- 解压下载的文件，找到 observer.log。
- 使用文本编辑器或命令行工具（如 grep）搜索 WARN 和 ERROR 级别的日志。

示例命令

# 解压日志文件
tar -zxvf downloaded_logs.tar.gz

# 查找 WARN 和 ERROR 级别的日志
grep -i 'warn\|error' observer.log

通过以上步骤，您可以获取并查看相关的日志信息，从而帮助分析 CPU 使用率升高的原因。如果您在查看日志过程中发现任何异常信息，请提供这些信息以便我们进一步分析。 [1], [2], [4]

更多信息请查看:

(小助手的答复已结束，如未能解决您的问题，请继续提问并等待其他同学的回复，谢谢！)

淇铭 · 2024 年11 月 14 日 11:21

ocp下载不了 obsever.log的日志只能下载自己的日志

fuwarren · 2024 年11 月 14 日 16:24

observer的日志默认保存多久？

淇铭 · 2024 年11 月 14 日 16:31

OBServer 日志保留策略

https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000001300755?back=kb

DDH · 2024 年11 月 14 日 16:32

插眼学习

fuwarren · 2024 年11 月 14 日 21:16

单独部署了obdiag服务，执行的时候报错。麻烦看看需要怎么解决？
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[ERROR] Gather obstack info on the host 172.18.190.102 observer pid 22830
[ERROR] hard code scene execute failed, error :‘NoneType’ object has no attribute ‘open_session’

fuwarren · 2024 年11 月 14 日 21:43

sql_result.txt (25.9 MB)
只生成了一个sql.txt文件，供参考。

淇铭 · 2024 年11 月 15 日 10:34

看着下面这个obdiag的收集信息没有问题你上面的执行obdiag 什么命令报错了

靖顺 · 2024 年11 月 15 日 11:20

看起来是你环境网络设置这块有些特别的地方，我来跟进一下

fuwarren · 2024 年11 月 15 日 15:48

ok

fuwarren · 2024 年11 月 15 日 15:49

ok