【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】5.7.25-OceanBase_CE-v4.2.1.6
【问题描述】凌晨突然有数个节点cpu使用率飙升至60%+,致使集群卡顿,Flink应用任务停止。
【复现路径】暂无
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】5.7.25-OceanBase_CE-v4.2.1.6
【问题描述】凌晨突然有数个节点cpu使用率飙升至60%+,致使集群卡顿,Flink应用任务停止。
【复现路径】暂无
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
推荐使用 obdiag 工具进行日志采集,以便我们能够更好地了解问题的具体情况。
日志采集场景: CPU高
日志采集命令: obdiag gather scene run --scene=observer.cpu_high
请您先执行上述命令,将采集到的日志提供给我们,以便我们进一步分析问题的原因。同时,为了更准确地定位问题,请您提供以下信息:
附上敏捷诊断工具 obdiag 使用帮助链接
1、提供当时的observer.log日志
2、按照小助手提示的 用obdiag日志采集 可以收集到cpu的日志信息
obdiag gather scene run --scene=observer.cpu_high
OCP部署的集群,直接用OCP上下载的日志可以么?
当然可以,您可以直接使用 OCP 下载日志来帮助分析问题。以下是具体步骤,您可以按照这些步骤来下载和查看相关日志:
进入 OCP 集群总览页
下载日志
解压下载的日志文件
observer.log
文件。搜索 WARN 和 ERROR 级别的日志
observer.log
文件中搜索 WARN
和 ERROR
级别的日志,查看日志详情。进入集群总览页
下载日志
查看日志
observer.log
。grep
)搜索 WARN
和 ERROR
级别的日志。# 解压日志文件
tar -zxvf downloaded_logs.tar.gz
# 查找 WARN 和 ERROR 级别的日志
grep -i 'warn\|error' observer.log
通过以上步骤,您可以获取并查看相关的日志信息,从而帮助分析 CPU 使用率升高的原因。如果您在查看日志过程中发现任何异常信息,请提供这些信息以便我们进一步分析。 [1], [2], [4]
更多信息请查看:
(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)
ocp下载不了 obsever.log的日志 只能下载自己的日志
observer的日志默认保存多久?
https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000001300755?back=kb
插眼学习
单独部署了obdiag服务,执行的时候报错。麻烦看看需要怎么解决?
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[WARN] get local ip warn: [Errno -2] Name or service not known . Set local_ip Is 127.0.0.1
[ERROR] Gather obstack info on the host 172.18.190.102 observer pid 22830
[ERROR] hard code scene execute failed, error :‘NoneType’ object has no attribute ‘open_session’
看着下面这个obdiag的收集信息 没有问题 你上面的执行obdiag 什么命令报错了
看起来是你环境网络设置这块有些特别的地方,我来跟进一下
ok
ok