【 使用环境 】测试环境
【 OB or 其他组件 】ob以及ocpe、odc
【 使用版本 】4.3.0
【问题描述】
1.测试环境:22核32G、麒麟v10
2.部署方式:obd部署all in包
3.问题描述:
a.初次部署后,ob大概可以稳定个半小时~4小时之间,但只要崩溃后通过obd 再次启动全部组件就会出现ocp express无法连接ob的情况,导致ob一起崩溃。
b.使用obd单独启动observe,可以正常启动,并且可以通过客户端连接但是只需要切应用流量过来立马就蹦,不管是我们自己的应用还是ob的ocp express还是odb。
c.查看了observe的observe.log日志,其中也并没有crash error的日志。
【复现路径】
1.出现问题后,有尝试过增加虚拟机内存和cpu核心,问题依旧。
2.尝试过单独启用oceanbase-ce可以启动,但是无负载或者轻负载下不会崩溃
3.崩溃过后再启动,只要接入任何应用,就会崩溃且没有相关的崩溃日志
【附件及日志】
靖顺
#3
看你发的obdiag analyze 日志分析的结果,确实是不存在WARN级别的错误信息。
obdiag analyze log --log_level INFO (整体分析下INFO以及以上的日志看看)另外也注意下崩溃时间,默认obdiag分析是按照最近30分钟日志来分析的,如果故障时间不在最近30分钟,可以添加–from/–to参数来用obdiag
obd obdiag analyze log myoceanbase --log_level INFO --from “2024-04-28 09:40:00” --to “2024-04-28 10:30:00”
崩溃时间应该是在10点±10分左右。
https://www.alipan.com/s/58rwrWsGZtD
王利博
#5
可以设置一下core崩溃文件, core
然后通过https://ask.oceanbase.com/t/topic/35606122 来分析下core文件