OBServer连接卡死,业务sql超时

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4.2.0
【问题描述】OBServer突然卡死,后台mysql连接server卡死,业务sql超时,重启3台server后恢复正常
【复现路径】问题出现前后相关操作
【附件及日志】老师,日志太大,可以阿里钉联系我,我发给您。

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

用obdiag 工具先巡检一下,然后分析下日志看。

  1. obdiag check;
  2. obdiag analyze log --from xxx --to xxx

通过你发过来的日志,我用obdiag analyze log --files ./log 得到了一份报告,其中有一个比较可疑的点,有很多的-6004的信息,这个是代表发生了锁冲突了。怀疑是锁冲突引起重试,导致SQL超时。

obdiag 1.6.0版本已经支持锁冲突的根因分析了,OceanBase分布式数据库-海量数据 笔笔算数

但是当时通过mysql后台登录数据库,也是卡死,OCP也报超时错误,重启后好了

感觉是整个服务都有问题,如果是锁冲突的话,不会导致整个库有问题吧。

这个需要在observer上运行还是随便一台只要能连接到集群上就行,会不会对生产造成啥影响

看看租户SQL队列监控,主机CPU监控是否异常,一般来说要么租户资源爆了 要么serverCPU爆了

随便一台机器都可以,不一定要在observer机器。obdiag 不做任何运维操作,只是查日志和内部视图,不会对生产环境产生影响

好的

目前未发现租户资源异常

result_details_0200_0300.txt (1.5 MB)
result_details_0940_1020.txt (2.1 MB)
事件和报错说明.docx (70.6 KB)
通过obdiag分析,没有发现error日志,这个是info分析信息。

obdiag gather sysstat 拿一下主机的信息看看
另外obdiag check的巡检结果也发出来看看

sysstat_check_20240322.7z (206.9 KB)

从巡检中看到了一条critical的:[critical] [remote:10.18.221.236] the data_dir_path of disk size over 16TB ,the type must be xfs,确认下这个节点的数据盘是什么类型的存储。

xfs

已确认,xfs是obdiag的误报,属obdiag的bug,会在obdiag V2.0.0(4月初)版本发布的时候带上修复。