OBServer连接卡死，业务sql超时

刘东 · 2024 年3 月 21 日 11:36

【使用环境】生产环境
【 OB or 其他组件】OB
【使用版本】4.2.0
【问题描述】OBServer突然卡死，后台mysql连接server卡死，业务sql超时，重启3台server后恢复正常
【复现路径】问题出现前后相关操作
【附件及日志】老师，日志太大，可以阿里钉联系我，我发给您。

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

靖顺 · 2024 年3 月 21 日 13:52

用obdiag 工具先巡检一下，然后分析下日志看。

靖顺 · 2024 年3 月 21 日 13:53

靖顺 · 2024 年3 月 21 日 16:15

通过你发过来的日志，我用obdiag analyze log --files ./log 得到了一份报告，其中有一个比较可疑的点，有很多的-6004的信息，这个是代表发生了锁冲突了。怀疑是锁冲突引起重试，导致SQL超时。

靖顺 · 2024 年3 月 21 日 16:16

obdiag 1.6.0版本已经支持锁冲突的根因分析了，OceanBase分布式数据库-海量数据笔笔算数

刘东 · 2024 年3 月 21 日 16:17

但是当时通过mysql后台登录数据库，也是卡死，OCP也报超时错误，重启后好了

刘东 · 2024 年3 月 21 日 16:18

感觉是整个服务都有问题，如果是锁冲突的话，不会导致整个库有问题吧。

刘东 · 2024 年3 月 21 日 16:19

这个需要在observer上运行还是随便一台只要能连接到集群上就行，会不会对生产造成啥影响

UNIQUE_KEY · 2024 年3 月 21 日 16:26

看看租户SQL队列监控，主机CPU监控是否异常，一般来说要么租户资源爆了要么serverCPU爆了

靖顺 · 2024 年3 月 21 日 16:53

随便一台机器都可以，不一定要在observer机器。obdiag 不做任何运维操作，只是查日志和内部视图，不会对生产环境产生影响

刘东 · 2024 年3 月 21 日 17:00

好的

刘东 · 2024 年3 月 21 日 17:01

目前未发现租户资源异常

刘东 · 2024 年3 月 22 日 14:40

result_details_0200_0300.txt (1.5 MB)
result_details_0940_1020.txt (2.1 MB)
事件和报错说明.docx (70.6 KB)
通过obdiag分析，没有发现error日志，这个是info分析信息。

靖顺 · 2024 年3 月 22 日 14:51

obdiag gather sysstat 拿一下主机的信息看看
另外obdiag check的巡检结果也发出来看看

刘东 · 2024 年3 月 22 日 15:40

靖顺 · 2024 年3 月 22 日 17:06

从巡检中看到了一条critical的：[critical] [remote:10.18.221.236] the data_dir_path of disk size over 16TB ,the type must be xfs，确认下这个节点的数据盘是什么类型的存储。

刘东 · 2024 年3 月 25 日 09:46

xfs

靖顺 · 2024 年3 月 25 日 15:10

已确认，xfs是obdiag的误报，属obdiag的bug,会在obdiag V2.0.0（4月初）版本发布的时候带上修复。