oceanbase集群某个机器写入事件出现毛刺现象

AntTech_M9L8HB · 2024 年4 月 15 日 11:36

oceanbase版本社区版4.2.1.4，obproxy版本使用4.2.1
某台机器出现io_write_time的毛刺现象，不定时出现写入时间过长，这个如何排查呢，

obpilot · 2024 年4 月 15 日 11:42

QPS、TPS、RT、memtable 内存的对应时间段的监控图一并发一下，需要综合多个方面信息才能判断。

AntTech_M9L8HB · 2024 年4 月 15 日 12:07

是要机器的还是集群的还是租户的呢

obpilot · 2024 年4 月 15 日 14:22

只要有都发，信息越全越有助于判断。

AntTech_M9L8HB · 2024 年4 月 15 日 14:51

如下所示，图1是主机监控，

图2、图3是ocp概览页面的一些参数。

靖顺 · 2024 年4 月 15 日 15:28

可以用obdiag工具做一次信息收集：obdiag gather scene run --scene=observer.io

文档：OceanBase分布式数据库-海量数据笔笔算数

obpilot · 2024 年4 月 15 日 15:53

从第一个图大概就知道了。总体 IO 很少，数据库的 QPS 也很低。因为请求次数少，自然显得抖动有点大。这种情形下偶尔的尖刺没有什么关系，分析的意义不大。
如果你做压测，IOPS 每秒能到几百，然后 IO 延时还经常有这种尖刺，那就是问题了。

AntTech_M9L8HB · 2024 年4 月 16 日 10:17

这个不是偶发现象了，挺频繁的，我有6台机器，但是只有这一台机器是这样的，而且我查找gv$ob_sql_audit没有找到写入比较慢的语句。

AntTech_M9L8HB · 2024 年4 月 16 日 10:36

2024-04-16 10:34:59,999 [INFO] gather scene variables: {‘observer_data_dir’: ‘/disk/nvme0n1/’, ‘obproxy_data_dir’: ‘’, ‘from_time’: ‘2024-04-16 10:04:59’, ‘to_time’: ‘2024-04-16 10:35:59’}
2024-04-16 10:35:00,000 [INFO] Use gather_pack_20240416103459 as pack dir.
2024-04-16 10:35:00,001 [ERROR] Invalid Task :observer.io
2024-04-16 10:35:00,002 [INFO] execute_tasks. the number of tasks is 0 ,tasks is dict_keys([]) 没有这个task，这个收集io的有参考吗