OceanBase 4.3.5 集群插入慢

hrsjw1 · 2025 年11 月 15 日 19:12

【使用环境】生产环境
【使用版本】OceanBase 版本号 4.3.5.0
【问题描述】

    下午发现 ob集群 SQL 写入特别慢 ，从ocp看 有慢查询的警告，相关写服务已经停止，服务器高负载没有下降，通过工具查看SQL 语句发现是卡在RPC ，如图：

服务器监控：

OCP 警告如下

服务器监控如下：

辞霜 · 2025 年11 月 17 日 10:47

看着可能是网络波动导致的。麻烦提供一份observer日志看下

独善其身 · 2025 年11 月 17 日 10:48

性能日志看看

hrsjw1 · 2025 年11 月 17 日 11:13

日志都放在包里了
http://prod.lvpuhui.com/logs/20251117.tar.gz

辞霜 · 2025 年11 月 17 日 11:34

麻烦直接上传到帖子上，这边无法下载

hrsjw1 · 2025 年11 月 17 日 12:09

这个是数据库SQL 的分析
obdiag_gather_pack_20251117120446.tar.gz (184.8 KB)

集群全部信息一会儿好了我也发出来

淇铭 · 2025 年11 月 17 日 14:03

是所有的sql都慢么？还是个别的语句慢

hrsjw1 · 2025 年11 月 17 日 14:11

附件是集群observer.log 的日志
ob01-observer.log.zip (2.7 MB)

ob02-observer.log.zip (14.7 MB)

ob03-observer.log.zip (27.6 MB)

ob05-observer.log.zip (29.2 MB)

ob06-observer.log.zip (29.4 MB)

hrsjw1 · 2025 年11 月 17 日 14:13

查询不慢，写删除都慢

淇铭 · 2025 年11 月 17 日 14:26

磁盘是ssd盘还是机械盘数据盘和clog分盘了么？
SHOW VARIABLES like ‘version_comment’; 查一下版本信息
show parameters where name in (‘memory_limit’,‘memory_limit_percentage’,‘system_memory’,‘log_disk_size’,‘log_disk_percentage’,‘datafile_size’,‘datafile_disk_percentage’);

select zone,concat(SVR_IP,’:’,SVR_PORT) observer,
cpu_capacity_max cpu_total,cpu_assigned_max cpu_assigned,
cpu_capacity-cpu_assigned_max as cpu_free,
round(memory_limit/1024/1024/1024,2) as memory_total,
round((memory_limit-mem_capacity)/1024/1024/1024,2) as system_memory,
round(mem_assigned/1024/1024/1024,2) as mem_assigned,
round((mem_capacity-mem_assigned)/1024/1024/1024,2) as memory_free,
round(log_disk_capacity/1024/1024/1024,2) as log_disk_capacity,
round(log_disk_assigned/1024/1024/1024,2) as log_disk_assigned,
round((log_disk_capacity-log_disk_assigned)/1024/1024/1024,2) as log_disk_free,
round((data_disk_capacity/1024/1024/1024),2) as data_disk,
round((data_disk_in_use/1024/1024/1024),2) as data_disk_used,
round((data_disk_capacity-data_disk_in_use)/1024/1024/1024,2) as data_disk_free
from oceanbase.gv$ob_servers;

select a.zone,a.svr_ip,b.tenant_name,b.tenant_type, a.max_cpu, a.min_cpu,
round(a.memory_size/1024/1024/1024,2) memory_size_gb,
round(a.log_disk_size/1024/1024/1024,2) log_disk_size,
round(a.log_disk_in_use/1024/1024/1024,2) log_disk_in_use,
round(a.data_disk_in_use/1024/1024/1024,2) data_disk_in_use
from oceanbase.gv$ob_units a join oceanbase.dba_ob_tenants b on a.tenant_id=b.tenant_id order by b.tenant_name;

信息查一下

查一下出问题的时间段的信息
1、在ocp 租户–> 性能监控–>存储与缓存物理 IO 次数，物理IO吞吐量，物理IO耗时
2、在ocp 租户–> 性能监控–>性能与SQL 看下租户 CPU 消耗，内存使用率

淇铭 · 2025 年11 月 17 日 14:31

使用obdiag巡检一下
obdiag check run
https://www.oceanbase.com/docs/common-obdiag-cn-1000000004222710

hrsjw1 · 2025 年11 月 17 日 14:49

附件是执行了这三个的日志

全量巡检 (最常用)

obdiag check run

执行 sysbench 时的巡检任务集合

obdiag check run --cases=sysbench_run

执行 sysbench 前的巡检任务集合

obdiag check run --cases=sysbench_free

nohup.out.log (46.6 KB)

淇铭 · 2025 年11 月 17 日 14:51

建议把巡检的包整个发过来看着是执行报错了么？

hrsjw1 · 2025 年11 月 17 日 14:52

淇铭 · 2025 年11 月 17 日 14:55

看着物理io耗时没有看到写只看到读是时间上找的对不上么？

hrsjw1 · 2025 年11 月 17 日 15:18

这是这几天的监控情况

淇铭 · 2025 年11 月 17 日 15:29

看着物理的io耗时很高呀在ocp上查看一下top sql 按照最大的响应的时间排序看看那些语句时间比较慢

AntTech_UCVIYQ · 2025 年11 月 17 日 15:35

14号-15号也是这两个SQL
INSERT INTO heart_beat ( id, task_type, task_name, task_id, host_ip, version, gmt_created, gmt_modified ) VALUES (?, ?, ?, ?, ?, ?, now(), now()) ON DUPLICATE KEY UPDATE version = VALUES(version), gmt_modified = now();

UPDATE crawler SET err_msg = ?, gmt_modified = ?, name = ?, gmt_modified = now() WHERE name = ?;

之前正常时间的时候：

hrsjw1 · 2025 年11 月 17 日 15:36

淇铭 · 2025 年11 月 17 日 15:38

能按照最大的响应时间截图么？
看着是往oms的心跳表插入数据呀除了这两个还有其他的么？把这个时间的ocp信息截图
1、在ocp 租户–> 性能监控–>存储与缓存物理 IO 次数，物理IO吞吐量，物理IO耗时
2、在ocp 租户–> 性能监控–>性能与SQL 看下租户 CPU 消耗，内存使用率

使用obdiag收集一下这两个的信息
obdiag gather plan_monitor --trace_id YB420BA2D99B-0005EBBFC45D5A00-0-0 --env “{db_connect=’-hxx -Pxx -uxx -pxx -Dxx’}”
https://www.oceanbase.com/docs/common-obdiag-cn-1000000004222802