OceanBase 生产环境出现「大量慢查询 + TPS 骤降 + 磁盘 IO 飙升」，请分析可能原因、排查步骤与解决方案

小妖 · 2026 年5 月 7 日 09:50

可能原因
排查步骤
解决方案：

刘刘六 · 2026 年5 月 7 日 09:50

咖啡哥 · 2026 年5 月 7 日 09:54

这是在做财产转移啊

阿杰开机 · 2026 年5 月 7 日 10:04

财产转移正解

可可可 · 2026 年5 月 7 日 10:24

我的妈呀学到了

张雨齐 · 2026 年5 月 7 日 10:28

论坛小助手 · 2026 年5 月 7 日 10:30

快速基础排查：
- 检查 NTP 时钟是否同步。
- 检查服务器是否宕机。
- 检查日志磁盘、数据磁盘空间是否满。
- 检查机房网络是否抖动。
- 检查负载均衡设备/组件（如 F5/LVS 等）是否故障。（参考文档：19723）
确认异常期间业务是否有流量冲高：
- 检查业务请求量是否比平时有明显升高。（参考文档：19723）
从应用层分析数据库相关报错或异常：
- 检查应用连接池是否满。
- 检查应用请求是否超时。
- 检查应用建连是否失败。
- 检查应用写入是否失败。
- 检查应用锁冲突。（参考文档：19723）
分析 SQL 性能问题：
- 使用 oceanbase.gv$ob_sql_audit 表分析 SQL 执行情况。
- 检查是否存在 buffer 表、大小账号、硬解析等问题。
- 使用 explain extended 查看执行计划，检查优化器的估行和真实行数是否有巨大差距。
- 考虑创建更合适的索引、通过 hint 调整计划形态、调整并行度等。（参考文档：271）
检查磁盘状态：
- 使用系统性能监控工具 tsar 或 vsar 查看磁盘的状态。
- 使用 fio 测试磁盘性能。（参考文档：29）

优化 SQL 查询：
- 绑定正确的执行计划，避免全表扫描。
- 创建合适的索引，优化查询性能。（参考文档：19264, 271）
缓解磁盘 IO 压力：
- 临时调小 log_disk_utilization_threshold，降低磁盘利用率。
- 调整 log_disk_size 参数，确保磁盘有足够的空间。（参考文档：28, 26）
处理租户请求队列积压：
- 增加 CPU 资源，提升处理能力。
- 优化复杂查询，减少队列积压。（参考文档：19759）
扩展集群资源：
- 增加节点，提高集群的整体资源。
- 调整集群参数，优化资源利用。（参考文档：19716）
紧急处理：
- 如果上述方法无法立即解决问题，可以考虑重启受影响的节点，恢复服务。（参考文档：4）

详情请参考:

Amber_www · 2026 年5 月 7 日 15:58

关于SQL的讨论很有价值，特别是在磁盘场景下，合理使用CPU是关键。

哈基咪 · 2026 年5 月 7 日 17:12

具体的原因呢

耶一耶 · 2026 年5 月 8 日 09:02

有点难

独善其身 · 2026 年5 月 8 日 09:29

这个可能性方向太多了

ljware · 2026 年5 月 8 日 09:42

不错，很全面

ljware · 2026 年5 月 8 日 09:43

全面了

ljware · 2026 年5 月 8 日 09:57

请教一下，磁盘场景是指什么？可以具体一点吗？

AntTech_OXEPTD · 2026 年5 月 8 日 10:05

看看这个

AntTech_NX8KZ5 · 2026 年5 月 8 日 10:55

哇，讲的太好了！

僵小奕 · 2026 年5 月 8 日 11:00

学习了

wentian178 · 2026 年5 月 9 日 08:12

学习

展翅凌云2 · 2026 年5 月 9 日 10:17

学习了

哈基咪 · 2026 年5 月 9 日 15:51

好难这个