对于运维人员来说,OceanBase的监控与运维工作相比传统数据库,复杂度更高,也面临着很多独特的痛点,想和各位同行交流下日常运维中的痛点及高效解决方案。我们团队目前负责3个OceanBase集群,承载着不同的业务场景(核心交易、数据统计、日志存储),日常运维中遇到了几个比较棘手的问题:一是监控指标太多,官方提供的监控面板过于复杂,难以快速定位核心问题,比如慢SQL、节点负载过高、存储瓶颈等,不知道大家是如何筛选关键监控指标、自定义监控面板的?二是集群扩缩容操作,每次扩缩容后,都会出现一段时间的性能波动,甚至出现SQL执行超时的情况,想问问大家扩缩容的最佳实践是什么?比如扩缩容的时机选择、节点配置调整、数据均衡的优化技巧?三是数据备份与恢复,全量备份耗时过长、增量备份占用过多存储空间,恢复时的耗时也无法满足业务应急需求,有没有备份恢复的优化方案?四是日志排查难度大,OceanBase的日志种类多、信息量庞大,遇到故障时(比如事务回滚、连接失败),难以快速定位问题根源,大家有没有高效的日志排查套路、常用的排查命令或脚本可以分享?另外,日常巡检的重点是什么,有没有可复用的巡检脚本或巡检方案?
学习学习