【OceanBase 4.x DBA 进阶教程】《故障应急手册》(2024/12/05 更新《网络抖动》,并增加《磁盘故障》小节)

DBA 进阶教程的背景和大目录详见: 【OceanBase 4.x DBA 进阶教程】用户意见收集

我们的内容持续更新了一段时间,终于来到了 “问题排查” 阶段, 详见:GitBook 中的《OceanBase 4.x DBA 进阶教程》

前一段儿时间看了 @洪波 大佬整理的一篇社区博客《OceanBase 应急三板斧》,以及文档团队的小伙伴们在官方文档中为大家提供的一些和应急处理相关的内容,内容都非常不错。

不过这些应急场景和应对手段,对于社区版的用户来说,可能内容还不是特别完善,同时也不够体系化、图谱化。

同时考虑到用户意见收集中的 @oceanvoice@张雨齐 等老师的建议,准备《进阶教程》的下一部分为大家提供一份儿相对比较成体系,也更加全面的《故障应急手册》。


《故障应急手册》中,会把用户在使用 OceanBase 的过程中可能遇到的问题,以及对应的解决方案进行汇总,目录大致会是:

《故障应急手册》

  • 系统响应时间不符合预期

  • CPU 负载异常

  • 节点宕机

  • 生产库故障切容灾库

  • 硬件 & 基础环境故障应急处理

  • 负载变化导致的问题

  • 集群内部其他问题

    • 租户转储阻塞

    • 集群合并阻塞

    • SYS 租户/ RS 服务问题

    • 磁盘泄漏

    • 内存泄漏

    • 长事务

    • 悬挂事务

    • coredump

    • 无主

24 个赞

在不出意外的前提下,手册的更新频率大概会是一周一次,希望大家能够持续关注。更希望大家能够在本帖的评论区中踊跃拍砖、吐槽,积极提出你的问题和需求。

作为 OceanBase 内部同学,大家往往比较忌讳去大谈特谈 “故障”(我其实也很害怕说的太多被老大批斗),加上已经有同学在策划和发布与故障恢复相关的技术博客专题,所以一开始并没打算在进阶教程里写这部分内容(详见最初在用户意见收集时规划的目录结构)。

纠结了很久,感觉《故障应急手册》这种东西,在关键时刻,可能会变成 OceanBase 用户的一根 “救命稻草”,所以最后还是决定增加一章相关的内容。

每期发布之后,大家可以草草扫上一眼,如果不爱读 “故障” 这种讨厌的玩意儿,可以先收藏,以备不时之需(希望 OceanBase 的用户们永远都用不到这一章的内容,哈哈)~

更新记录:

20 个赞

:+1: :+1: :+1:

14 个赞

:+1: :+1: :+1:
期待

14 个赞

厉害了 :+1:

13 个赞

感谢分享

11 个赞

有了 [故障应急手册],在学习或者遇到问题时,能参考案例并更快捷定位问题所在 :+1: :+1: :+1:

14 个赞

在还没有分享任何内容的情况下,就被 “感谢分享” 了,真是诚惶诚恐~

今天更新了前两个小节,欢迎老师留言吐槽~

15 个赞

在这一章还没有任何内容的时候,就能来第一个留言评论,这属于 “早鸟” 支持,十分感谢~

今天更新了前两个小节,欢迎留言吐槽~

15 个赞

希望别太辜负老师的期待~

今天更新了前两个小节,欢迎老师留言吐槽~

13 个赞

杨老师好久不见,以后有机会去成都参加活动的时候,一定找你这个大版主聊上一聊~

今天更新了前两个小节,欢迎留言吐槽~

14 个赞

惭愧,我的能力还没到这种程度,这一章节的内容,勉强算是我个人的学习笔记而已,在这里分享给大家,希望能够在需要的时候帮助大家应急~

今天更新了前两个小节,欢迎老师留言吐槽~

13 个赞

Mark 一下

救命稻草,必须收藏!

13 个赞

:+1: :+1: :+1:

9 个赞

:+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1:

10 个赞

感谢分享

10 个赞

感谢大家关注,11.21 更新《CPU 负载异常》小节。

13 个赞

必须要收藏

10 个赞

:+1:

10 个赞

谢谢老师

8 个赞