未竟的修行：一个OceanBase DBA的独白

五月 · 2026 年5 月 29 日 15:48

引子：那个崩溃的凌晨

又是一个凌晨1点，告警电话铃声撕裂了寂静。

手忙脚乱处理完因为执行计划突变导致的队列积压问题。

电话又来了，那头是客户严厉催促的的训斥：“这个问题没有办法提前发现规避吗？有办法彻底解决吗？”

挂掉电话，我瘫坐在椅子上，看着屏幕上跳动的监控曲线，脑海里却回响着另外两句话：

“以前运行得好好的，怎么现在突然就不行了？”——业务方的质问。

“上线的时候测试没问题啊，怎么现在出问题了？”——开发的辩解。

那一刻，作为一个在OceanBase国产化浪潮中挣扎求生的DBA，我仿佛听到了命运的冷笑。我们正站在技术的十字路口，左手是国产数据库的星辰大海，右手却是运维的无尽深渊。

灵魂第一问：“这个问题有办法提前发现规避吗？有办法彻底解决吗？”

这是客户最常问，也是最让DBA心塞的问题。

如果我能未卜先知，我应该去算命，而不是在这里调优SQL。

在传统IOE时代，我们依赖的是昂贵的硬件堆叠和闭源的黑盒优化。而在OceanBase国产化落地的今天，我们面对的是一个更加开放但也更加复杂的分布式架构。

●

关于“提前发现”：我们有监控，有告警，有慢查询日志。但是，分布式数据库的瓶颈往往是多点并发、锁竞争、或者是那个在压测中永远跑不出来的“长尾请求”，也有优化器给开的玩笑，sql太复杂优化器认为另个执行计划更快，但实际是个炸弹。我们能做的，是在风暴来临前拉响防空警报，但无法阻止陨石撞击地球。

●

关于“彻底解决”：技术的世界里没有“彻底”。任何分布式系统都遵循CAP定理，我们总是在一致性、可用性和分区容错性之间做权衡。所谓的“彻底解决”，往往意味着架构的推倒重来，这在商业项目中是奢侈品。

我们需要向客户传递一个概念：运维不是修仙，没有“一劳永逸”的丹药。数据库就像人的身体，体检（监控）只能发现已有的病灶，无法预测下一秒是否会因为一颗花生米而过敏。

业务的灵魂拷问：“以前没问题，现在怎么不行了？”

这句话简直是DBA的血压助推器。

以前没问题，是因为以前的数据量小，以前的并发低，以前的索引还能扛，以前索引少，或者以前索引多。现在不行了，是因为业务成功了，数据膨胀了，现在索引多了，优化器走到不好的索引了，或者索引少了，优化器认为现有索引没有全表扫描快了，那个当初为了赶工期写的“屎山”代码终于开始反噬了。

特别是OceanBase这种HTAP架构，它对SQL的写法非常敏感。在刚学优化的时候，老师常说：“最好的优化是设计。”这就像华佗看病的故事，最高的医术是防范未然。

尤其是分布式数据库里，不光要考虑单纯的sql写法还要考虑数据分布，rpc代价，分布式计划等，也就是不光要有好的业务逻辑设计，sql设计，还要考虑数据库的集群设计。

但现实是，业务方追求的是快速上线。于是，我们看到了标量子查询层层嵌套，视图套视图，一层包一层。在单机数据库里，这种写法可能因为数据量小还能苟延残喘；但在OceanBase这种分布式数据库里，这种写法简直就是“自杀式袭击”。

因为分布式数据库的优化器，面对这种复杂的嵌套，很容易生成糟糕的执行计划（ExecutionPlan）。它不知道该先算哪个，该把数据分发到哪个节点，结果就是全表扫描、数据重分布、严重的网络传输开销。以前100条数据没问题，现在100万条数据，那个“以前没问题”的写法就成了性能黑洞。

客户光鲜亮丽的政绩工作，各种“云”，快速分配资源，统一管理，正常这个没问题，但是对于不同业务的适配肯定是不同的，也隐藏了集群设计上的一些风险。

上线的“皇帝新装”：“上线的时候没问题啊”

这句话往往伴随着开发人员无辜的眼神。

测试环境的数据是“假”的，测试环境的并发是“假”的，测试人员的SQL是“假”的。

上线没问题，是因为测试人员点了一下按钮，页面出来了，数据对了，流程通了。但他们没有高峰的流量，没有模拟数据倾斜，没有模拟多模块交叉影响，更没有在深夜2点去查那个平时没人用的报表。

在国产化替代的过程中，我们往往只关注了“能不能跑通”，而忽略了“能不能跑稳”。很多业务系统在迁移时，只是做了简单的“物理迁移”或“逻辑迁移”，而没有针对OceanBase的特性做应用改造。结果就是，上线前是“皇帝的新装”，大家都说好看；上线后流量一来，性能问题原形毕露。

国产化的“皇帝新装”：0改造的神话与投入的错觉

如果说前面的问题是技术层面的，那么现在的环境则是管理层面的“背道而驰”。

现在的国产化替代，往往面临着一个死结：

●

一方面，考核机制极其严苛。我们要考核告警数量，考核故障率，恨不得数据库365天24小时零抖动。

●

另一方面，业务压力巨大。为了完成KPI，我们要赶进度上线新系统，考核上线指标，恨不得一个月上线一个核心系统。

这两者本身就是矛盾的。

任何系统，哪怕是运行了十几年的Oracle系统，也不敢拍着胸脯说“绝对不会出问题”。Oracle的稳定性，是经过了数十年的迭代、无数次补丁、以及海量客户场景打磨出来的。而国产数据库，正处于高速成长的青春期，难免会有阵痛。

请给国产化一点宽容吧。

不要因为一次问题就全盘否定，不要因为一次切换就过度恐慌。我们正在走一条前人没走过的路，这条路注定不是一帆风顺的。如果既要求我们像老中医一样精准诊断，又要求我们像闪电侠一样极速上线，还要求我们像上帝一样保证零失误，那这不仅是对DBA的苛责，更是对技术发展规律的无视。

破碎的“0改造”承诺：被低估的业务改造成本

还有一个让我哭笑不得的现象：很多国产化数据库厂商在推销时，总是把“业务代码0改造”当作最大的卖点。

客户听了这话，就真以为只要花一笔钱把数据迁移过去，万事大吉。

可哪有真正的“0改造”？尤其是核心系统。

我们在Oracle或MySQL上积累了十几年的“坑”，那些为了兼容性写的特殊SQL，那些复杂的存储过程，那些依赖特定数据库特性的业务逻辑，到了国产库上，都必须被重新审视和改造。

这就好比把一辆在美式宽体车上开惯了的老司机，突然换到了一辆国产的精密跑车上。你不能指望他用踩宽体车的方式去踩跑车的油门，那样只会翻车。

业务改造的成本，往往比数据库迁移本身要高得多。但客户总以为这只是一次简单的“搬家”，殊不知，这其实是一次“脱胎换骨”的手术。没有对业务代码的深度重构，所谓的“国产化替代”只是埋下了一颗定时炸弹。

优化的“奢侈品”：在“救火”与“建设”之间

最后，我想谈谈“优化”。

很多系统是需要长时间持续地去优化、去磨合，才能达到稳定的“黄金状态”的。

但在国产化的浪潮下，各种上线指标逼着大量系统井喷式上线。DBA们就像一群疲于奔命的消防员，刚灭了这头的火，那头又烧起来了。

我们没有时间去做深度的性能分析，没有精力去写复杂的优化脚本，更没有机会去进行架构层面的重构。

而在客户眼里，优化是DBA的本职工作，不应该额外要钱，也不应该占用额外的时间。

这真是一个巨大的误解。

没有资金的支撑，没有人员的投入，没有精力的侧重，指望DBA靠“爱”和“信仰”去把系统优化到极致，这是不可能的。我们不是超人，我们只是在有限的资源下，尽力不让系统崩盘的普通人。

结语

做DBA，尤其是做国产数据库的DBA，是一场漫长的修行。

我们无法回答“有没有办法彻底解决”，因为我们面对的是复杂的人类行为和不可预测的业务增长。我们能做的，是在视图嵌套的泥潭中挣扎，在标量子查询的迷宫里找路，试图用“华佗之术”去修补那些先天不足的“设计”。

如果你也在经历这些，请记住，你不是一个人在战斗。那个凌晨1点的报警电话，是我们这群人的勋章，也是我们在这个国产化时代，必须背负的十字架。
行之所向，莫问远方

OB社区小助手 · 2026 年5 月 29 日 16:10

zhenxing · 2026 年5 月 29 日 16:17

灵魂三问，吓哭了

这个问题没有办法提前发现规避吗？有办法彻底解决吗？
以前运行得好好的，怎么现在突然就不行了？
上线的时候测试没问题啊，怎么现在出问题了？

Gauss2025 · 2026 年6 月 1 日 11:38

一定是上线前没有做好性能和功能测试。

AntTech_PALA6EE · 2026 年6 月 2 日 11:18

问题分析的不错也很到位

AntTech_LFCEM6 · 2026 年6 月 2 日 17:12

是的

AntTech_NX8KZ5 · 2026 年6 月 7 日 14:06

太有才了。

AntTech_0ZRMSA · 2026 年6 月 9 日 09:54

道出了国产库 DBA 的日常难处，现实困境分析真切，看完深有共鸣。

AntTech_MO4OZE · 2026 年6 月 9 日 21:01

OB短剧？

AntTech_LIBUEY · 2026 年6 月 9 日 21:20

问题分析的不错，文笔也很好

AntTech_PALA6EE · 2026 年6 月 10 日 15:19

真是不错很到位

AntTech_LFCEM6 · 2026 年6 月 10 日 18:25

真不错啊

AntTech_PALA6EE · 2026 年6 月 11 日 11:15

厉害了

AntTech_LFCEM6 · 2026 年6 月 11 日 16:37

收藏发有用

AntTech_LFCEM6 · 2026 年6 月 11 日 16:37

很到位

AntTech_LFCEM6 · 2026 年6 月 11 日 16:38

不错

AntTech_LIBUEY · 2026 年6 月 11 日 16:42

收获良多啊

AntTech_78FY7U · 2026 年6 月 13 日 02:15

so good

AntTech_78FY7U · 2026 年6 月 16 日 02:16

不错不错

awker · 2026 年6 月 18 日 02:10

很有用