OceanBase高可用与容灾实战部署及故障应对

作为一款分布式数据库,OceanBase的高可用和容灾能力是大家在生产环境中最关注的点之一,想和各位大佬交流下生产环境中的实战部署经验和故障应对技巧。我们目前部署的是OceanBase集群(3副本),规划了2个Zone,主要承载电商订单类业务,对可用性要求很高(全年可用率需达到99.99%以上),但目前还没有遇到过真实的故障场景,心里没底。想请教大家几个具体问题:一是多副本部署时,副本的分布策略(比如同机房多Zone、跨机房多Zone)该如何选择?不同的分布策略对性能和容灾能力有哪些影响?二是Zone规划时,节点数量、资源配置该如何合理分配,才能在保证高可用的同时,避免资源浪费?三是遇到真实故障时(比如节点宕机、Zone故障、网络中断),OceanBase的自动切换流程是怎样的?切换耗时大概在多少?切换后的数据一致性如何保证?四是跨机房容灾方案,大家是如何部署的?比如跨城多集群、异地备份恢复,容灾切换的流程和耗时大概是什么水平?有没有实际遇到过容灾场景并成功切换的案例,可以分享一下具体的操作过程和注意事项?