【 使用环境 】生产环境 or 测试环境
测试缓解
【 OB or 其他组件 】
OB
【 使用版本 】
3.2
【问题描述】清晰明确描述问题
如果做5副本部署,故障了2副本,在故障的2副本恢复前,后续是否每次paxos协议都需要在剩余的3副本上做强同步,即每个副本都必须收到日志并落盘?
如果超过时间触发OB的自动副本补齐,那这新补齐的2个副本有策略指定他们的存储位置吗?
【复现路径】问题出现前后相关操作
【问题现象及影响】
【附件】
【 使用环境 】生产环境 or 测试环境
测试缓解
【 OB or 其他组件 】
OB
【 使用版本 】
3.2
【问题描述】清晰明确描述问题
如果做5副本部署,故障了2副本,在故障的2副本恢复前,后续是否每次paxos协议都需要在剩余的3副本上做强同步,即每个副本都必须收到日志并落盘?
如果超过时间触发OB的自动副本补齐,那这新补齐的2个副本有策略指定他们的存储位置吗?
【复现路径】问题出现前后相关操作
【问题现象及影响】
【附件】
剩余的 3 副本全部要同步成功。如果这三副本跨机房了,业务事务提交延时会增加。如果担心业务扛不住,此时可以临时将租户架构从 5 副本降级为 3 副本,那么这个时候 3 副本只要多数派 2 副本同步成功,业务事务就可以提交了。业务性能就恢复到故障前水平。等故障的机器恢复了后,可以再将 3 副本重新升级到 5 副本。
如果不降级硬扛下去,超过节点永久下线时间,如果故障的 zone 里还有节点可以容纳故障租户的资源单元,则会触发在线副本补齐;如果不能容纳,则故障持续。此时如果给故障 zone 补机器资源,则可以继续在线补齐故障副本。