obbinlog实例租户连接不稳定问题

obproxy4.zip (9.1 MB)
obproxy3.zip (16.2 MB)
binlog_instance2.zip (25.0 MB)
libobcdc2.zip (29.2 MB)

现在binlog实例连接也不稳定,这个是最新的binlog实例日志 和 ODP日志,老师您看下,昨天的ODP日志已经刷没了

麻烦再贴一下 binlog server 的日志,就是那个 log/logproxy.log。我们主要看一下它和 obproxy.log。

logproxy229.zip (12.2 MB)
logproxy230.zip (12.5 MB)
老师这是我们两台binlog-server的运行日志, ODP的binlog_service_ip参数设置的是229

你查看一下 230这台机器的负载是不是很高 top -H

我们直连binlog-server查看230上的SDE租户实例只有一个

但是我们在230终端上看到好多个

SDE这个binlog实例我们可不可以释放掉重建,对其它同步任务有影响吗(其它同步任务开启了CKPT,如果重建的话会不会有问题)

释放 SDE 租户的 Binlog 实例不会影响其他租户。

这个租户之前有其它的同步任务,这些同步任务会受影响吗

如果 DROP 整个 Binlog 任务,主实例也会被删掉,已有的订阅客户端(消费应用)是会受影响的。鉴于你上个截图显示的,一个实例出现了多个进程,你可以试一下 CREATE BINLOG INSTANCE 后切主到新创建的实例,然后把旧的实例删掉,对应的进程也都清理掉。这样消费应用也会受影响,但是如果应用有重连机制,是可以自动恢复的。

另外上面的日志信息我们已经给到内部研发了,会尽快定位。

老师,这个问题目前怎么样

目前还在排查 内部研发的同学正在分析

好的,老师,麻烦帮忙看下,这个中台业务已经停一周了

很着急的话 发个官方悬赏吧 一对一看问题

好的,已发 obbinlg实例连接不稳定问题

观摩学习一下

贴一下报错时间点附近,obproxy/log下的日志,包括obproxy.log、obproxy_error.log

obproxy.log.20250314094529.zip (22.3 MB)
obproxy.log.20250314094749.zip (22.0 MB)
obproxy_error.zip (2.6 MB)
obproxy_error2.zip (16.6 MB)
这个是我们公司提供的日志

obproxy53_error.zip (3.5 MB)
obproxy53.log.20250314150032.zip (21.6 MB)
obproxy53.log.20250314145836.zip (22.6 MB)
obproxy52_error.zip (3.3 MB)
obproxy52.log.20250314150116.zip (23.6 MB)
obproxy52.log.20250314145933.zip (22.8 MB)

obproxy51.log.20250314150000.zip (23.8 MB)
obproxy51_error.zip (13.7 MB)

这个是最新的obproxy 日志

总结:已知问题,执行 binlog请求需要拉取binlog的服务地址,使用内部连接池连接,如果内部连接池没有连接需要新建。建立连接请求发送给了 binlog server,导致现有的集群容灾检查不通过,然后断开连接。
绕过方法:修改 obproxy 的配置项 enable_congestion=false
升级解决:开源 obproxy 4.2.3/4.3.1 有这个修复,可以进行升级,建议升级到4.3.1是长期支持版本