ocp部署,出现错误:Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x2b9f1540fbb0>: Failed to establish a new connection

【 使用环境 】 测试环境
【 OB or 其他组件 】ocp
【 使用版本 】4.2.2
【问题描述】通过ocp部署时,出现如下错误:
(1)[ERROR] request error: HTTPConnectionPool(host=‘xxxx’, port=2886): Max retries exceeded with url: /api/v1/status
(Caused by NewConnectionError(’<urllib3.connection.HTTPConnection object at 0x2b9f1540fbb0>: Failed to establish a new connection: [Errno 111] Connection refused’))
(2)[ERROR] do takeover precheck got exception:<10.202.249.126>



【复现路径】通过ocp部署,预检都通过了,并且observer服务器上已经配置了“limits.conf”,“sysctl.conf”,“ 关闭防火墙和 SELinux”这三项,在部署完后出现上面的错误。
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
日志:
obd(~/.obd/log/obd)日志
obd.zip (38.3 KB)
ocp-server日志:
ocp-server.zip (954.3 KB)

麻烦老师再用 【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集) 巡检一下集群,然后日志上传下。

我用obdiag时,出现如下错误:



这个是什么原因呢

拒绝连接,看看权限什么的是否有开启,比如网络权限什么的,

看起来是集群不可用了,试试从节点上拿日志到obdiag 所在的节点上去分析下,

obdiag analyze log --files templog/

或者

离线分析指定的日志文件

obdiag analyze log --files observer.log.20230831142211247

如果是集群已经连接不上了的情况下,obdiag config 命令也是不能用的,因为obdiag config命令是需要连接业务集群去快速获取节点信息的。

日志分析我之前应该是分析错了,我是在ocp的服务器上分析的日志,之后在observer上分析,就没问题了

目前问题已经解决了,说下我碰到的两个问题:
(1)[ERROR] request error: HTTPConnectionPool(host=‘xxxx’, port=2886): Max retries exceeded with url: /api/v1/status
(Caused by NewConnectionError(’<urllib3.connection.HTTPConnection object at 0x2b9f1540fbb0>: Failed to establish a new connection: [Errno 111] Connection refused’))
第一个是这个错误。在通过部署ocp时,我把默认的目录都改成我这边的磁盘,/data/home 、/data/home/admin这两个目录下,并且已经赋值admin的权限了,但是一直出现上面的错误。
之后把所有的路径都改成了ocp安装默认的路径,即:/data、/home下,就没出现上面的问题了,目前不太清楚是什么问题,感觉是一些权限设置问题。

(2)[ERROR] do takeover precheck got exception:<10.202.249.126>
这是第二个错误。意思就是ocp无法接管我这台observer,这是在部署好ocp最后出现的问题。然后通过日志分析得出如下:
Details:

Node: 10.202.249.126
Status: Completed
FileName: /root/.obdiag/analyze_pack_20240426172217/10_202_249_126/observer.log.20240426164910443
ErrorCode: -4012
Message: Timeout
Count: 1
Cause: Internal Error
Solution: Contact OceanBase Support
First Found Time: 2024-04-26 16:47:03.223840
Last Found Time: 2024-04-26 16:47:03.223840
Trace_IDS: {‘B420ACAF97E-000616FBF26C213C-0-0’}

Node: 10.202.249.126
Status: Completed
FileName: /root/.obdiag/analyze_pack_20240426172217/10_202_249_126/observer.log.20240426164910443
ErrorCode: -5150
Message: Tenant not in this server
Count: 67
Cause: Internal Error
Solution: Contact OceanBase Support
First Found Time: 2024-04-26 16:46:20.552034
Last Found Time: 2024-04-26 16:46:27.424730
Trace_IDS: [‘B420ACAF97E-000616FBF11C213D-0-0’]

可以看到126这台超时了,所以接管不上,不过过了几个小时又分析了一遍,三台都pass了。猜测是不是接管任务跑的慢,导致ocp接管超时呢???
由于ocp不能接管,所有在ocp管控页面看不到三台observer,解决办法是,我们可以在“集群”这个tab页,找到“手动接管”,然后输入三台observer的地址,就可以在ocp的集群中看到了。