【 使用环境 】生产环境
【 OB or 其他组件 】OB OCP
【 使用版本 】OB版本4.3.5.2,OCP版本4.3.1
【问题描述】主机添加是成功了,然后我在集群里添加ZONE的时候报错提示Unhandled exception, type=HttpConnectFailedException, message=connect to agent failed, NoRouteToHostException: No route to host (Host unreachable)
这是为什么
【复现路径】问题出现前后相关操作
【附件及日志】
1 个赞
observer机器有防火墙策略吗?
压缩发下包含操作报错时间点的 ocp-server.log,3.111这台机器的mgragent.log monagent.log
1 个赞
在OCP Server机器
telnet 192.168.3.110 62888
telnet 192.168.3.110 62889
试下
2025-12-10 12:21:27.426 INFO 11763 --- [prometheus-exporter-check2,c514c9a8ba3c10ed,d903bdbbd05c5d40] c.o.o.m.service.OcpExporterServiceImpl : exporter healthCheck failed, instance=http://192.168.3.110:62889/metrics/node/host, message=java.net.ConnectException: No route to host: /192.168.3.110:62889
2025-12-10 12:21:27.425 INFO 11763 --- [metric-parse-38,,] c.o.o.m.s.OcpMetricCollectServiceImpl : Collect failed, exporter=http://192.168.3.110:62888/metrics/stat, collectAt=1765340484, message=java.net.ConnectException: No route to host: /192.168.3.110:62888, rootCause=NoRouteToHostException: No route to host
2025-12-10 12:21:27.426 WARN 11763 --- [prometheus-exporter-check2,c514c9a8ba3c10ed,d903bdbbd05c5d40] .o.m.s.OcpExporterStatusCheckServiceImpl : exporter http://192.168.3.110:62889/metrics/node/host is inactive
2025-12-10 12:21:27.426 INFO 11763 --- [metric-parse-19,,] c.o.o.m.s.OcpMetricCollectServiceImpl : Collect failed, exporter=http://192.168.3.110:62889/metrics/stat, collectAt=1765340484, message=java.net.ConnectException: No route to host: /192.168.3.110:62889, rootCause=NoRouteToHostException: No route to host
2025-12-10 12:21:27.437 ERROR 11763 --- [ocp-schedules-24,d425efa887bab7e7,519c0a4afc25abc8] o.s.s.s.TaskUtils$LoggingErrorHandler : Unexpected error occurred in scheduled task
1 个赞
不是110,是111,110这台机器现在有问题,还没整
1 个赞
看日志报错的是110,你按上面说的 测下110
1 个赞
110就是有问题,110这台主机都没了,我添加的是111啊
你看我截图上面的主机IP,是192.168.3.111
你上面截图拓扑图上是有110的,110在这个集群内,就可能和它有关系
“110这台主机都没了” ? 你发下最新的集群拓扑图看下
这是集群的拓扑图,上面是显示的110这台是正常运行的,我不知道是什么原因,但是这台机子所在的物理机磁盘都已经损坏了,所以已经没有这台机子了
通过OCP的这个主机列表也能发现这个110这台主机是离线的状态
看起来OCP未更新集群的状态,110这个observer上还有unit吗?
select * from dba_ob_tenants;
SELECT c.TENANT_ID, e.TENANT_NAME, f.SVR_IP,concat(c.NAME, ': ', d.NAME)`pool:conf`,concat(c.UNIT_COUNT, ' unit: ', d.min_cpu, 'C/', ROUND(d.MEMORY_SIZE/1024/1024/1024,0), "G") unit_info FROM DBA_OB_RESOURCE_POOLS c, DBA_OB_UNIT_CONFIGS d, DBA_OB_TENANTS e ,DBA_OB_UNITS f WHERE c.UNIT_CONFIG_ID=d.UNIT_CONFIG_ID AND c.TENANT_ID=e.TENANT_ID AND e.TENANT_ID=f.TENANT_ID AND c.RESOURCE_POOL_ID=f.RESOURCE_POOL_ID ORDER BY c.TENANT_ID;
试下是否可以成功将这个observer从集群中删掉
这样就比较麻烦一点,需要处理110
不删zone 删observer试下
是的







