情况
1、原来OCP因为服务器问题,崩溃了,启动不起来了,服务器也不准备用了。启动不了
2、原来OCP里面没有操作迁出集群。
3、新部署的一台OCP服务器,去接管原来的集群,但是因为操作问题,导致失败了,还吧失败任务跳过了。导致任务执行成功。
3、现在,新的OCP里面,集群一直在接管中,没办法删除,没办法回滚,现在应该怎么办呢
4、又重新去接管,又提示接管集群已经存在。
情况
1、原来OCP因为服务器问题,崩溃了,启动不起来了,服务器也不准备用了。启动不了
2、原来OCP里面没有操作迁出集群。
3、新部署的一台OCP服务器,去接管原来的集群,但是因为操作问题,导致失败了,还吧失败任务跳过了。导致任务执行成功。
3、现在,新的OCP里面,集群一直在接管中,没办法删除,没办法回滚,现在应该怎么办呢
4、又重新去接管,又提示接管集群已经存在。
根据文档库中的信息,您可以按照以下步骤尝试解决问题:
确认接管集群的状态:
删除接管中的集群:
重新接管集群:
curl -X POST --user admin:xxx \
-H "Content-Type:application/json" \
-d '{"rootSysPassword":"xxxxx", #必填,root@sys密码。
"address":"xxxxx", #必填,集群连接地址。
"port":2888, #必填,集群连接端口。
"connectionMode": "proxy" #选填,连接模式,可选值 direct | proxy,缺省为direct。
"clusterName": "xxx", #选填,当连接模式为 proxy 时必填。
"obClusterId": xxx #选填,当连接模式为 proxy 且被接管集群为备集群时必填。
}' \
"http://example.com:8080/api/v2/ob/clusters/takeOverPreCheck"
处理 OCP 元信息不一致的问题:
DELETE FROM ocp_cluster WHERE cluster_name = 'your_cluster_name';
联系技术支持:
希望这些步骤能帮助您解决问题。如果还有其他疑问,请随时提问。
详情请参考:
麻烦发下ocp版本和OB版本,另外下载接管任务日志发下
1.77是新的ocp server吗?
试下http://192.168.1.77:8080 访问是否正常?
2024-12-09 17:23:18.775 INFO 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] com.oceanbase.ocp.common.ssh.SshUtils : SSH executeCommand end: sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' on 192.168.1.34, result: SshResult(host=192.168.1.34, username=root, command=sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', out=, err=curl: (7) Failed connect to 192.168.1.77:8080; Connection refused
, extOut=null, exitStatus=7)
2024-12-09 17:23:18.778 INFO 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] c.o.o.e.internal.template.SshTemplate : SSH execute end: sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' on 192.168.1.34,result:SshResult(host=192.168.1.34, username=root, command=sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', out=, err=curl: (7) Failed connect to 192.168.1.77:8080; Connection refused
, extOut=null, exitStatus=7)
2024-12-09 17:23:18.780 INFO 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] c.o.ocp.executor.executor.SshExecutor : execute ssh command failed, command:sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', return code:7, output:, err:curl: (7) Failed connect to 192.168.1.77:8080; Connection refused
2024-12-09 17:23:18.783 ERROR 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] c.o.ocp.executor.executor.SshExecutor : failed to execute ssh command, errMsg:[SshClient]: failed to execute ssh command: sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', exit code: 7, cause:null
登陆ocp_meta租户,查下库meta_database的ob_cluster表是否有这个集群?
obclient -hxx.xx.xx.xx -P2881 -uroot@ocp_meta -p’xxx’ -Dmeta_database -A
select * from ob_cluster\G;
OCP安装的时候,服务端口选错了,一个是8080 一个设置的8980,导致接管集群的时候G了 。后来改了好了,但是集群还是没有接管成功
是不是我按照这个把这条htob的数据删除 重新接管就好了
改好后也接管失败,这个日志也需要看下,麻烦发下
没改之前任务就失败了,那个时候没有找到问题,我就回滚了,然后,我改好后,主机这些都能够添加进来了,但是集群里面就还是在接管中,没有重新接管,现在就是怎么重新接管
按理回滚应该是删除这个集群数据,但是估计是OCP的端口问题,集群没有被删除
第一次接管时ocp server端口不对,按说ob_cluster中不应该有记录,你查询的结果有记录吗?
如果有记录你手动删除掉 再重新接管一次试下
然后我重装了OCP,还是一样会遇到任务卡顿的情况,OB集群接管成功了,ODP集群创建不了
告警里面,竟然有之前的OCP的服务器不可用的告警,没搞懂怎么消除
**
同时 一致在报接管过来的集群不可用,但是实际上又是可用的
知道原因呢,是因为之前的OB集群应该是是哪里有配置,记录了OCP信息,原来的OCP那台服务器214并没有关闭,他还是在尝试访问,我直接销毁了214这台机器,目前一切正常了