【 使用环境 】生产环境
【 OB or 其他组件 】社区版 ocp4.3.0 oceanbase 4.2.2
【问题描述】ocp接管时出现异常
【附件及日志】
1 个赞
应该是缺少ocp agent包,上传个依赖包到ocp上
1 个赞
麻烦提供下agent日志和截图中ocp任务的完整报错日志
1 个赞
您以前使用的是 obd 部署的oceanbase 同时还部署了ocp-express和其他anget 。现在您想使用ocp进行接管吗??
或者详细介绍下您的情况吧, 或者步骤
2 个赞
之前是用obd部署的数据库,同时也部署了agent和ocp-express,后面把这两个组件卸载掉了,现在想用ocp接管
报了两个错
- clockdiff的问题,给了admin权限,但服务器上执行clockdiff除了本机都报 is down的错误,防火墙什么的都是关的,不过确认时钟同步是没问题了只是clockdiff不能用,就忽略掉了
- 另外一个报错大概是这样的一个内容:
SSH execute begin: curl -s -k -o /tmp/fff2ead793d14b9e/pos.py http://localhost:8080/api/v2/files/built-in/pos.py on 192.168.3.212
failed to execute ssh command, errMsg:command failed, args:curl -s -k -o /tmp/fff2ead793d14b9e/pos.py http://localhost:8080/api/v2/files/built-in/pos.py, return code:7, output:, extOut:. cause:null
然后修改了ocp的一个参数ocp.site.url 【http://localhost:8080】–>【http://172.20.10.28:8180】
这两个之后就是到了目前截图的情况
1 个赞
根据您的回复
- 这个agent是不是 obd安装的时候留下的 , 可以手工清除下看看
- 因为这些进程会有端口,ocp安装后启动端口占用可能失败。
- obd残留清楚干净后,可以点击重试 ,有时候多试几次就好了–我遇见过
1 个赞
- obd安装的agent目录是agent,不同于ocp_agent,目录名有差异
- 端口占用感觉会有可能,ocp这台机器上面还有zabbix,不过把8080默认端口改成了8180了,难道还有其它端口的占用情况
1 个赞
这边的其它的4套集群接管的时候都没有安装ocp_agent的问题,这一套就有问题,主要区别有两个
1.数据库版本,其它是4.3,这个是4.2.2
2.这个ocp服务器上还有zabbix
1 个赞
请下载这次的task日志发下
这个是被占用了 我把那三个进程都kill掉了 然后重试了
真正的报错还要往下看, 代码是com10999
ocp接管成功,显示ocp agent未运行的问题,排查发现使用命令行启停agent都是没问题的,所以忽略的这个问题,目前已解决。
1 个赞
先忽略错误 然后机器接管之后可以成功重启呢