ocp agent precesses not running

【 使用环境 】生产环境
【 OB or 其他组件 】社区版 ocp4.3.0 oceanbase 4.2.2
【问题描述】ocp接管时出现异常
【附件及日志】


1 个赞

应该是缺少ocp agent包,上传个依赖包到ocp上

1 个赞

上面有安装包,在/home/admin目录下面也有ocp_agent的目录了

1 个赞

麻烦提供下agent日志和截图中ocp任务的完整报错日志

1 个赞

您以前使用的是 obd 部署的oceanbase 同时还部署了ocp-express和其他anget 。现在您想使用ocp进行接管吗??

或者详细介绍下您的情况吧, 或者步骤

2 个赞

log.zip (139.1 KB)

1 个赞

之前是用obd部署的数据库,同时也部署了agent和ocp-express,后面把这两个组件卸载掉了,现在想用ocp接管
报了两个错

  1. clockdiff的问题,给了admin权限,但服务器上执行clockdiff除了本机都报 is down的错误,防火墙什么的都是关的,不过确认时钟同步是没问题了只是clockdiff不能用,就忽略掉了
  2. 另外一个报错大概是这样的一个内容:
    SSH execute begin: curl -s -k -o /tmp/fff2ead793d14b9e/pos.py http://localhost:8080/api/v2/files/built-in/pos.py on 192.168.3.212
    failed to execute ssh command, errMsg:command failed, args:curl -s -k -o /tmp/fff2ead793d14b9e/pos.py http://localhost:8080/api/v2/files/built-in/pos.py, return code:7, output:, extOut:. cause:null
    然后修改了ocp的一个参数ocp.site.url 【http://localhost:8080】–>【http://172.20.10.28:8180

这两个之后就是到了目前截图的情况

1 个赞

根据您的回复

  1. 这个agent是不是 obd安装的时候留下的 , 可以手工清除下看看
  2. 因为这些进程会有端口,ocp安装后启动端口占用可能失败。
  3. obd残留清楚干净后,可以点击重试 ,有时候多试几次就好了–我遇见过
1 个赞
  1. obd安装的agent目录是agent,不同于ocp_agent,目录名有差异
  2. 端口占用感觉会有可能,ocp这台机器上面还有zabbix,不过把8080默认端口改成了8180了,难道还有其它端口的占用情况
1 个赞

这边的其它的4套集群接管的时候都没有安装ocp_agent的问题,这一套就有问题,主要区别有两个
1.数据库版本,其它是4.3,这个是4.2.2
2.这个ocp服务器上还有zabbix

1 个赞

还有一个节点没有安装agent,错误代码CMP10102

1 个赞

可以尝试重建下 rpmdb ,参考处理下
https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000000284386

重建 rpmdb后 CMP10102解决了

现在就是ocp agent precesses not running
看后台也是有agent进程的

请下载这次的task日志发下

log_task_88.zip (17.8 KB)


62888 ocp_mgragent,端口占用了

你将下面进程kill掉,重新运行任务试下

这个是被占用了 我把那三个进程都kill掉了 然后重试了

真正的报错还要往下看, 代码是com10999

ocp接管成功,显示ocp agent未运行的问题,排查发现使用命令行启停agent都是没问题的,所以忽略的这个问题,目前已解决。

1 个赞

这里重启ocp agent可以成功吗?

先忽略错误 然后机器接管之后可以成功重启呢