虚拟机重启后集群无法恢复,查看Ocp_agent未启动,主机处于离线状态

【 使用环境 】测试环境
【 OB or 其他组件 】ocp_agent
【 使用版本 】 ```
–版本信息
ocp:4.2.1-20231208144448
observer:4.2.1.4-104000052024022918
ocp_agent:4.2.1-20231208144448

【问题描述】用OBD部署OCP、metadb,OCP创建集群,虚拟机异常重启导致集群无法正常启动成功,查看是集群服务器的主机处于离线,查看ocp_agent进程也不在
[agentd.zip|attachment](upload://gGK96zDZiVqPLBqnRqpjQWPL3fq.zip) (3.6 MB)

有的组件不会自启动。试试obd cluster start name 或者 【SOP 系列 19】OceanBase 生态组件重启方式 - 社区问答- OceanBase社区-分布式数据库

我需要验证集群为什么不会启动,刚查看了用OAT部署的是因为OBSERVER写入了开机启动中,但这个好像没有,有写入systemd中,但好像没有启动成功

或者用OBD的方式是否可以写入开机启动中

你想确认的是ocp agent会不会开机自启动?

那是企业版。社区版不会自启动。 如果需要自启动功能可以自己写个启动脚本 比如使用service或者crontab

[root@10-186-58-3 multi-user.target.wants]# cat ocp_agent.service
[Unit]
Description=start ocp_agent
After=network.target syslog.target rc-local.target

[Service]
Type=forking
ExecStart=/home/admin/ocp_agent/bin/ocp_agentctl start
ExecStop=/home/admin/ocp_agent/bin/ocp_agentctl stop
ExecReload=/home/admin/ocp_agent/bin/ocp_agentctl restart
RemainAfterExit=yes

[Install]
WantedBy=multi-user.target

这个systemd中

ocp agent实际去主机上看,没有起来是吗。手动调一下启动命令看看能不能起来?

/home/admin/ocp_agent/bin/ocp_agentctl start

也换成:ExecReload=/home/admin/ocp_agent/bin/ocp_agentctl start 试试

已解决,谢谢!OCP4.2.1版本将ocp_agent.service写入systemd中有问题导致