无实体集群,如何操作将OCP失效集群强制移除,期间遇到2个问题

【 使用环境 】测试环境
【 OB or 其他组件 or 使用版本 】
1. OCP社区版部署在 操作系统 Anolisos7.9系统,OCP社区版的版本号: 4.3.5-20250319105844 发布日期: 2025年3月19日
2. Oceanbase 版本号为:oceanbase-ce-4.3.5.1-101000042025031818.el7.x86_64.rpm
3. 以上操作系统都在虚拟化平台上;
4. 宿主机均为 x86_64
5. 三个Oceanbase节点(每个节点均为8vCPU 20GB内存) 分布在三台虚拟化宿主机上,三个Oceanbase节点操作系统虚拟磁盘/dev/sda 120G、数据和日志虚拟磁盘/dev/sdb 200G。三个节点Oceanbase 使用的存储是 三台虚拟化宿主机自身多个6T HDD磁盘组成的RAID6 卷组,所以三个Oceanbase 可以算是分别使用了独立存储。

【问题描述】清晰明确描述问题
测试过程中,首先部署OCP社区版后,在OCP中添加3台虚拟机Anolisos7.9主机,之后使用OCP平台部署了oceanbase集群,在相同的3个主机上尝试了使用OCP移除集群2次,建立集群3次。第三次集群名称为db_1:3。类型为HATP。

在db_1:3 中新建两个租户 host_a、host_b(假名,以下名称均为假名,):
1. 在 host_a租户中创建用户 test_a,创建数据库为 host_test_a。
2. 基于上述创建的数据库,使用Navicat17 工具,进行测试的mysql 数据库DD进行迁移,迁移步骤如下:
a. 使用 Navicat premium17.0.8(简体中文) 关联Mysql 数据库 和 test_a@host_a#db_1 的 Oceanbase。
b. 使用 mysql 远程登录命令使用 test_a@host_a#db_1 访问host_test_a数据,并使用命令关闭外键检查。
c. 使用Navicat17-》 工具 -〉结构同步 功能 对上述数据库中的125个表进行同步至host_test_a中,但是因部分表涉及外键,其中120个表同步正常,5个表同步报错,使用 结构同步 功能操作的时候关闭了外键检查及打开了遇到错误继续执行 选项。
d. 通过Navicat17 进入 test_a@host_a#db_1 下的host_test_a,全选所有表进行删除(勾选不进行外键检查),此时全部表可以正常删除。上述表结构建立和全部删除操作执行了2次。第3次准备进行数据迁移测试。
e. 然后使用 Navicat17 -》 工具 -〉 数据同步功能, 打开了遇到错误继续执行。执行几分钟后人为终止。
f. 此时使用Navicat17 全选表进行删除操作,这次没有勾选禁用外键检查,执行后navicat 卡死。重启Navicat 进入host_test_a数据库,这时没有任何表删除。继续尝试4个表一起删除,navicat同样出现卡死退出。再次重启navicat后选择单一表(勾选 不检查外键)此时可以删除。又尝试单一表(未勾选 不检查外键)此时navicat 进入假死状态,超过至少40秒,恢复可操作状态后 此单一表未能删除。

===========================》
问题1: 查看OCP告警信息,发现第一次全部删除表的 drop操作 出现了“OceanBase租户存在长事务”,以及后续 单一表(未勾选 不检查外键)的操作也告警“OceanBase租户存在长事务”,超过4个小时不能恢复正常。

   请问如何在oceanbase 使用命令排查及强制终止上述事务。

============================
g. 因存在较多了 OceanBase租户存在长事务 占用CPU,尝试搜索KB未果,重新准备新的虚拟机准备重新部署Oceanbase集群,此时误删除 当前集群(db_1:3 )的2号 Oceanbase节点。
h. 由此状态,准备移除db_1:3 集群,首先在OCP中点击 删除集群,由于 2号 Oceanbase节点已经物理移除掉了,OCP无法操作删除集群。继续试验在 db_1:3 集群中 OBserver 中直接删除主机。

当前物理主机已经删除,状态如图:

再次点击删除集群,状态如下图:

请问如何操作,可以在OCP中强制移除 db_1:3集群和集群中的租户。

感谢~!

1 个赞

麻烦ocp截图看看三台observer状态

1 个赞

observer 已经物理删除了

1 个赞


n你截图看一下你的这个界面当前状态都是啥样的

1 个赞


里面的内容全空,之前操作 是在主机菜单中直接删除主机的

1 个赞

不应该先使用ocp铲集群再删主机么。。。。
这边查一下看看有没有其他方法

1 个赞

麻烦描述一下你删除的具体步骤,ocp正常情况存在集群是无法删除主机的

1 个赞


这里 不能删除集群么

1 个赞

正常流程是图中情况。

当时测试情况是:

  1. 其中2号节点虚拟机被误删除了
  2. 使用OCP 进入集群进行删除操作 就不成功,一直提示链接不到2号节点,在任务中不断执行 跳过流程,但有些流程卡在那里非常长时间,等待的时间太长了。
  3. 因为是临时测试用,所以直接在 OCP中 主机选项中 删除 3个节点。

等待的时间远远超过重新克隆虚拟机+新建集群所用的时间了

1 个赞

试试集群能删除么。
既然相关节点都铲除了 重新搭建虚拟机进行测试不会存在影响

尝试过删除了

测试到还好,担心未来会遇见这样的情况,一直有一个集群在哪里看起来很不舒服

属于非标操作,这边先去咨询下ocp同学看看有方法删除掉么

感谢:pray:

有结果了不

麻烦白屏化再删除下集群看看报错是什么,有返回什么数据

https://www.oceanbase.com/docs/common-ocp-1000000002381485
使用api接口进行删除集群,多传入个参数 skipHostOperationServerId=true