OCP接管集群报错 连接租户sys失败

【 使用环境 】生产环境
【 OB or 其他组件 】OCP
【 使用版本 】4.3.0-20240617185317
【问题描述】 【SOP 系列 07】如何使用 OCP 接管 OBD 部署的 OceanBase 集群 - 社区问答- OceanBase社区-分布式数据库按照这个教程接管集群,连接方式是OBProxy,最后一步显示连接租户sys失败,请检查该租户下管理员用户的凭据是否正确,以及租户白名单设置是否正确或租户是否被锁定。

任务中心里没有日志,预检查是通过的。

2 个赞

根据您的描述,您在使用 OCP 4.3.0 版本接管 OBD 部署的 OceanBase 集群时遇到了连接租户 sys 失败的问题,并且提示需要检查管理员用户的凭据、租户白名单设置和租户锁定状态。您已完成预检查但没有找到相关日志记录在任务中心。

为了进一步诊断这个问题,我们可以使用 obdiag 工具来收集集群的相关信息。由于您提到的是连接问题,我们可以选择针对集群无法连接的场景进行日志采集。

日志采集场景与命令

日志采集场景: 集群无法连接
日志采集命令:

obdiag gather scene run --scene=observer.cluster_down

这条命令将会收集与集群无法连接相关的重要信息,包括但不限于日志文件、配置文件等,有助于我们进一步定位问题。

提供日志压缩包

请您执行上述命令后,将生成的日志压缩包发送给我们,以便我们能够更准确地分析问题所在。

获取更多信息

为了更好地帮助您解决问题,请您提供以下信息:

  1. 您使用的 OBClient 版本是多少?请确保您已经安装了最新版本的 OBClient。
  2. 您尝试连接 sys 租户时使用的连接字符串是什么样的?例如,您是否使用了正确的 IP 地址、端口、用户名和密码?
  3. 您是否确认当前客户端 IP 地址已经在租户白名单中?如果不确定,能否提供一下如何确认租户白名单的方法或命令?
  4. 您是否有尝试过重置或验证 sys 租户的密码?如果使用默认密码,是否尝试过更换密码看是否可以成功连接?
  5. 您是否确认 sys 租户没有被锁定?如果不确定,能否提供一下如何确认租户是否被锁定的方法或命令?

具体信息可参考以下文档:

附上敏捷诊断工具 obdiag 使用帮助链接

1 个赞

1.这一步成功了吗?

2.在ocp服务器上黑屏登陆要接管的集群测试下密码是否正确

3.取一下报错时ocp-server.log 路径: /home/admin/ocp-server/log

4.可以参考文档操作
https://www.oceanbase.com/docs/common-ocp-1000000001127044

1 个赞

第一步预检查成功了
log.tar.gz (17.7 KB)

1 个赞

根据您提供的信息,预检查已经通过,但在最后一步连接租户 sys 时出现了失败。这通常意味着连接凭据、租户白名单或者租户的状态存在问题。您已经提供了日志文件 log.tar.gz,但由于这是一个压缩文件,我无法直接从中提取信息。不过,根据您之前的问题和现有的文档信息,我们可以尝试以下步骤来排查问题:

1. 确认管理员用户的凭据是否正确

  • 用户名和密码: 确保您使用的是正确的用户名和密码来连接 sys 租户。如果您不确定,请尝试重置密码或使用默认的管理员账户信息进行连接。
  • 连接字符串: 确认连接字符串是否正确,包括 IP 地址、端口号等信息。

2. 检查租户白名单设置

  • 查询租户白名单: 使用以下命令查询租户白名单:
    SELECT * FROM __all_sys_parameter WHERE name = 'whitelist';
    
  • 确认客户端 IP: 确认您的客户端 IP 地址是否在租户白名单中。如果不在,请添加您的客户端 IP 到白名单中。

3. 检查租户是否被锁定

  • 查询租户状态: 使用以下命令查询租户的状态:
    SELECT * FROM __all_tenant WHERE tenant_name = 'sys';
    
  • 确认租户状态: 确认 sys 租户是否处于锁定状态。如果租户被锁定,请解锁租户。

4. 检查 OBClient 版本

  • 确认 OBClient 版本: 确保您使用的是与 OceanBase 集群兼容的 OBClient 版本。如果不确定,请下载并安装最新版本的 OBClient。

5. 使用 obdiag 工具进一步排查

  • 执行日志采集: 使用 obdiag 工具执行日志采集,特别是针对集群无法连接的场景。这可以帮助我们获取更多关于连接失败的具体原因。
    obdiag gather scene run --scene=observer.cluster_down
    

6. 提供日志压缩包

  • 发送日志压缩包: 执行上述命令后,将生成的日志压缩包发送给我们,以便我们能够更准确地分析问题所在。

7. 其他可能的原因

  • 网络问题: 确认网络连接正常,没有防火墙或其他网络设备阻止连接。
  • 资源限制: 确认服务器资源充足,没有达到资源限制。

文档参考

如果您已经尝试了上述步骤仍然无法解决问题,请提供更多的详细信息,我们将尽力帮助您解决问题。

具体信息可参考以下文档:

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

1 个赞

建议按上面步骤排查下,日志是ocp-server.log,路径:/home/admin/ocp/log

1 个赞

这个问题有进展吗?

1 个赞

改用直连v接管集群之后成功了,但是现在有个新的非预期的内部错误,我新开了一个话题。谢谢老师!

1 个赞

好的,我复现下这个问题,有新的问题欢迎及时在问答区提问

1 个赞

这个问题已在ocp 432版本修复

@旭辉 想问下你们有bug追踪列表吗?对外公开的那种。不然这种问题用户无法获知。

我尝试了一下在4.2.1.2的时候确实也有同样的问题。

目前bug都是针对内部的 不对外 后期修复了 可以查看 版本发布记录