OCP部署OceanBase

【 使用环境 】测试环境
【 OB or 其他组件 】OCP
【 使用版本 】
【问题描述】OCP部署OceanBase后登录云平台如何找到OceanBase集群
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

根据问题描述和提供的截图信息,您希望了解在 OCP 部署 OceanBase 后,如何通过 OCP 云平台找到 OceanBase 集群。以下是详细解答:


1. 登录 OCP 平台

OCP 部署成功后,可以通过访问地址登录 OCP 管控平台。例如,您的截图中显示的地址为:

http://192.168.10.153:8080/overview

使用管理员账号(如 admin)登录 OCP。


2. 找到 OceanBase 集群

登录 OCP 后,可以通过以下步骤找到已部署的 OceanBase 集群:

(1) 进入“概览”页面

  • 登录后,默认会进入“概览”页面。
  • 在“概览”页面中,可以看到 OceanBase 集群的状态统计信息,例如:
    • 正常运行的集群数量
    • 已停止的集群数量
    • 总集群数量

(2) 查看“OceanBase 集群”模块

  • 在左侧导航栏中,点击 “OceanBase 集群” 模块。
  • 这将列出所有由 OCP 管理的 OceanBase 集群,包括集群名称、状态、版本等信息。

(3) 选择目标集群

  • 在“OceanBase 集群”列表中,找到您需要管理的集群。
  • 点击集群名称,可以进入该集群的详细信息页面,查看其配置、状态、拓扑图等。

3. 验证集群连接

如果您需要验证集群是否正常运行,可以执行以下操作:

(1) 检查集群状态

  • 在集群详情页面中,检查集群的状态是否为 “RUNNING”
  • 如果状态异常(如 STOPPEDUNAVAILABLE),请排查相关日志或任务信息。

(2) 测试连接

  • 在 OCP 中,可以通过内置工具测试与 OceanBase 集群的连接。
  • 或者,您可以手动连接集群,参考以下命令(假设集群 IP 和端口已知):
    mysql -h<cluster-ip> -P2881 -uroot@sys -p<password>
    
    示例:
    mysql -h192.168.10.153 -P2881 -uroot@sys -p
    

4. 参考文档

上述操作基于 OCP 的功能特性,具体可参考以下文档:

  • 《OceanBase 云平台》文档 - 概览
    描述了 OCP 的主要功能模块及集群管理方式。
  • 《OceanBase 云平台》文档 - OceanBase 集群管理
    提供了关于 OceanBase 集群的详细管理操作。

5. 注意事项

  • 确保 OCP 和 OceanBase 集群之间的网络连通性正常。
  • 如果集群未出现在 OCP 的管理列表中,请检查 OCP 是否正确注册了该集群。
  • 如需进一步帮助,建议使用 obdiag 收集诊断信息,并联系 OceanBase 技术支持团队。

希望以上信息能解决您的问题!如果仍有疑问,请提供更多上下文信息以便进一步分析。

更多信息请查看:

  1. OceanBase 生态工具介绍
  2. 在 Kubernetes 环境中部署 OceanBase 集群
  3. 概述
  4. 什么是 OceanBase 云平台
  5. 使用 OCP 进行运维
  6. ob_cannot_connected OB 服务器无法连接
  7. OCP 多集群模式开关
  8. OceanBase 云平台(OCP)
  9. 登录 OceanBase 云平台

登录 OCP 管控平台并没有找到已部署的 OceanBase 集群,如何才能找到已部署的集群

集群–接管集群才能看到,

  1. 接管你的meta oceanbase.
  2. 接管你的业务oceanbase.

在左侧导航栏中,点击 “OceanBase 集群”模块,集群为空

root@sys 密码是正确的,白名单安装过程中没有设置

根据您的问题描述和提供的截图信息,您在 OCP 管控平台中未能找到已部署的 OceanBase 集群。以下是可能的原因及解决方法:


1. 检查集群是否正确注册到 OCP

OCP 管控平台需要手动或自动注册 OceanBase 集群后才能管理该集群。如果集群未注册,OCP 将无法显示。

(1) 手动添加集群

  • 在 OCP 的左侧导航栏中,点击 “OceanBase 集群”
  • 点击页面右上角的 “添加集群” 按钮。
  • 输入以下信息:
    • 集群名称:自定义名称。
    • 连接地址:OceanBase 集群的 IP 地址(例如 192.168.10.153)。
    • SQL 端口:OceanBase 集群的 SQL 端口(默认为 2881)。
    • 用户名root@sys
    • 密码:OceanBase 集群的 root@sys 密码。

(2) 自动发现集群

  • 如果 OCP 和 OceanBase 集群部署在同一网络环境中,OCP 可能支持自动发现功能。
  • 在 OCP 的 “OceanBase 集群” 页面中,点击 “自动发现” 按钮,OCP 将扫描网络中的 OceanBase 集群并尝试注册。

2. 检查网络连通性

如果 OCP 无法识别已部署的 OceanBase 集群,可能是由于网络连通性问题。

(1) 测试网络连通性

  • 在 OCP 所在主机上,使用以下命令测试与 OceanBase 集群的连通性:
    ping <cluster-ip>
    
    示例:
    ping 192.168.10.153
    

(2) 测试端口连通性

  • 使用以下命令测试 OceanBase 集群的 SQL 端口(默认为 2881)是否开放:
    telnet <cluster-ip> <sql-port>
    
    示例:
    telnet 192.168.10.153 2881
    

3. 检查 OCP 是否已管理该集群

如果 OceanBase 集群已被其他 OCP 实例管理,则当前 OCP 无法重复管理该集群。

(1) 确认集群归属

  • 登录 OceanBase 集群,检查其配置文件(如 observer.config.ini),确认是否有其他 OCP 的注册信息。
  • 如果存在其他 OCP 的注册信息,请先从原 OCP 中移除该集群。

(2) 移除集群

  • 在原 OCP 中,进入 “OceanBase 集群” 页面。
  • 找到目标集群,点击 “移除” 按钮。
  • 确认移除后,再尝试在当前 OCP 中添加该集群。

4. 检查 OCP 和 OceanBase 版本兼容性

OCP 和 OceanBase 需要版本兼容,否则可能导致无法正确管理集群。

(1) 查看 OCP 和 OceanBase 版本

  • 在 OCP 的 “概览” 页面中,查看 OCP 的版本号。
  • 登录 OceanBase 集群,执行以下命令查看版本号:
    SELECT VERSION();
    

(2) 确认兼容性


5. 检查日志排查问题

如果上述步骤均未解决问题,可以通过查看 OCP 日志进一步排查。

(1) 查看 OCP 日志

  • 在 OCP 的 “日志服务” 模块中,查看最近的日志记录。
  • 关键字搜索:cluster discoverycluster registration

(2) 收集诊断信息

  • 使用 obdiag 工具收集诊断信息:
    obdiag collect all -o /path/to/output
    
  • 将生成的诊断文件上传至 OceanBase 技术支持团队进行分析。

6. 参考文档

上述操作基于 OCP 的功能特性,具体可参考以下文档:

  • 《OceanBase 云平台》文档 - OceanBase 集群管理
    提供了关于 OceanBase 集群的详细管理操作。
  • 《OceanBase 云平台》文档 - 集群注册与发现
    描述了如何将 OceanBase 集群注册到 OCP。

7. 总结

请按照以下步骤逐一排查:

  1. 确保 OceanBase 集群已正确注册到 OCP。
  2. 检查网络连通性和端口开放情况。
  3. 确认 OCP 是否已管理该集群,避免重复管理。
  4. 检查 OCP 和 OceanBase 的版本兼容性。
  5. 查看 OCP 日志或使用 obdiag 收集诊断信息。

希望以上信息能帮助您解决问题!如果仍有疑问,请提供更多上下文信息以便进一步分析。

检索到的文档如下:

  1. 查询 OBProxy 集群详情
  2. 使用图形化界面部署 OCP

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

接管过程报的错,重试了还是不行

已经改好了,有一个接管过程报的错您看一下


看起来是网络不通,这里点击下载 发下完整日志看下

这是下载的日志
subtask_135.log (20.3 KB)

失败后,识别了主机和租户,不应该网络不通啊

最终是成功了,ocp版本麻烦发下

从官网下载的4.3.5版本,这个不正常吧,OceanBase集群显示的正常为0,其他为1

是有些异常,版本在这里看

这个接口超时,在ocp-server telnet ocp-agent的62888端口试下

2025-03-13 16:08:30.003  INFO 1179041 --- [manual-subtask-executor16,600957da5cf46f25,6dceb2f65523ec8b] c.o.o.e.internal.template.HttpTemplate   : POST request to agent, url:http://192.168.10.151:62888/api/v1/module/config/update, request body:UpdateAgentConfigRequest(agentHome=null, configs=[(monagent.pipeline.ob.status=active), (monagent.pipeline.session.status=active), (monagent.pipeline.plan.monitor.status=active), (monagent.pipeline.plan.monitor.status=active), (monagent.pipeline.transaction.status=active), (monagent.pipeline.sql.audit.status=active), (monagent.pipeline.sql.plan.status=active), (monagent.pipeline.slow.sql.status=active), (ob.logcleaner.enabled=true), (ob.logtailer.enabled=true)]), params:null

2025-03-13 16:09:00.375 ERROR 1179041 --- [manual-subtask-executor16,600957da5cf46f25,6dceb2f65523ec8b] c.o.o.c.t.e.c.w.subtask.SubtaskExecutor  : Read timed out

OCP主机是153