obd社区版部署ocp监控报错

【 使用环境 】 测试环境
【 OB or 其他组件 】OCP
【 使用版本 】4.2.2.0
【问题描述】预检查成功部署报错但是无错误码
[WARN] Use centos 7 remote mirror repository for openEuler 22.03
±----------------------------------------------------------------------------------------+
| Packages |
±--------------±--------±-------------------±-----------------------------------------+
| Repository | Version | Release | Md5 |
±--------------±--------±-------------------±-----------------------------------------+
| ocp-server-ce | 4.2.2 | 20240315150922.el7 | 84a65bf0ec004e73b772938696b2b896a0ef2b2f |
±--------------±--------±-------------------±-----------------------------------------+
Repository integrity check ok
Parameter check ok
Generate ocp server configuration ok
Cluster status check ok
Initializes ocp-server work home ok
Remote ocp-server-ce-4.2.2-20240315150922.el7-84a65bf0ec004e73b772938696b2b896a0ef2b2f repository install ok
Remote ocp-server-ce-4.2.2-20240315150922.el7-84a65bf0ec004e73b772938696b2b896a0ef2b2f repository lib check ok
mhsb_ocp deployed
Search plugins ok
Load cluster param plugin ok
Check before start ocp-server ok
Create tenant ocp_meta

2025-03-19 16:01:12,967 WARNING _do_install (ocp_handler.py:735) [None] failed to start component: ocp-server-ce
2025-03-19 16:01:12,967 INFO _do_install (ocp_handler.py:737) [None] end start ocp-server-ce
2025-03-19 16:01:12,967 ERROR wrapper (task.py:140) [99eb120d6be345d688284dd2e4041232] task 6 got exception
Traceback (most recent call last):
File “service/common/task.py”, line 126, in wrapper
File “concurrent/futures/_base.py”, line 444, in result
File “concurrent/futures/_base.py”, line 389, in __get_result
File “concurrent/futures/thread.py”, line 57, in run
File “service/handler/ocp_handler.py”, line 752, in _do_install
Exception: task mhsb_ocp start failed

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

根据您提供的信息,OCP 部署过程中预检查成功,但在后续步骤中报错且未提供明确的错误码。以下是可能的原因及解决方法:

1. 问题分析

从日志和图片内容来看,部署过程中的关键步骤(如 Repository integrity checkParameter checkCluster status check 等)均显示为成功状态。然而,在创建租户 ocp_meta 的阶段出现问题,导致部署失败。

可能原因:

  • 组件版本不匹配:虽然预检查通过,但可能存在某些组件版本与 OCP 版本(4.2.2.0)不兼容的情况。
  • MetaDB 创建失败:在部署过程中需要创建 MetaDB 租户 ocp_meta,如果 OceanBase 数据库环境存在问题(如资源不足、权限问题等),可能导致该步骤失败。
  • 网络或依赖问题:某些依赖项(如 Java 环境、Python 脚本等)未正确配置或网络连接异常,也可能导致部署失败。

2. 解决方法

方法一:检查组件版本

根据文档片段 4 和 7 的信息,部署 OCP 时需要确保所有组件版本匹配。您可以执行以下命令检查并修改配置文件中的版本信息:

obd cluster edit-config <deploy_name>

在配置文件中,确认以下组件的版本是否正确:

  • ocp-server-ce: 4.2.2
  • oceanbase-ce: 4.2.1.8(建议使用此版本作为 MetaDB)
  • 其他依赖组件(如 obproxy-ce

保存后执行以下命令使修改生效:

obd deploy <deploy_name> apply

方法二:检查 MetaDB 创建过程

MetaDB 是 OCP 的核心元数据存储,创建失败可能是由于以下原因:

  • OceanBase 数据库资源不足:确保目标 OceanBase 集群有足够的资源(如内存、磁盘空间等)来创建租户。
  • 权限问题:确认当前用户是否具有足够的权限在 OceanBase 数据库中创建租户。

您可以手动尝试创建租户以验证问题:

CREATE TENANT ocp_meta 
  SET ob_tcp_invited_nodes = '%' 
  RESOURCE_POOL_LIST = ('sys_pool');

如果手动创建失败,请检查错误信息并修复相关问题。

方法三:检查依赖环境

根据文档片段 10 的信息,确保以下依赖环境已正确配置:

  • OBD 版本:确保已安装 OBD V2.4.0 或更高版本。
  • Java 环境:确保已安装 Java 1.8.0,并且构建版本号至少为 161。
  • 网络连接:如果机器无法连接公网,请确保已正确配置所需软件包(如 OceanBase、OBAgent、OBProxy、OCP 等)。

方法四:查看详细日志

根据文档片段 10 的说明,推荐使用 OceanBase 敏捷诊断工具 obdiag 收集诊断信息。具体操作如下:

obdiag collect log -t ocp -d <deploy_name>

将生成的日志文件上传至 OceanBase 社区论坛或技术支持团队以获取进一步帮助。


3. 总结

根据文档库中的信息,建议您按照以下步骤排查问题:

  1. 检查并确认所有组件版本是否匹配。
  2. 手动尝试创建 MetaDB 租户以验证数据库环境。
  3. 确保依赖环境(如 OBD、Java 等)已正确配置。
  4. 使用 obdiag 工具收集详细日志并联系 OceanBase 技术支持团队。

如果以上方法仍无法解决问题,请提供更多详细的日志信息以便进一步分析。

更多信息请查看:

  1. 通过图形化界面部署 OCP
  2. 使用图形化界面部署 OCP
  3. 错误码
  4. 使用图形化界面升级 OCP
  5. 使用 OCP 接管 obd 部署的集群
  6. OceanBase 集群常见问题
  7. OceanBase 安装部署工具 V1.3.3

2025-03-19 16:01:12,967 WARNING _do_install (ocp_handler.py:735) [None] failed to start component: ocp-server-ce
2025-03-19 16:01:12,967 INFO _do_install (ocp_handler.py:737) [None] end start ocp-server-ce
2025-03-19 16:01:12,967 ERROR wrapper (task.py:140) [99eb120d6be345d688284dd2e4041232] task 6 got exception
Traceback (most recent call last):
File “service/common/task.py”, line 126, in wrapper
File “concurrent/futures/_base.py”, line 444, in result
File “concurrent/futures/_base.py”, line 389, in __get_result
File “concurrent/futures/thread.py”, line 57, in run
File “service/handler/ocp_handler.py”, line 752, in _do_install
Exception: task mhsb_ocp start failed

根据您提供的日志信息,OCP 部署过程中 ocp-server-ce 组件启动失败,并抛出了异常 Exception: task mhsb_ocp start failed。以下是可能的原因及解决方法:


1. 问题分析

从日志中可以看出,ocp-server-ce 的启动任务在执行过程中失败了。具体原因可能包括以下几种情况:

(1) 组件版本不匹配

  • OCP 和其依赖组件(如 OceanBase 数据库、OBProxy 等)的版本可能存在不兼容的情况。
  • 根据文档片段 6 和 5 的信息,如果 OCP-Agent 或其他组件的版本与 OCP-Server 不一致,可能导致部署失败。

(2) MetaDB 租户创建失败

  • 在 OCP 部署过程中,需要在 OceanBase 数据库中创建 MetaDB 租户(如 ocp_meta)。如果数据库环境存在问题(如资源不足、权限问题等),可能导致该步骤失败。
  • 文档片段 7 提供了查询备份任务的示例,但未提及 MetaDB 创建的具体错误信息。

(3) 依赖环境配置问题

  • OCP 部署需要依赖一些外部环境(如 Java、Python 等)。如果这些环境未正确配置,可能导致部署失败。
  • 文档片段 9 提到特定场景下不停拉起 OBProxy 进程的问题,可能是由于依赖环境异常导致的。

(4) 日志信息不足

  • 当前日志仅显示任务失败的结果,未提供具体的错误原因。建议查看更详细的日志以定位问题。

2. 解决方法

方法一:检查组件版本

确保所有组件版本匹配。您可以执行以下命令检查当前部署的版本信息:

obd cluster status <deploy_name>

确认以下组件的版本是否正确:

  • ocp-server-ce: 4.2.2
  • oceanbase-ce: 4.2.1.8(建议使用此版本作为 MetaDB)
  • 其他依赖组件(如 obproxy-ce

如果版本不匹配,请重新下载并安装正确的软件包。

方法二:手动创建 MetaDB 租户

尝试手动创建 MetaDB 租户以验证数据库环境是否正常。执行以下 SQL 命令:

CREATE TENANT ocp_meta 
  SET ob_tcp_invited_nodes = '%' 
  RESOURCE_POOL_LIST = ('sys_pool');

如果手动创建失败,请检查以下内容:

  • 资源不足:确保目标 OceanBase 集群有足够的资源(如内存、磁盘空间等)。
  • 权限问题:确认当前用户是否具有足够的权限在 OceanBase 数据库中创建租户。

方法三:检查依赖环境

根据文档片段 9 的信息,确保以下依赖环境已正确配置:

  • OBD 版本:确保已安装 OBD V2.4.0 或更高版本。
  • Java 环境:确保已安装 Java 1.8.0,并且构建版本号至少为 161。
  • Python 环境:确保已安装 Python 3.7 或更高版本。
  • 网络连接:如果机器无法连接公网,请确保已正确配置所需软件包(如 OceanBase、OBAgent、OBProxy、OCP 等)。

方法四:查看详细日志

根据文档片段 1 的说明,推荐使用 OceanBase 敏捷诊断工具 obdiag 收集诊断信息。具体操作如下:

obdiag collect log -t ocp -d <deploy_name>

将生成的日志文件上传至 OceanBase 社区论坛或技术支持团队以获取进一步帮助。


3. 总结

根据文档库中的信息,建议您按照以下步骤排查问题:

  1. 检查并确认所有组件版本是否匹配。
  2. 手动尝试创建 MetaDB 租户以验证数据库环境。
  3. 确保依赖环境(如 OBD、Java、Python 等)已正确配置。
  4. 使用 obdiag 工具收集详细日志并联系 OceanBase 技术支持团队。

如果以上方法仍无法解决问题,请提供更多详细的日志信息以便进一步分析。

具体信息可参考以下文档:

  1. ob_cluster_operation_info OB 集群运维操作提醒
  2. 进程清单
  3. obagent_dead Agent 服务不可用
  4. 4000 ~ 4499
  5. upgrade_ocp_agent_failed OCP-Agent 升级失败
  6. oceanbase.CDB_OB_BACKUP_TASKS
  7. oceanbase.CDB_OB_BACKUP_TASK_HISTORY
  8. OCP V3.3.0
  9. host_agent_version_not_same 主机 OCP-Agent 版本与预期版本不一致

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

麻烦提供一份详细的obd日志和ocp-server日志(~/ocp/log)

请问下解决了吗,遇到一样的问题

是打包压缩算法出错吗

这下面未有任何日志

还没有,我在换一种办法部署

感觉不像是

看一下当前主机有java环境么

有的,且配置环境了的可以正常查询java版本

麻烦提供一份详细的obd日志和集群的yaml文件

你现在用另一个方式,是单独下载那个ocp的版本进去安装?现在成功了吗?

2025-03-19 17:03:54,150 INFO dispatch (idle_shutdown.py:36) [b4394327a5c0476bafd3d913e172691c] dispatch request and update last request time
2025-03-19 17:03:54,152 INFO get_install_task_info (ocp_handler.py:770) [b4394327a5c0476bafd3d913e172691c] get ocp install task info
2025-03-19 17:03:54,154 INFO dispatch (idle_shutdown.py:36) [74ea8542d49747329f589197931a67e3] dispatch request and update last request time
2025-03-19 17:03:54,156 INFO get_install_task_info (ocp_handler.py:770) [74ea8542d49747329f589197931a67e3] get ocp install task info
2025-03-19 17:03:54,161 INFO dispatch (request_response_log.py:43) [b4394327a5c0476bafd3d913e172691c] app send response, code: 200
2025-03-19 17:03:54,162 INFO dispatch (request_response_log.py:43) [74ea8542d49747329f589197931a67e3] app send response, code: 200
2025-03-19 17:03:56,192 INFO dispatch (request_response_log.py:40) [f1a49c3e1cfb46e99c05e0480d8f0b5f] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5?id=2&task_id=5, query_params: id=2&task_id=5, body: , from: 192.168.5.59:52136
2025-03-19 17:03:56,194 INFO dispatch (idle_shutdown.py:36) [f1a49c3e1cfb46e99c05e0480d8f0b5f] dispatch request and update last request time
2025-03-19 17:03:56,195 INFO get_install_task_info (ocp_handler.py:770) [f1a49c3e1cfb46e99c05e0480d8f0b5f] get ocp install task info
2025-03-19 17:03:56,201 INFO dispatch (request_response_log.py:40) [2c1c73bfada444678e9f57eb03d0de6a] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5/log, query_params: , body: , from: 192.168.5.59:61872
2025-03-19 17:03:56,202 INFO dispatch (idle_shutdown.py:36) [2c1c73bfada444678e9f57eb03d0de6a] dispatch request and update last request time
2025-03-19 17:03:56,204 INFO dispatch (request_response_log.py:43) [f1a49c3e1cfb46e99c05e0480d8f0b5f] app send response, code: 200
2025-03-19 17:03:56,204 INFO get_install_task_info (ocp_handler.py:770) [2c1c73bfada444678e9f57eb03d0de6a] get ocp install task info
2025-03-19 17:03:56,213 INFO dispatch (request_response_log.py:43) [2c1c73bfada444678e9f57eb03d0de6a] app send response, code: 200
2025-03-19 17:03:58,235 INFO dispatch (request_response_log.py:40) [3c0546f21bc14e33bb833158f2bd0f30] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5?id=2&task_id=5, query_params: id=2&task_id=5, body: , from: 192.168.5.59:61872
2025-03-19 17:03:58,236 INFO dispatch (request_response_log.py:40) [52290f053f0747fe9fbd2da118af4d1b] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5/log, query_params: , body: , from: 192.168.5.59:52136
2025-03-19 17:03:58,237 INFO dispatch (idle_shutdown.py:36) [3c0546f21bc14e33bb833158f2bd0f30] dispatch request and update last request time
2025-03-19 17:03:58,238 INFO get_install_task_info (ocp_handler.py:770) [3c0546f21bc14e33bb833158f2bd0f30] get ocp install task info
2025-03-19 17:03:58,239 INFO dispatch (idle_shutdown.py:36) [52290f053f0747fe9fbd2da118af4d1b] dispatch request and update last request time
2025-03-19 17:03:58,240 INFO get_install_task_info (ocp_handler.py:770) [52290f053f0747fe9fbd2da118af4d1b] get ocp install task info
2025-03-19 17:03:58,244 INFO dispatch (request_response_log.py:43) [3c0546f21bc14e33bb833158f2bd0f30] app send response, code: 200
2025-03-19 17:03:58,245 INFO dispatch (request_response_log.py:43) [52290f053f0747fe9fbd2da118af4d1b] app send response, code: 200
2025-03-19 17:04:00,260 INFO _do_install (ocp_handler.py:718) [None] deploy mhsb_ocp_one succeed
2025-03-19 17:04:00,261 INFO _do_install (ocp_handler.py:725) [None] begin start ocp-server-ce
2025-03-19 17:04:00,271 INFO dispatch (request_response_log.py:40) [6076a500ff3344379c7ee51bde23bcac] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5?id=2&task_id=5, query_params: id=2&task_id=5, body: , from: 192.168.5.59:52136
2025-03-19 17:04:00,272 INFO dispatch (request_response_log.py:40) [76c2b09c980d4accb08f254e3339b6a0] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5/log, query_params: , body: , from: 192.168.5.59:61872
2025-03-19 17:04:00,273 INFO dispatch (idle_shutdown.py:36) [6076a500ff3344379c7ee51bde23bcac] dispatch request and update last request time
2025-03-19 17:04:00,273 INFO get_install_task_info (ocp_handler.py:770) [6076a500ff3344379c7ee51bde23bcac] get ocp install task info
2025-03-19 17:04:00,275 INFO dispatch (idle_shutdown.py:36) [76c2b09c980d4accb08f254e3339b6a0] dispatch request and update last request time
2025-03-19 17:04:00,276 INFO get_install_task_info (ocp_handler.py:770) [76c2b09c980d4accb08f254e3339b6a0] get ocp install task info
2025-03-19 17:04:00,280 INFO dispatch (request_response_log.py:43) [6076a500ff3344379c7ee51bde23bcac] app send response, code: 200
2025-03-19 17:04:00,281 INFO dispatch (request_response_log.py:43) [76c2b09c980d4accb08f254e3339b6a0] app send response, code: 200
2025-03-19 17:04:01,658 WARNING _do_install (ocp_handler.py:735) [None] failed to start component: ocp-server-ce
2025-03-19 17:04:01,658 INFO _do_install (ocp_handler.py:737) [None] end start ocp-server-ce
2025-03-19 17:04:01,658 ERROR wrapper (task.py:140) [87b5c754b60c427b80833a5adf9ca5f7] task 2 got exception
Traceback (most recent call last):
File “service/common/task.py”, line 126, in wrapper
File “concurrent/futures/_base.py”, line 444, in result
File “concurrent/futures/_base.py”, line 389, in __get_result
File “concurrent/futures/thread.py”, line 57, in run
File “service/handler/ocp_handler.py”, line 752, in _do_install
Exception: task mhsb_ocp_one start failed
2025-03-19 17:04:01,659 INFO wrapper (task.py:143) [87b5c754b60c427b80833a5adf9ca5f7] task 2 finished failed
2025-03-19 17:04:02,304 INFO dispatch (request_response_log.py:40) [76ccfc00cc9448d599494e32544f3acf] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5?id=2&task_id=5, query_params: id=2&task_id=5, body: , from: 192.168.5.59:61872
2025-03-19 17:04:02,305 INFO dispatch (request_response_log.py:40) [c87e1f17b6444116b66e2243f55ed6e8] app receive request, method: GET, url: http://192.168.0.139:8680/api/v1/ocp/deployments/2/install/5/log, query_params: , body: , from: 192.168.5.59:52136
2025-03-19 17:04:02,305 INFO dispatch (idle_shutdown.py:36) [76ccfc00cc9448d599494e32544f3acf] dispatch request and update last request time
2025-03-19 17:04:02,307 INFO get_install_task_info (ocp_handler.py:770) [76ccfc00cc9448d599494e32544f3acf] get ocp install task info
2025-03-19 17:04:02,309 INFO dispatch (idle_shutdown.py:36) [c87e1f17b6444116b66e2243f55ed6e8] dispatch request and update last request time
2025-03-19 17:04:02,310 INFO get_install_task_info (ocp_handler.py:770) [c87e1f17b6444116b66e2243f55ed6e8] get ocp install task info
2025-03-19 17:04:02,313 INFO dispatch (request_response_log.py:43) [76ccfc00cc9448d599494e32544f3acf] app send response, code: 200
2025-03-19 17:04:02,315 INFO dispatch (request_response_log.py:43) [c87e1f17b6444116b66e2243f55ed6e8] app send response, code: 200

user:
username: admin_ocp
password:
port: 22
ocp-server-ce:
version: 4.2.2
package_hash: 84a65bf0ec004e73b772938696b2b896a0ef2b2f
release: 20240315150922.el7
servers:

  • 127.0.0.1
    global:
    home_path: /home/admin_ocp/ocp
    soft_dir: /home/admin_ocp/software
    log_dir: /home/admin_ocp/logs
    ocp_site_url: http://127.0.0.1:2888
    port: 2888
    admin_password:
    memory_size: 4G
    manage_info:
    machine: 10
    jdbc_url: jdbc:oceanbase://127.0.0.1:2881/oceanbase
    jdbc_username: root@sys
    jdbc_password:
    ocp_meta_tenant:
    tenant_name: ocp_meta
    max_cpu: 2.0
    memory_size: 4G
    ocp_meta_username: root
    ocp_meta_password:
    ocp_meta_db: meta_database
    ocp_monitor_tenant:
    tenant_name: ocp_monitor
    max_cpu: 2.0
    memory_size: 8G
    ocp_monitor_username: root
    ocp_monitor_password:
    ocp_monitor_db: monitor_database

还是报一样的错哦

你的ob集群的yaml呢,只看到了ocp-server-ce组件的了

集群是单机的、想接入ocp

发一份ob集群的yaml