ocp 安装 oceanbase 失败

【 使用环境 】 测试环境

【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题

参考链接: 概述-V4.3.2-OceanBase 云平台OCP文档-分布式数据库使用文档

通过 链接安装新的ocp 服务,安装到最后报错了,下面是日志信息

系统界面信息显示:

错误日志1:

[2024-09-27 16:49:47.110] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - cmd: [‘test’]

[2024-09-27 16:49:47.110] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - opts: {‘servers’: None, ‘components’: None, 'force_delete

': None, ‘strict_check’: None, ‘without_parameter’: None}

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - mkdir /root/.obd/lock/

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - unknown lock mode

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - try to get share lock /root/.obd/lock/global

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - share lock /root/.obd/lock/global, count 1

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - Get Deploy by name

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - mkdir /root/.obd/cluster/

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - mkdir /root/.obd/config_parser/

[2024-09-27 16:49:47.111] [72ed17fe-7cad-11ef-b857-c025a5afb437] [DEBUG] - try to get exclusive lock /root/.obd/lock/deploy_test

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] Another app is currently holding the obd lock.

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] Traceback (most recent call last):

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “_lock.py”, line 64, in _ex_lock

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “tool.py”, line 499, in exclusive_lock_obj

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] BlockingIOError: [Errno 11] Resource temporarily unavailabl

e

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR]

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] During handling of the above exception, another exception o

ccurred:

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR]

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] Traceback (most recent call last):

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “_lock.py”, line 85, in ex_lock

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “_lock.py”, line 66, in _ex_lock

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] _errno.LockError: [Errno 11] Resource temporarily unavailab

le

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR]

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] During handling of the above exception, another exception o

ccurred:

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR]

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] Traceback (most recent call last):

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “obd.py”, line 246, in do_command

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “obd.py”, line 938, in _do_command

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “core.py”, line 2040, in start_cluster

[2024-09-27 16:49:47.112] [72ed17fe-7cad-11ef-b857-c025a5afb437] [ERROR] File “_deploy.py”, line 1846, in get_deploy_config

错误日志2:

2024-09-27 16:43:21,565 INFO dispatch (idle_shutdown.py:36) [6c6e7675fd3a464280194384e5df70fa] dispatch request and update last requ

est time

2024-09-27 16:43:21,566 INFO get_install_task_info (ocp_handler.py:844) [6c6e7675fd3a464280194384e5df70fa] get ocp install task info

2024-09-27 16:43:21,568 INFO dispatch (request_response_log.py:43) [6c6e7675fd3a464280194384e5df70fa] app send response, code: 200

2024-09-27 16:43:21,678 ERROR wrapper (task.py:140) [274282e1fe8b4221aed5f4da0a3a377e] task 1 got exception

Traceback (most recent call last):

File “service/common/task.py”, line 126, in wrapper

File “concurrent/futures/_base.py”, line 444, in result

File “concurrent/futures/_base.py”, line 389, in __get_result

File “concurrent/futures/thread.py”, line 57, in run

File “service/handler/ocp_handler.py”, line 819, in _do_install

Exception: task test start failed

2024-09-27 16:43:21,679 INFO wrapper (task.py:143) [274282e1fe8b4221aed5f4da0a3a377e] task 1 finished failed

2024-09-27 16:43:23,072 INFO dispatch (request_response_log.py:40) [2502ef3bf73d41eda6efe7dd536d3946] app receive request, method: G

ET, url: http://172.17.151.124:8680/api/v1/ocp/deployments/1/install/2/log, query_params: , body: , from: 172.17.151.70:61830

2024-09-27 16:43:23,073 INFO dispatch (idle_shutdown.py:36) [2502ef3bf73d41eda6efe7dd536d3946] dispatch request and update last requ

est time

2024-09-27 16:43:23,073 INFO get_install_task_info (ocp_handler.py:844) [2502ef3bf73d41eda6efe7dd536d3946] get ocp install task info

2024-09-27 16:43:23,074 INFO dispatch (request_response_log.py:43) [2502ef3bf73d41eda6efe7dd536d3946] app send response, code: 200

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

根据您提供的日志信息,安装过程中的错误主要集中在两个方面:

  1. 锁竞争问题:从错误日志1中可以看出,安装过程中出现了锁竞争的情况,具体表现为另一个应用程序正在持有 obd 锁,导致当前操作无法继续。这通常意味着在同一时间有多个 obd 实例试图对同一个集群进行操作。 [1]

    Another app is currently holding the obd lock.
    
  2. 任务执行失败:错误日志2中提到的任务执行失败,具体异常信息为 task test start failed,这表明在执行某个任务时发生了异常。 [1]

针对上述问题,您可以尝试以下解决方案:

  • 解决锁竞争问题:确保在同一时刻没有其他 obd 实例正在对相同的集群进行操作。如果确实有其他进程在运行,请等待其完成后再重新尝试。如果不确定是否有其他进程在运行,可以尝试手动清除锁文件:

    rm -rf /root/.obd/lock/*
    

    清除锁文件后,再次尝试安装操作。

  • 检查任务执行日志:由于日志中提到的任务执行失败,建议您进一步查看具体的任务执行日志,了解更详细的错误信息。通常这些日志会记录在 obd 的日志目录中,可以通过 obd cluster log <deploy name> 命令查看。

如果上述方法仍无法解决问题,请尝试使用 obd cluster status <deploy name> 命令检查集群状态,并根据返回的状态信息进一步排查问题。此外,也可以使用 obd cluster clean <deploy name> 清理之前的部署信息后重新开始安装流程。 [1]

如果问题依旧存在,建议您联系 OceanBase 的技术支持团队获取进一步的帮助。

更多信息请查看:

  1. 错误码
  2. vpc_connect_failed VPC 连接失败
  3. ic_server_connect_failed Inter-Connector 服务端连接失败
  4. 通过图形化界面部署 OCP
  5. 安装并配置 obd
  6. 升级 OceanBase 数据库
  7. 使用命令行部署 OCP Express

[ERROR] Another app is currently holding the obd lock.
obd是否有在挂着obd web时候执行其他操作。

有其他obd命令占用,obd只支持单用户执行。
ps -ef|grep obd 看看是不是有其他的进程在运行

通过图形化界面部署 OCP

执行 obd web install 命令启动白屏界面

搭建集群时候obd web是需要在黑屏化保持运行的

就按照官方稳定执行了 obd web install 命令启动白屏界面 。

根据您提供的信息,您已经按照官方文档执行了 obd web install 命令来启动白屏界面,并且成功看到了输出的地址。但是,您遇到了一些问题,导致无法顺利进行后续的操作。以下是几个可能的原因和解决方法:

1. 确认输出的地址是否正确

当您执行 obd web install 命令后,会看到类似下面的输出:

start OBD WEB in 0.0.0.0:8680
please open http://10.10.10.1:8680

请确认输出的地址是否正确。如果是在阿里云或其他云环境下,可能出现程序无法获取公网 IP 的情况,从而输出内网地址。此时,您需要使用正确的地址访问白屏界面。 [1]

2. 确认端口是否被占用

白屏界面默认使用 8680 端口,如果您需要使用其他端口,可以使用 obd web install -p <PORT> 命令指定端口。请确保指定的端口未被其他服务占用。 [1]

3. 确认网络配置

如果您的环境中有多张网卡,obd web 命令绑定在 0.0.0.0 上,因此您可以通过任意一个可访问的 IP 访问白屏界面。 [1]

4. 检查防火墙设置

请确保您的服务器防火墙允许 8680 端口的访问。如果防火墙阻止了该端口的访问,您需要调整防火墙规则以允许外部访问。例如,您可以使用以下命令打开 8680 端口:

sudo firewall-cmd --zone=public --add-port=8680/tcp --permanent
sudo firewall-cmd --reload

5. 检查浏览器设置

请尝试使用不同的浏览器访问白屏界面,确保不是浏览器的问题导致无法访问。

6. 检查 obd 服务状态

如果以上方法都无法解决问题,请检查 obd 服务的状态,确保服务正常运行。您可以使用以下命令查看 obd 服务的状态:

systemctl status obd.service

7. 查看日志文件

如果仍然无法解决问题,建议查看 obd 的日志文件,以便进一步排查问题。日志文件通常位于 /var/log/obd/ 目录下。

8. 重新启动 obd 服务

如果 obd 服务出现问题,您可以尝试重启 obd 服务:

sudo systemctl restart obd.service

9. 清除缓存

如果之前的操作留下了缓存或临时文件,您可以尝试清除缓存文件:

rm -rf /tmp/obd*

10. 检查 DNS 设置

确保您的 DNS 设置正确,能够解析输出的 IP 地址。

11. 检查 SELinux 设置

如果您的系统启用了 SELinux,可能会影响 obd 服务的正常运行。您可以暂时禁用 SELinux 来排除这个问题:

sudo setenforce 0

12. 检查 iptables 规则

如果您的系统启用了 iptables,可能需要添加相应的规则来允许 8680 端口的访问:

sudo iptables -A INPUT -p tcp --dport 8680 -j ACCEPT
sudo service iptables save

希望以上步骤能帮助您解决问题。如果问题依然存在,请提供更多详细的错误信息以便进一步排查。

详情请参考:

  1. 通过图形化界面部署 OCP
  2. 快速体验 OceanBase 社区版
  3. 通过 OBD 白屏部署 OceanBase 集群

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

你好目前问题解决了么

虽然web上显示安装失败了 ,可是 oceabase服务已经安装好了 可以用,我担心重新安装出其他问题,就先用着了,没有重新安装,等研发测试完了之后 我再重新安装试试。

好的 下次安装前优先把obd升级一下看看。