使用OCP部署单机集中式失败

【 使用环境 】测试环境
【 OB or 其他组件 】OCP
【 使用版本 】OCP 社区版 4.3.4-20250114101305
【问题描述】清晰明确描述问题
使用OCP部署单机集中式,在Create resource manager for default user 执行失败,同时检查服务器ob服务停止,重试也无法再次进行部署

【复现路径】正常部署操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
日志文件
subtask_896.log (27.2 KB)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

推荐使用 obdiag 工具进行日志采集,并且将采集到的日志提供给我们以便确认问题所在。上述命令可以帮助我们收集集群无法连接的相关信息,这对于诊断 OceanBase 服务停止的原因非常重要。

另外,为了确定具体的问题,在此需要您提供一些信息:

  1. 创建默认用户的资源管理器步骤失败时,是否有任何具体的错误消息或代码?如果有,请提供详细的错误描述。
  2. 在创建默认用户资源管理器步骤之前,OceanBase 数据库是否运行正常?是否有执行过其他操作或变更?
  3. 您能否检查服务器上的系统日志(如 /var/log/messages 或者 systemd 日志),看是否有与 OceanBase 服务停止相关的信息?
  4. 您使用的 OceanBase 和 OCP 的具体版本是什么?

通过这些信息,我们可以更准确地定位问题并给出解决方案。请根据以上要求收集信息和日志,并将结果反馈给我们。

附上敏捷诊断工具 obdiag 使用帮助链接

麻烦发下observer.log

observer.log.zip (8.0 MB)
文件bi比较大,我压缩了一下

根据您提供的 observer.log 文件以及使用 obdiag 工具进行离线日志分析的结果,obdiag 的分析结果显示状态为 PASS,这意味着从日志的角度来看,并没有发现明显的错误或异常信息。然而,这并不完全排除问题的存在,因为某些问题可能不会在日志中留下明显的痕迹。

为了进一步排查问题,建议采取以下步骤:

  1. 检查 OCP 日志

    • 由于问题是发生在 OCP 部署过程中,因此需要检查 OCP 的日志文件,特别是与任务执行相关的日志。OCP 日志通常位于 /var/log/oceanbase/ocp 目录下。
    • 关注 task-executor.logapp.log 文件,这些文件记录了任务执行的详细信息和任何潜在的错误。
  2. 检查 OceanBase 数据库的日志级别

    • 确认遇到问题时的日志级别是否设置得当。建议日志级别不高于 WDIAG,以确保能够捕获足够的调试信息。
    • 如果当前日志级别较高(如 INFOWARN),可以考虑调整日志级别后重新尝试部署操作,并在问题重现后收集日志。
  3. 检查系统资源和环境配置

    • 确认服务器的系统资源(CPU、内存、磁盘空间等)是否充足,特别是在创建资源管理器的过程中。
    • 检查是否有其他进程或服务占用了必要的端口(如 2881 和 2882),导致 OceanBase 无法正常启动。
  4. 重试并监控过程

    • 在重试部署的过程中,实时监控 OCP 和 OceanBase 的日志输出,以便及时捕捉任何异常信息。
    • 使用 tail -f 命令实时查看日志文件的变化,例如:
      tail -f /var/log/oceanbase/ocp/task-executor.log
      
  5. 参考官方文档和社区支持

    • 查看 OceanBase 官方文档 中关于 OCP 部署的相关章节,确保所有步骤都正确无误。
    • 如果问题仍然无法解决,建议联系 OceanBase 的人工答疑团队,提供详细的日志和环境信息,以便获得更专业的帮助。

通过以上步骤,应该能够更全面地排查并解决问题。如果在执行上述步骤后仍有疑问,请随时反馈更多信息,我们将继续协助您解决问题。

检索到的文档如下:

  1. 遇到问题如何向技术支持同学提问
  2. 日志
  3. 离线分析指定的日志文件
  4. OceanBase Binlog 服务
  5. Alert 日志
  6. enable_syslog_recycle
  7. obdiag
  8. oceanbase.DBA_OB_TEMP_FILES

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

[2025-02-12 16:36:01.720610] WDIAG [COMMON] init_from_os (ob_cpu_topology.cpp:97) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=31][errcode=0] cpu flag is not found(CPU_FLAG_CMDS[i]="grep -E ' avx( |$)' /proc/cpuinfo")
[2025-02-12 16:36:01.724033] WDIAG [COMMON] init_from_os (ob_cpu_topology.cpp:97) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=39][errcode=0] cpu flag is not found(CPU_FLAG_CMDS[i]="grep -E ' avx2( |$)' /proc/cpuinfo")
[2025-02-12 16:36:01.727475] WDIAG [COMMON] init_from_os (ob_cpu_topology.cpp:97) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=36][errcode=0] cpu flag is not found(CPU_FLAG_CMDS[i]="grep -E ' avx512bw( |$)' /proc/cpuinfo")
[2025-02-12 16:36:01.727500] INFO  [COMMON] CpuFlagSet (ob_cpu_topology.cpp:63) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=24] #flag is supported
[2025-02-12 16:36:01.727511] WDIAG [COMMON] CpuFlagSet (ob_cpu_topology.cpp:64) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=10][errcode=0] #flag is not supported
[2025-02-12 16:36:01.727531] WDIAG [COMMON] CpuFlagSet (ob_cpu_topology.cpp:65) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=20][errcode=0] #flag is not supported
[2025-02-12 16:36:01.727540] WDIAG [COMMON] CpuFlagSet (ob_cpu_topology.cpp:66) [32496][observer][T0][Y0-0000000000000001-0-0] [lt=8][errcode=0] #flag is not supported
……
raise_exception:                                  ; preds = %normal_raise_block, %ob_fail, %ob_fail, %ob_fail
  %raise_exception91 = call i32 @_Unwind_RaiseException(%unwind_exception* %create_exception)
  unreachable

normal_raise_block:                               ; preds = %ob_fail
  %get_exception_class = call i64 @eh_classify_exception(i8* %load_sql_state)
  %get_exception_class.off = add i64 %get_exception_class, -3
  %switch = icmp ult i64 %get_exception_class.off, 2
  br i1 %switch, label %reset_ret_block, label %raise_exception

reset_ret_block:                                  ; preds = %normal_raise_block
  store i32 0, i32* %int_alloca, align 4
  br label %ob_success
}
")
[2025-02-12 16:37:43.384657] INFO  [COMMON] try_inc_thread_count (ob_dynamic_thread_pool.cpp:504) [32502][qth_mgr][T0][Y0-0000000000000000-0-0] [lt=10] try inc thread count(*this={name:TimerWK, this:0x7f67c63eb590, min_thread_cnt:4, max_thread_cnt:128, running_thread_cnt:4, threads_idle_time:239981740, tenant_id:1}, cur_thread_count=7, cnt=-1, new_thread_count=6)
[2025-02-12 16:37:43.384715] INFO  [LIB] do_thread_recycle (threads.cpp:163) [32502][qth_mgr][T0][Y0-0000000000000000-0-0] [lt=32] recycle one thread(this=0x7f67c63eb590, total=7, remain=6)
[2025-02-12 16:37:43.384729] INFO  [COMMON] try_inc_thread_count (ob_dynamic_thread_pool.cpp:509) [32502][qth_mgr][T0][Y0-0000000000000000-0-0] [lt=13] inc thread count(*this={name:TimerWK, this:0x7f67c63eb590, min_thread_cnt:4, max_thread_cnt:128, running_thread_cnt:4, threads_idle_time:239981740, tenant_id:1}, cur_thread_count=7, cnt=-1, new_thread_count=6)
[2025-02-12 16:37:43.392501] INFO  [RPC.OBRPC] do_server_loop (ob_net_keepalive.cpp:498) [32637][KeepAliveServer][T0][Y0-0000000000000000-0-0] [lt=27] socket need_disconn(n=-1, errno=9)
[2025-02-12 16:37:43.392552] INFO  [RPC.OBRPC] do_server_loop (ob_net_keepalive.cpp:528) [32637][KeepAliveServer][T0][Y0-0000000000000000-0-0] [lt=39] server connection closed, fd: 88, addr: "192.168.2.112:54768"
CRASH ERROR!!! IP=5566302e13a0, RBP=7f67548499c0, sig=4, sig_code=2, sig_addr=0x5566302e13a0, RLIMIT_CORE=unlimited, timestamp=1739349463393031, tid=33103, tname=T1_L0_G28, trace_id=YB42C0A80270-00062DEDDA7834BD-0-0, lbt=0x1f96b218 0x1f1b698d 0x7f67cd43e72f 0x8bb63a0 0x9be8a9c 0x9c0812c 0x9c08505 0x9be51fd 0x9a466c5 0xa5f92d9 0xa5fa810 0xa5f85ef 0x924c3cf 0x924cafc 0x9253edc 0x9253edc 0x924ed8d 0x92176d1 0x92177b1 0x9217ad3 0x9224c5c 0x9226bd3 0x9226edb 0x9237427 0x1ef0327a 0x1eee447d 0xebf34b2 0xebf0fc5 0xebe4b4b 0xec2577e 0xec5339b 0xec473c9 0xeaa14cd 0xea7362e 0x14a77faa 0x11bba464 0x7c4fe26 0x7923e9c 0x792151d 0x7c4d9c4 0x7c4cd09 0x7c482ee 0x7cf5030 0x7cf4929 0xf8dbc1a 0xf8f4a69 0x81cfe74 0x78b043b 0x789e118 0xfc77118, SQL_ID=E9E2014C8CE705871C555597A6A32456, SQL_STRING=CALL DBMS_STATS.ASYNC_GATHER_STATS_JOB_PROC(600000000);

原因是当前使用的cpu不支持avx指令,OB内核用到了avx指令,可以使用lscpu命令看下cpu指令集确认下

解决方案:
更换支持AVX指令的CPU型号

obdiag也可以巡检出来

另外从OB4.3.5的下一个版本开始没有avx指令集的机器会直接不让启动了

和这个帖子是一样的

好的,谢谢