OCP社区版部署集群失败

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】4.4.0-20251114143405
【问题描述】创建集群时在Bootstrap ob步骤失败,报错信息为:

Failed to check observer accessible, reason:[AgentClient]:http request is failed, response:Unexpected error: dial tcp 127.0.0.1:2881: connect: connection refused, cause:null

在对应节点上检查发现observer启动失败,报错信息:

[2026-03-20 16:29:30.444095] WDIAG do_create (ob_hashutils.h:1133) [1196313][observer][T0][Y0-0000000000000001-0-0] [lt=21][errcode=-4013] alloc memory failed,size:4718712
[2026-03-20 16:29:30.444103] WDIAG create (ob_hashtable.h:830) [1196313][observer][T0][Y0-0000000000000001-0-0] [lt=8][errcode=-4013] create buckets fail, ret=-4013
[2026-03-20 16:29:30.444111] WDIAG [SQL.ENG] init (ob_px_bloom_filter.cpp:769) [1196313][observer][T0][Y0-0000000000000001-0-0] [lt=7][errcode=-4013] create hash table failed(ret=-4013)
[2026-03-20 16:29:30.444127] EDIAG [SERVER] init (ob_server.cpp:497) [1196313][observer][T0][Y0-0000000000000001-0-0] [lt=13][errcode=-4013] init px blomm filter manager failed(ret=-4013, ret=“OB_ALLOCATE_MEMORY_FAILED”) BACKTRACE:0xaeb6c22 0xae6d30d 0xab267a0 0xab261a7 0xab260fd 0xab25f28 0x14d796d4 0x14d6afb4 0x109a82c8 0x109ad8d2 0x298be7d0 0x109aa527 0x7f128e5536e7 0xb548f0e
[2026-03-20 16:29:30.444219] EDIAG [SERVER] init (ob_server.cpp:560) [1196313][observer][T0][Y0-0000000000000001-0-0] [lt=91][errcode=-4013] [OBSERVER_NOTICE] fail to init observer(ret=-4013, ret=“OB_ALLOCATE_MEMORY_FAILED”) BACKTRACE:0xaeb6c22 0xae6d30d 0xab267a0 0xab261a7 0xab260fd 0xab25f28 0x14d7aa74 0x14d64a2b 0x109a82c8 0x109ad8d2 0x298be7d0 0x109aa527 0x7f128e5536e7 0xb548f0e
[2026-03-20 16:29:30.444287] ERROR [SERVER] init (ob_server.cpp:564) [1196313][observer][T0][Y0-0000000000000001-0-0] [lt=24][errcode=-4013] [server_start 4/18] observer init fail. you may find solutions in previous error logs or seek help from official technicians.

【复现路径】问题出现前后相关操作
【附件及日志】

【备注】节点配置为 32C 128G 参数模版使用的HTAP默认参数模版

2 个赞

发下集群完整参数看看

怎么获取集群完整参数

尽量把启动的完整的observer.log日志发一下 ob的版本号发一下
SHOW VARIABLES like ‘version_comment’;

新用户无法上传附件

你在发一下 看看能不能发 基本上完成一些资料填写 应该就能发文件

observer.log (705.6 KB)
OceanBase 版本号
4.5.0.0

[2026-03-23 09:58:37.465823] WDIAG print_alloc_failed_msg (alloc_failed_reason.cpp:156) [1883680][observer][T0][Y0-0000000000000001-0-0] [lt=11][errcode=-4013] [OOPS]: alloc failed reason is that physical memory exhausted(os_total: 133803646976, os_available: 127156883456, virtual_memory_used: 2143535104, server_hold: 897507328, errno: 12, alloc_size: 6291456). detailed info: tenant_id=500, ctx_id=0, ctx_name=DEFAULT_CTX_ID, ctx_hold=152428544, ctx_limit=9223372036854775807, tenant_hold=742719488, tenant_limit=9223372036854775807, backtrace=0xaeb6c22 0x109b0625 0x109afedd 0xa7d025b 0xa7cd765 0xaa8dfdf 0x195b5e6d 0x19471d9e 0x14d6906c 0x109a82c8 0x109ad8d2 0x298be7d0 0x109aa527 0x7f8e150fc6e7 0xb548f0e
alloc failed reason is that physical memory exhausted 表示 物理内存耗尽
可能是observer 的 memory_limit 配置过高
memory_limit(或 memory_limit_percentage)设置得接近或超过物理内存总量,可能导致系统其他进程或操作系统自身内存不足,从而触发 OOM 或分配失败。

参数模版使用的HTAP默认参数模版 没有自己改过参数

你看一下observer.config.bin在哪个路径下 你这样查看一下memory_limit和system_mem配置的是多大
strings /home/admin/oceanbase/etc/observer.config.bin | grep memory_limit
strings /home/admin/oceanbase/etc/observer.config.bin | grep system_mem

/home/admin/oceanbase 所有目录中都没有observer.config.bin

你的observer安装的位置 在哪个位置 自己找一下看看 截图看看 我上面的命令是举个例子


没有文件 那你这样手动拉起来 看看 先把memory_limit设置到80G 看看是否能起来
cd /home/admin/oceanbase && bin/observer -o “memory_limit=80G”

observer.log (137.3 KB)

还是不行

刚参数格式不对 这次生效了 还是启动不了
observer.log (137.2 KB)

这次的报错 就是这个observer.config.bin文件找不到了 你用find命令 在你observer的安装目录下 看看能不能找到

整个机器都找不到这个文件 要不这样吧 我回滚重新部署集群 需要配置哪些参数

没有这个配置文件 会有问题的 滚重新部署集群吧 部署的时候选择合适的模版参数

回滚试过很多次了 默认的模版都不行