启动observer报错

AntTech_MRY2AJ · 2023 年1 月 12 日 10:32

【使用环境】测试环境
【使用版本】3.1.4
【问题描述】启动observer后，日志持续报错
启动命令如下：
./observer -i ens192 -p 2881 -P 2882 -z zone1 -d /home/admin/oceanbase/store/obtest -r ‘172.255.128.123:2882:2881;172.255.128.124:2882:2881;172.255.128.125:2882:2881’ -c 20230110 -n obtest -o “memory_limit=10G,cache_wash_threshold=1G,__min_full_resource_pool_memory=268435456,system_memory=5G,memory_chunk_cache_size=128M,cpu_count=16,net_thread_count=4,datafile_size=50G,stack_size=1536K”

【附件】
observer.log报错如下：

[2023-01-12 10:29:57.063153] WARN [SHARE.PT] get (ob_partition_table_operator.cpp:145) [17657][762][Y0-0000000000000000] [lt=4] [dc=0] get partition info failed(ret=-5019, table_id={value:1099511628002, first:1, second:226}, partition_id=0)
[2023-01-12 10:29:57.063167] WARN [SHARE.PT] partition_table_fetch_location (ob_partition_location_cache.cpp:411) [17657][762][Y0-0000000000000000] [lt=12] [dc=0] Partition Operator get failed(cluster_id=-1, table_id={value:1099511628002, first:1, second:226}, partition_id=0, ret=-5019)
[2023-01-12 10:29:57.063172] WARN [SHARE.PT] fetch_location (ob_partition_location_cache.cpp:620) [17657][762][Y0-0000000000000000] [lt=3] [dc=0] fetch location through partition table operator failed(cluster_id=20230110, table_id={value:1099511628002, first:1, second:226}, partition_id=0, ret=-5019)
[2023-01-12 10:29:57.063196] WARN [SHARE.PT] renew_location (ob_partition_location_cache.cpp:3385) [17657][762][Y0-0000000000000000] [lt=3] [dc=0] fetch location failed(ret=-5019, table_id={value:1099511628002, first:1, second:226}, partition_id=0, expire_renew_time=0, cost=855, lbt()=“0x9a9c04e 0x2cfe056 0x2d33e67 0x2d36040 0x2d37bff 0x8a75260 0x8a7720e 0x8a7669d 0x8a7633c 0x8a76ecd 0x23ae7b4 0x23e2fe2 0x9a59d05 0x9a586f2 0x981f40f”)
[2023-01-12 10:29:57.063218] WARN [SHARE.PT] get (ob_partition_location_cache.cpp:2437) [17657][762][Y0-0000000000000000] [lt=10] [dc=0] renew location failed(ret=-5019, table_id={value:1099511628002, first:1, second:226}, partition_id=0, expire_renew_time_new=0, filter_not_readable_replica=true, lbt()=“0x9a9c04e 0x2d34020 0x2d36040 0x2d37bff 0x8a75260 0x8a7720e 0x8a7669d 0x8a7633c 0x8a76ecd 0x23ae7b4 0x23e2fe2 0x9a59d05 0x9a586f2 0x981f40f”)
[2023-01-12 10:29:57.063230] WARN [SHARE.PT] get (ob_partition_location_cache.cpp:2594) [17657][762][Y0-0000000000000000] [lt=9] [dc=0] get partition location failed(ret=-5019, partition={tid:1099511628002, partition_id:0, part_cnt:0}, expire_renew_time=0)
[2023-01-12 10:29:57.063235] WARN [SHARE.PT] get_strong_leader (ob_partition_location_cache.cpp:2698) [17657][762][Y0-0000000000000000] [lt=3] [dc=0] get failed(partition={tid:1099511628002, partition_id:0, part_cnt:0}, force_renew=false, expire_renew_time=0, ret=-5019)
[2023-01-12 10:29:57.063260] WARN [STORAGE.TRANS] process_cluster_heartbeat_rpc_cb (ob_tenant_weak_read_service.cpp:392) [17657][762][Y0-0000000000000000] [lt=5] [dc=0] tenant weak read service cluster heartbeat RPC fail(rcode={code:-5019, msg:“post cluster heartbeat rpc failed, tenant_id=1”, warnings:[]}, tenant_id_=1, dst=“172.255.128.123:2882”, cluster_service_pkey={tid:1099511628002, partition_id:0, part_cnt:0})
[2023-01-12 10:29:57.085727] WARN [SERVER] process (ob_rpc_processor_simple.cpp:1906) [17509][466][YB42ACFF807D-0005F207AADB0DEA] [lt=12] [dc=0] failed to get master root server(ret=-4638)

绵阳 · 2023 年1 月 12 日 16:55

看错误码是这个建议过段时间重试下

AntTech_MRY2AJ · 2023 年1 月 13 日 13:36

试了几次还是不行，我是在3台服务器上各创建了一个虚拟机，千兆的带宽。请问这个环境能创建出3副本的集群吗？还是说必须要在物理机、万兆带宽的环境上搭建？

Nroskill · 2023 年1 月 13 日 17:38

不熟悉的话建议用obd起，而不是手动拉起。

比如你这个参数明显是有问题的。

__min_full_resource_pool_memory=268435456

AntTech_MRY2AJ · 2023 年1 月 16 日 10:41

上面所有的参数都是视频中心里《2.4-手动部署OceanBase三副本集群》在9：02里给的，视频演示是没问题的，现在唯一不确定的就是环境的配置

绵阳 · 2023 年1 月 16 日 11:53

配置大小还要根据自己机器决定的， __min _full _resource _pool _memory 参数默认值为 5G，你要不改成默认的试试

绵阳 · 2023 年1 月 16 日 11:55

可以用obd拉起试试吗？

AntTech_MRY2AJ · 2023 年1 月 16 日 16:04

__min_full_resource_pool_memory这个参数我设置成500M就已经报错起不来了，设置256M可以启动。
在observer后面加上“-l ERROR”参数后，observer报错：
[2023-01-16 15:49:52.229840] WARN log_user_error_and_warn (ob_rpc_proxy.cpp:300) [32093][384][YB42ACFF807B-0005F25CD405B44B] [lt=14] [dc=0]
[2023-01-16 15:49:52.240864] WARN resolve_basic_table (ob_dml_resolver.cpp:1076) [32283][762][YB42ACFF807B-0005F25CD3B5B49D] [lt=13] [dc=0] Table ‘oceanbase.__all_root_table’ doesn’t exist

AntTech_MRY2AJ · 2023 年1 月 16 日 16:05

还没有试OBD

绵阳 · 2023 年1 月 16 日 16:44

__min_full_resource_pool_memory 参数控制一个UNIT的min_memory最小允许的值。
你的memory_limit和system_memory太小了，可以调大一点。
建议还是尝试用OBD启动

AntTech_MRY2AJ · 2023 年1 月 17 日 09:40

好的，我先把那2个参数调大一些，如果再不行用OBD启动试下。感谢回复~

绵阳 · 2023 年1 月 17 日 10:14

设置时可以遵照这个规则
memory_limt/3 ≤ system_memory ≤ memory_limt

皇甫侯 · 2023 年1 月 20 日 16:42

看看选举日志吧。。这种问题大概率像是时钟同步没做好

AntTech_MRY2AJ · 2023 年1 月 30 日 16:49

已经解决了，是fstab里面/data和/redo目录参数配的有问题