【 使用环境 】测试开发环境
【 OB or 其他组件 】 observer obproxy
【 使用版本 】3.1.4-OceanBase CE
【问题描述】手工安装的三副本集群,一直运行很正常,但是集群运行一段时间,大约一周后查看,突然发现三个节点的observer都停止了工作
【复现路径】/home/admin/oceanbase/store/obdemo
【问题现象及影响】
过一周后发现集群连接不上了,仔细查询发现先是observer几点都停止了。报错日志
[2022-09-04 06:21:00.430089] ERROR [SERVER.OMT] alloc (ob_worker_pool.cpp:93) [1685][448][Y0-0000000000000000] [lt=16] [dc=0] worker cnt larger than max cnt(worker_cnt_=256, max_cnt_=256) BACKTRACE:0x9a98e9e 0x986d141 0x22e245f 0x22e20ab 0x22e1e72 0x22d28c4 0x92e2f02 0x92e6a0d 0x92e7063 0x92f0054 0x92f05e7 0x2cabf02 0x9820da5 0x981f792 0x981c24f
【附件】
墨康
#3
可以看下你配置的cpu_count这个参数是多少, 建议调大,一般调到16,可以根据你的系统配置调整
阿绿
#4
日志中的报错不是进程退出的根本原因。可以看看日志有没有其他error。根据目前的报错信息看是 建租户,但是资源不够就报错了。
墨康
#6
提供下日志信息,crash的话最后日志会打印出来堆栈,另外看下有没有对应的core文件生成
另外确认下你的机器三个节点是同一时间停的么
今天看,居然节点1和节点二的observer自动好了,但是节点三的observer还是没有进程,这个是最初报的错误[2022-09-05 10:52:09.513440] INFO [SHARE.PT] ob_partition_location_cache.cpp:3191 [1987][1033][Y0-0000000000000000] [lt=4] [dc=0] add_update_task success(task={table_id:{value:1099511627984, first:1, second:208}, partition_id:14, add_timestamp:1662346329513432, cluster_id:1, type:0}, leader_inactive_async_update=true, now=1662346329513432, location={table_id:{value:1099511627984, first:1, second:208}, partition_id:14, partition_cnt:0, pg_key:{tid:18446744073709551615, partition_id:-1, part_idx:268435455, subpart_idx:268435455}, replica_locations:[{server:“172.16.1.227:2882”, role:2, sql_port:2881, replica_type:0, reserved:0, property:{memstore_percent_:100}}, {server:“172.16.1.228:2882”, role:2, sql_port:2881, replica_type:0, reserved:0, property:{memstore_percent_:100}}], renew_time:1662346329232556, sql_renew_time:1662346329232556, is_mark_fail:false}, is_nonblock=true)
[2022-09-05 10:52:09.513463] ERROR [SERVER.OMT] alloc (ob_worker_pool.cpp:93) [1679][438][Y0-0000000000000000] [lt=16] [dc=0] worker cnt larger than max cnt(worker_cnt_=256, max_cnt_=256) BACKTRACE:0x9a98e9e 0x986d141 0x22e245f 0x22e20ab 0x22e1e72 0x22d28c4 0x92e2f02 0x92e6a0d 0x92e7063 0x92f0054 0x92f05e7 0x2cabf02 0x9820da5 0x981f792 0x981c24f