OMS 增量同步组件启动失败 GHANA-OPERAT000003

【 使用环境 】 测试环境
【 OB or 其他组件 】OMS
【 使用版本 】4.2.9_CE
【问题描述】通过OMS 配置增量同步的方式将postgresql 15部分表的数据实时迁移到OceanBase_CE 4.3.5.0 。
会出现 GHANA-OPERAT000003 报错
错误信息:The response from the CM service is not success.
排查/home/admin/logs/ghana/Ghana/common-error.log 文件
有报错 :
CM response not success.
No enough machin resource for Store task,reason current cpu usage 4.1550465 exceed limited 0.85.

这个告警最终是因为 cpu 资源不足吗? 但是这台机器是 8 核心,当时查看容器整体 cpu 负载和 容器内 top 查看负载情况,都没有超过 2.0,也就是说 CPU 使用都没跑满 2 个核。为什么还会有这个错误并导致任务失败。

想知道这里的 0.85 是基于总的 CPU 使用率来计算的吗?

我现在这个 8核 CPU 的机器,如果每个核心的使用率为 80%,则总的 CPU 使用率为 640% / 8 = 80%。此时总使用率未达到 85% 的阈值,因此不会触发限制吗?

当时是通过重启 OMS 容器解决问题。
如果修改 drc-cm.properties 的 drcCfg.cpuUsedPercentThresHold参数,调整的更大,然后
supervisorctl restart oms_drc_cm 重启oms_drc_cm 服务。是否可以临时解决这个问题?

1 个赞

看一下组件监控 具体看看什么问题
排查/home/admin/logs/ghana/Ghana/common-error.log 文件 这个文件也发一下

1 个赞

查看组件监控,只有 Store 组件 且运行正常。
但是没有 Incr-Sync 组件

log文件无法拿取


1 个赞

我更想知道这里的 0.85 是基于总的 CPU 使用率来计算的吗?
如果是,那就是说当时获取的 cpu使用率是 415% × 8 ? 甚至我的日志有 5.1 的,那就是 5 × 8 ?4000%?

1 个赞

:+1: :+1: :grinning: :grinning:

你当时看的 load average是多少
image

oms容器执行一下
cat /sys/fs/cgroup/cpuacct/cpu.cfs_quota_us 看下值是多少