cgroup 限制租户cpu的使用

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】4.2.1.0社区版
【问题描述】清晰明确描述问题
接之前cgroup问题的帖子:配置cgroup - #8,来自 AntTech_8CMHRO
继续请教下,我的cgroup配置有一个月了,最近发现又有点控制不住cpu的使用了
我的集群是2-2-2,每个节点cpu数32core,分配给用户租户是16core,系统租户是2core,这样的话cpu使用率应该在18 /32 = 56%,但是现在使用率达到了85%,已经超过了限制,如下图:


请问这是怎么回事,cgroup对cpu的限制也不是100%能限制住的吗

cgroup的设置是按照下面者篇文档设置的吗,对应的挂载目录、软连接啥的都设置了吧

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000035654

是按照官网这个做的,刚配置完那几天是ok的,后来就没关注了,最近cpu使用率又告警了,才知道cgroup对cpu的限制好像有点不起作用了

OCP上的监控也是一样的吗。。OBServer上会不会有其他程序在跑

没装ocp, 装的ocp_express, ocp_express 上显示的主机cpu使用率略低一些,observer上面还有一个node_exporter和ob_agent,这两个cpu使用率很低,关键是刚配好那会没问题,最近几天cpu使用率才上升,有没有什么办法能看到cgroup现在有没有生效呢,比如有视图能查一下

你把挂载目录、软连接、集群参数 查看一下 截图发一下 看看有啥问题没有

1、判断cgroup是否生效目前没有视图可以看,只能通过grep “ob_cgroup_ctrl.cpp” observer.log查看是否有INFO日志,有INFO日志代表cgroup正常,有ERROR或者WARN也代表了不正常

2、建议用top命令查看一下observer占了多少cpu,用top -H -p pidof observer命令查看一下observer具体是什么线程占的cpu比较多

1 个赞

用top 命令看了,observer占用1800% 到 2400%之间,1800%还算正常,2400%这个值有点大了

top -H -p pidof observer 这个命令我明天看一下,我们是凌晨到第二天中午在跑批,会满负荷运行



你在按照7楼说的 麻烦你在搜一下日志信息 看看有没有报错信息

咱们帖子里面不会显示是多少楼吧 :sweat_smile:

截屏2024-08-20 15.35.20
在旁边显示的 你看这个 这个就代表楼数

最好是搞个数字,这样直观点。。这个进度条也不好看 :sweat_smile:




有报错,请帮忙分析下谢谢

有报错,我在他的下面回复了,麻烦一起帮忙看下谢谢,我就不重复回复了

非常感谢你的反馈 我们收集一下

补充下:
我们一共三个zone,六个节点,有四个节点看起来是能限制住的,我找了其中一个节点也查了下日志,确实是没有报错的,都是INFO信息,截图如下:



对比看起来,是在tenant_1012 这个目录的权限不一样,
正常的节点权限是 drwxrwxr-x 10 admin admin 0 Jul 22 22:00 tenant_1012
异常的节点权限是 drwxrwxrwx 10 admin admin 0 Jul 22 22:00 tenant_1012

麻烦帮忙分析下谢谢

看日志是操作cgroup文件的时候出现了问题,报错有系统errno=2,也就是代表着 No such file or directory,看你发的确实是没有cgroup/tenant_1012/tenant_1011文件夹,group工作是不太正常
,不知你试试手动mkdir cgroup/tenant_1012/tenant_1011会报错么?

1 个赞