【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】4.2.1.0社区版
【问题描述】清晰明确描述问题
接之前cgroup问题的帖子:配置cgroup - #8,来自 AntTech_8CMHRO
继续请教下,我的cgroup配置有一个月了,最近发现又有点控制不住cpu的使用了
我的集群是2-2-2,每个节点cpu数32core,分配给用户租户是16core,系统租户是2core,这样的话cpu使用率应该在18 /32 = 56%,但是现在使用率达到了85%,已经超过了限制,如下图:
请问这是怎么回事,cgroup对cpu的限制也不是100%能限制住的吗
皇甫侯
2024 年8 月 19 日 16:24
#3
是按照官网这个做的,刚配置完那几天是ok的,后来就没关注了,最近cpu使用率又告警了,才知道cgroup对cpu的限制好像有点不起作用了
皇甫侯
2024 年8 月 19 日 16:50
#5
OCP上的监控也是一样的吗。。OBServer上会不会有其他程序在跑
没装ocp, 装的ocp_express, ocp_express 上显示的主机cpu使用率略低一些,observer上面还有一个node_exporter和ob_agent,这两个cpu使用率很低,关键是刚配好那会没问题,最近几天cpu使用率才上升,有没有什么办法能看到cgroup现在有没有生效呢,比如有视图能查一下
淇铭
2024 年8 月 20 日 10:45
#8
你把挂载目录、软连接、集群参数 查看一下 截图发一下 看看有啥问题没有
齐安
2024 年8 月 20 日 13:01
#9
1、判断cgroup是否生效目前没有视图可以看,只能通过grep “ob_cgroup_ctrl.cpp” observer.log查看是否有INFO日志,有INFO日志代表cgroup正常,有ERROR或者WARN也代表了不正常
2、建议用top命令查看一下observer占了多少cpu,用top -H -p pidof observer
命令查看一下observer具体是什么线程占的cpu比较多
1 个赞
用top 命令看了,observer占用1800% 到 2400%之间,1800%还算正常,2400%这个值有点大了
top -H -p pidof observer 这个命令我明天看一下,我们是凌晨到第二天中午在跑批,会满负荷运行
淇铭
2024 年8 月 20 日 15:18
#14
你在按照7楼说的 麻烦你在搜一下日志信息 看看有没有报错信息
有报错,我在他的下面回复了,麻烦一起帮忙看下谢谢,我就不重复回复了
补充下:
我们一共三个zone,六个节点,有四个节点看起来是能限制住的,我找了其中一个节点也查了下日志,确实是没有报错的,都是INFO信息,截图如下:
对比看起来,是在tenant_1012 这个目录的权限不一样,
正常的节点权限是 drwxrwxr-x 10 admin admin 0 Jul 22 22:00 tenant_1012
异常的节点权限是 drwxrwxrwx 10 admin admin 0 Jul 22 22:00 tenant_1012
麻烦帮忙分析下谢谢
齐安
2024 年8 月 20 日 17:40
#22
看日志是操作cgroup文件的时候出现了问题,报错有系统errno=2,也就是代表着 No such file or directory,看你发的确实是没有cgroup/tenant_1012/tenant_1011文件夹,group工作是不太正常
,不知你试试手动mkdir cgroup/tenant_1012/tenant_1011会报错么?
1 个赞