ocp上的集群巡检报告结论错误问题

【 使用环境 】生产环境
【 OB or 其他组件 】OCP
【 使用版本 】4.4.0
【问题描述】


[root@cdh85-138 .ssh]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/centos-root 8.8T 820G 8.0T 10% /
devtmpfs 126G 0 126G 0% /dev
tmpfs 126G 12K 126G 1% /dev/shm
tmpfs 126G 1.6G 125G 2% /run
tmpfs 126G 0 126G 0% /sys/fs/cgroup
/dev/sda2 1014M 143M 872M 15% /boot
cm_processes 126G 384K 126G 1% /run/cloudera-scm-agent/process
tmpfs 26G 0 26G 0% /run/user/0
tmpfs 26G 0 26G 0% /run/user/1000
tmpfs 26G 0 26G 0% /run/user/1002

这巡检报告巡检出来说我机器磁盘用了97%,实际上明显不对,根目录8.8T也就用了10%,是BUG吗?

10 个赞

应该是预占用的磁盘都算进去了。用442巡检试试呢

4 个赞

如果是预占,应该df -h能直接看到是90%的吧?

1 个赞

是的

1 个赞

那我现在df -h看到的是正常的10%,说明不是预占问题
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/centos-root 8.8T 820G 8.0T 10% /

2 个赞


还有这个时钟偏移,说巡检值是can not query,是跑的啥命令没跑成呢?我看sudo systemctl status chronyd服务是正常的

1 个赞

执行下这个看下
select svr_ip, round(allocated_size/1024/1024/1024, 2) as total, round((allocated_size-free_size)/1024/1024/1024, 2) as used, round((allocated_size-free_size)/allocated_size*100, 2) as percent from __all_virtual_disk_stat

2 个赞

使用的是clockdiff命令 缺少clockdiff

2 个赞

用clockdiff试试

3 个赞

磁盘空间还有10%,得看给OB的是多少吧

2 个赞

obclient [(none)]> use oceanbase;select svr_ip, round(allocated_size/1024/1024/1024, 2) as total, round((allocated_size-free_size)/1024/1024/1024, 2) as used, round((allocated_size-free_size)/allocated_size*100, 2) as percent from __all_virtual_disk_stat;
Database changed
±--------------±-------±------±--------+
| svr_ip | total | used | percent |
±--------------±-------±------±--------+
| 172.20.85.138 | 300.00 | 96.84 | 32.28 |
±--------------±-------±------±--------+
1 row in set (0.014 sec)

这个算出来确实是97了,这要紧吗

root@cdh81-38 chansey]# clockdiff -o xx.xx.85.138
Overflow 1 hops
.Overflow 1 hops

host=xx.xx.85.138 rtt=6(0)ms/4ms delta=-7ms/-13ms Tue May 26 17:36:28 2026
clockdiff也有呢,是跑这个命令吗,对着ocp server的ip clockdiff?

看花眼了,这96.84是GB,不是百分比。。那和报告也对不上啊 @辞霜

是ocp的ip对着巡检集群执行clockdiff
这里看应该是采集的数据传输异常了,把used当成percent传输了。
试一下442版本吧

[root@cdh85-138 chansey]# clockdiff -o 192.168.81.38
Overflow 2 hops
.Overflow 2 hops
.Overflow 2 hops
.Overflow 2 hops

host=192.168.81.38 rtt=5(0)ms/3ms delta=0ms/0ms Tue May 26 18:17:24 2026

ocp往报错机器试clockdiff也是有结果的

还有就是ocp集群本身的巡检报告里也有这个clockdiff的can not query报错,明明clockdiff自己也是ok的
[root@cdh85-138 chansey]# clockdiff -o 172.20.85.138
.
host=172.20.85.138 rtt=750(187)ms/0ms delta=0ms/0ms Tue May 26 18:17:00 2026

你ocp是root用户部署的么。

是的 obd机器的root用户跑的部署,然后ocp机器上我ps -ef|grep server看也是运行在root下面的

1 个赞

感谢分享!

1 个赞

这个场景还没遇到过

1 个赞