ocp上的集群巡检报告结论错误问题

吉利蛋 · 2026 年5 月 26 日 16:16

【使用环境】生产环境
【 OB or 其他组件】OCP
【使用版本】4.4.0
【问题描述】

[root@cdh85-138 .ssh]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/centos-root 8.8T 820G 8.0T 10% /
devtmpfs 126G 0 126G 0% /dev
tmpfs 126G 12K 126G 1% /dev/shm
tmpfs 126G 1.6G 125G 2% /run
tmpfs 126G 0 126G 0% /sys/fs/cgroup
/dev/sda2 1014M 143M 872M 15% /boot
cm_processes 126G 384K 126G 1% /run/cloudera-scm-agent/process
tmpfs 26G 0 26G 0% /run/user/0
tmpfs 26G 0 26G 0% /run/user/1000
tmpfs 26G 0 26G 0% /run/user/1002

这巡检报告巡检出来说我机器磁盘用了97%，实际上明显不对，根目录8.8T也就用了10%，是BUG吗？

辞霜 · 2026 年5 月 26 日 16:26

应该是预占用的磁盘都算进去了。用442巡检试试呢

吉利蛋 · 2026 年5 月 26 日 16:28

如果是预占，应该df -h能直接看到是90%的吧？

辞霜 · 2026 年5 月 26 日 16:28

是的

吉利蛋 · 2026 年5 月 26 日 16:29

那我现在df -h看到的是正常的10%，说明不是预占问题
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/centos-root 8.8T 820G 8.0T 10% /

吉利蛋 · 2026 年5 月 26 日 16:32

还有这个时钟偏移，说巡检值是can not query，是跑的啥命令没跑成呢？我看sudo systemctl status chronyd服务是正常的

辞霜 · 2026 年5 月 26 日 16:40

执行下这个看下
select svr_ip, round(allocated_size/1024/1024/1024, 2) as total, round((allocated_size-free_size)/1024/1024/1024, 2) as used, round((allocated_size-free_size)/allocated_size*100, 2) as percent from __all_virtual_disk_stat

辞霜 · 2026 年5 月 26 日 16:43

使用的是clockdiff命令缺少clockdiff

leimingfeng · 2026 年5 月 26 日 16:45

用clockdiff试试

Sunshining · 2026 年5 月 26 日 17:04

磁盘空间还有10%，得看给OB的是多少吧

吉利蛋 · 2026 年5 月 26 日 17:13

obclient [(none)]> use oceanbase;select svr_ip, round(allocated_size/1024/1024/1024, 2) as total, round((allocated_size-free_size)/1024/1024/1024, 2) as used, round((allocated_size-free_size)/allocated_size*100, 2) as percent from __all_virtual_disk_stat;
Database changed
±--------------±-------±------±--------+
| svr_ip | total | used | percent |
±--------------±-------±------±--------+
| 172.20.85.138 | 300.00 | 96.84 | 32.28 |
±--------------±-------±------±--------+
1 row in set (0.014 sec)

这个算出来确实是97了，这要紧吗

吉利蛋 · 2026 年5 月 26 日 17:37

root@cdh81-38 chansey]# clockdiff -o xx.xx.85.138
Overflow 1 hops
.Overflow 1 hops
…
host=xx.xx.85.138 rtt=6(0)ms/4ms delta=-7ms/-13ms Tue May 26 17:36:28 2026
clockdiff也有呢，是跑这个命令吗，对着ocp server的ip clockdiff？

吉利蛋 · 2026 年5 月 26 日 17:43

看花眼了，这96.84是GB，不是百分比。。那和报告也对不上啊 @辞霜

辞霜 · 2026 年5 月 26 日 18:02

是ocp的ip对着巡检集群执行clockdiff
这里看应该是采集的数据传输异常了，把used当成percent传输了。
试一下442版本吧

吉利蛋 · 2026 年5 月 26 日 18:18

[root@cdh85-138 chansey]# clockdiff -o 192.168.81.38
Overflow 2 hops
.Overflow 2 hops
.Overflow 2 hops
.Overflow 2 hops
…
host=192.168.81.38 rtt=5(0)ms/3ms delta=0ms/0ms Tue May 26 18:17:24 2026

ocp往报错机器试clockdiff也是有结果的

吉利蛋 · 2026 年5 月 26 日 18:19

还有就是ocp集群本身的巡检报告里也有这个clockdiff的can not query报错，明明clockdiff自己也是ok的
[root@cdh85-138 chansey]# clockdiff -o 172.20.85.138
.
host=172.20.85.138 rtt=750(187)ms/0ms delta=0ms/0ms Tue May 26 18:17:00 2026

辞霜 · 2026 年5 月 26 日 18:25

你ocp是root用户部署的么。

吉利蛋 · 2026 年5 月 26 日 19:15

是的 obd机器的root用户跑的部署，然后ocp机器上我ps -ef|grep server看也是运行在root下面的

XingQ · 2026 年5 月 26 日 22:36

感谢分享！

sherq1989 · 2026 年5 月 27 日 08:03

这个场景还没遇到过