grafana 监控页面报错

先华为后天 · 2023 年2 月 1 日 10:35

ob.rar (1.0 KB)

热海 · 2023 年2 月 1 日 10:36

请问您是刚刚部署上监控吗？

先华为后天 · 2023 年2 月 1 日 10:39

不是，把obagent添加到集群部署配置文件里了，部署集群时一起部署的，参数文件见上面附件，不知道是不是哪有错误的地方，部署和初始化是没报错

热海 · 2023 年2 月 1 日 10:41

好的，稍等，我看下您的配置

热海 · 2023 年2 月 1 日 10:56

看你的报错是因为你匹配了太多的prometheus指标，导致prometheus报错。
可以参考一下这个报错：Prometheus - Match all metrics but one - Stack Overflow
修改一下新增图表的prometheus sql

先华为后天 · 2023 年2 月 1 日 11:41

感觉应该是普罗里没有数据，或者说是虽然部署上来，但没和集群有关联

热海 · 2023 年2 月 1 日 12:10

试试不要带筛选条件看看prometheus有没有数据

热海 · 2023 年2 月 1 日 12:12

或者看看prometheus上你部署的agent收集器有没有注册上来？

先华为后天 · 2023 年2 月 1 日 15:03

这个要怎么看？

热海 · 2023 年2 月 1 日 15:49

打开prometheus地址，输入/targets，可以看到注册到prometheus的收集器

先华为后天 · 2023 年2 月 1 日 15:55

这几个是down的

热海 · 2023 年2 月 1 日 16:41

down就代表两种可能：1.收集器未启动 2.收集器的端口未对prometheus开放
顺着这两个去排查一下

先华为后天 · 2023 年2 月 1 日 16:51

收集器是指的obagent吧，3台机器上进程都是正常的
admin 4070118 1 99 Jan31 ? 1-15:41:51 /data/oceanbase/obagent/bin/monagent -c conf/monagent.yaml
这3台机器没有防火墙之类的端口限制，可能跑的东西比较乱有k8s啥的，测试到普罗的端口也没问题

但是 netstat看没有到普罗的连接