oms 预检查报错,发现ob 上有一个 size is overflow的报错

【 使用环境 】测试环境
【 OB 】
【 使用版本 】
OceanBase_CE 4.3.5.4

【问题描述】
obserser 日志中有size is overflow(length=13312, pos=4, need_size=23701, ret=-4019)的报错,如下图

从报错看需要23701,但是当前的长度是13312,想了解部分内存不足导致的,哪些配置可以控制

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

针对您遇到的问题,我们可以使用 obdiag 工具进行日志采集和根因分析。首先,我们需要收集关于 DDL 操作过程中磁盘空间不足的相关日志,以便确认具体是哪个操作导致了该问题。接下来,我们会根据日志进一步分析问题的原因。

根因分析场景: DDL过程中报磁盘空间不足的问题
根因分析命令: obdiag rca run --scene=ddl_disk_full
日志采集场景: 磁盘空间不足
日志采集命令: obdiag gather scene run --scene=observer.clog_disk_full

请您按照上述命令使用 obdiag 工具采集日志,并将生成的日志文件压缩包提供给我们,这将有助于我们更准确地定位问题。在等待日志的同时,为了更好地了解您的情况,请回答以下问题:

  1. 当前 OceanBase 集群的版本是什么?
  2. 您是否进行了大量的数据写入或修改操作?
  3. 您是否有定期监控磁盘空间使用情况的习惯?
  4. 除了 ‘size is overflow’ 的错误之外,还有没有其他异常的日志或警告信息?
  5. 这次问题之前,您最近一次成功执行大操作是什么时候?

感谢您的配合。我们将根据您提供的信息进一步分析问题并给出解决方案。

附上敏捷诊断工具 obdiag 使用帮助链接

根据这个traceID过滤observer.log 发下

另外发下包含这个时间的前后的 3个observer.log

集群部署架构是什么?是单节点还是1-1-1或者其它架构?
目前产生的影响是什么?

我想了解这块是哪个参数控制的

我在oms上做迁移链路,预检查时报错,发现ob里有这个报错信息,我就想知道 size is overflow 具体指的哪块溢出了,哪个参数控制的

当前影响是:
影响迁移链路的创建,并且是测试环境

架构是1-1-1

trace_id 截图

过滤的日志
0006412D2DCB4CEF.log (2.5 KB)

这个报错是非预期的,这不是哪个参数控制的,这个节点租户存在队列积压,是只有这一个节点报错吗?

三个节点都有

队列积压一般重启observer就可以解决,通常是资源不足 需要扩容,如果针对具体问题查根因需要提供一系列信息

那我的oms预检查报错感觉跟这个是不是没有关系:

我oms预检查时报如下错:
Could not connect to 10.186.63.26:2883 : unexpected end of stream, read 0 bytes from 4 (socket was closed by server)

但是我登录oms容器是可以连接的

这个是OMS的元数据库?

不是,是我要做迁移的数据库目标端,新建链路后的预检查时报错

这个集群你先重启下 再试试

重启集群后没有效果

我联系OMS的老师看看

哪个预检查报的错,截个图看下

目的端库做一下查询看看,select CATALOG_NAME, SCHEMA_NAME, DEFAULT_CHARACTER_SET_NAME, DEFAULT_COLLATION_NAME, SQL_PATH from information_schema.schemata

报错提示无法连接目标端,通过oms 服务器黑屏连接,是可以连接的