OMS数据同步失败(OB-KAFAKA)

【 使用环境 】生产环境
【 OB or 其他组件 】OMS4.2.7_CE OB4.3.4 kafaka
【 使用版本 】 社区版.
【问题描述】使用 OMS4.2.7_CE 将 OB4.3.4 数据同步至 kafaka**(全量+增量)**, 同步任务在增量拉取阶段报错 (INNER_ERROR)。

同步任务配置

OMS与源端OB租户没有出现资源瓶颈,目前日志中没有出现明显的报错
调整迁移任务相关组件的资源后,重启同步任务依然报错

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
libcdc日志
libcdc.log.docx (39.5 KB)

store日志

congo.log
congo.log.docx (7.3 KB)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

7 个赞

查看组件监控,截个图看下

1 个赞


libcdc.log.docx (38.5 KB)

2 个赞
  1. store组件点更新,截个图看下配置,drc_frame.dbversion是多少
  2. oms容器内执行 ll /home/ds/lib64/reader/ob-ce-4.3-reader,发一下结果
2 个赞


2 个赞

能发一下完整的日志吗, 上面发的没看到报错信息。
这几个路径下的文件打包发一下:
/home/ds/store/store71xx/log/*
/home/admin/logs/ghana/Ghana/common-default.log、common-error.log
/home/admin/logs/supervisor/supervisor.log、error.log

1 个赞

我传出来,日志中一直没有ERROR记录,并且没有error.log

2 个赞

通过网盘分享的文件:OMS_log
链接: 百度网盘 请输入提取码 提取码: s4xm
–来自百度网盘超级会员v2的分享

1 个赞

系统租户oceanbase库 下执行如下查询SQL, 发一下结果

WITH palf_log_stat AS (
SELECT
tenant_id,
MAX(begin_scn) AS palf_available_start_scn,
MIN(end_scn) AS palf_available_latest_scn,
SCN_TO_TIMESTAMP(MAX(begin_scn)) AS palf_available_start_scn_display,
SCN_TO_TIMESTAMP(MIN(end_scn)) AS palf_available_latest_scn_display
FROM GV$OB_LOG_STAT
WHERE tenant_id & 0x01 = 0 or tenant_id = 1
GROUP BY tenant_id
),
archivelog_stat AS (
SELECT
a.tenant_id AS tenant_id,
MIN(b.start_scn) AS archive_start_scn,
a.checkpoint_scn AS archive_latest_scn,
a.checkpoint_scn_display AS archive_available_latest_scn_display
FROM CDB_OB_ARCHIVELOG a
LEFT JOIN CDB_OB_ARCHIVELOG_PIECE_FILES b
ON a.tenant_id = b.tenant_id AND a.round_id = b.round_id
AND b.file_status != ‘DELETED’ AND a.STATUS = ‘DOING’
GROUP BY a.tenant_id
)
SELECT
pls.tenant_id,
pls.palf_available_start_scn,
pls.palf_available_latest_scn,
pls.palf_available_start_scn_display AS palf_available_start_scn_display,
pls.palf_available_latest_scn_display AS palf_available_latest_scn_display,
als.archive_start_scn AS archive_available_start_scn,
als.archive_latest_scn AS archive_available_latest_scn,
CASE WHEN als.archive_start_scn IS NOT NULL THEN SCN_TO_TIMESTAMP(als.archive_start_scn) ELSE NULL END AS archive_available_start_scn_dispalay,
als.archive_available_latest_scn_display
FROM palf_log_stat pls
LEFT JOIN archivelog_stat als ON pls.tenant_id = als.tenant_id
GROUP BY pls.tenant_id, pls.palf_available_start_scn;

2 个赞


2 个赞

这是啥

1 个赞

厉害

1 个赞

老师,目前有什么结论吗

1 个赞

根据上面的palf_available_start_scn 还有租户信息 查一下这个值
SELECT SNAPSHOT_SCN, SCN_TO_TIMESTAMP(SNAPSHOT_SCN) FROM CDB_OB_DATA_DICTIONARY_IN_LOG where tenant_id = 1010 and snapshot_scn >= ${CLOG最早可用位点} order by snapshot_scn ASC limit 1;

2 个赞

ps -ef | grep store71xx,看一下store进程在不在。

项目组件监控那里再截个图,截完整一点

2 个赞

store目录下有个位点文件 /home/ds/store/store71xx/drc.topics.xxx,drc.topics.开头的,cat 发一下文件内容

2 个赞


1 个赞

1 个赞

1 个赞

supervisorctl status 看一下组件状态
ps -ef | grep oms-supervisor 看一下supervisor进程

1 个赞