OMS迁移过程中任务rps卡在0

【 使用环境 】测试环境
【 OB or 其他组件 】Oceanbase数据库和OMS
【 使用版本 】OceanBase_CE-v4.3.4.1,OMS镜像版本feature_4.2.1_ce
【问题描述】使用OMS迁移相同版本的OB版本数据到本地机房时全量迁移步骤rps和实时流量都卡死,行数也没有增长

  1. 排查了日志报错很多是我目标端的访问拒绝,但是我已经同步了一大半的数据了,而且我也检查了网络账号等等都是通的
    2.还有一个很奇怪的点,卡死了我把整个任务点击暂停后再恢复,他又会跑一分钟左右有rps和流量的,一分钟过后又卡死。
    3.一开始我这个oms好像不支持我的OB版本,任务开始的时候报错了我参考了官方文档https://www.oceanbase.com/docs/community-oms-cn-1000000002947274给容器内部的cdc升级到了oceanbase-ce-cdc-4.3.4.1-101000032024121814.el7.x86_64.rpm
    4.再补充一点,这个OMS迁移任务自启动以来就报错数据库连接密码错误了
    【复现路径】oms任务暂停再恢复就能复现
    【附件及日志】



    error.log (118.5 KB)
1 个赞

查看一下组件监控 截图看看


第一第二个是因为一开始版本不匹配导致的异常

访问ob被拒绝了 ,确认下密码,有过修改数据源密码的操作吗?数据源连接还正常吗?看下数据源详情那

这个都检查了没有问题的,从始至终都没改过密码,我已经同步了70%的数据了都,这个报错如果有问题一开始就不会同步数据行了

您说的是全量同步 70% ??
从OCP 查看下 目标库的 rps 情况, 截图发下看看, 您说的 卡死的时间段

您登录下 observer截图看下 , obclient 登录, 您更改端口成 22881了??

从password= YES 的报警来看 , 密码不对。
您截图 数据一直在增长看看。 一般疑难杂症 可能都是 自己的小失误 造成的 。

实际机器不是这个端口,走了内网映射Observer实际还是2881的

好像是超时的问题,有个表有个json字段特别大,查询source端超时了,找到有部分日志一直超时的,有什么方式可以排除掉这个表或者修改内置的ob_query_timeout参数吗


全量组件的整个日志 发一下 看着是报错信息 是被ob拒绝了

日志目录 /home/ds/run/{组件ID}/logs
错误日志 error.log
程序运行日志 connector.log

已经找到问题了,源端有个JSON字段巨大,通过主键查询单条有时候都需要60秒,全量迁移的组件内置的Hint设置的十分钟超时,然后我怀疑这些线程超时就不处理了,找了很多方式修改批量或者修改查询时间都没有效果
尝试方式1:OMS-系统管理-系统参数调整


尝试方式2:OMS迁移任务详情-查看组件监控-全量导入组件-更新
image
尝试方式3:移除某个表,使用的是匹配对象规则,4.2.1版本好像不支持减少对象
尝试方式3: 暂停这个迁移任务升级到最新的OMS版本是否还没保留迁移的数据状态?
大佬给推荐还有什么解决方式

升级一下oms版本吧,4.2.1太老了,高版本这个超时时间更大。升级之后重建个全量链路,之前的链路可能恢复不了了