数据库备份会导致带宽占满

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4.3.5.2
【问题描述】备份使用的是OSS,备份是每天早上4点钟开始,最近开始数据备份频繁失败,然后日志备份就一直在进行中,导致机房分的带宽占满。
【复现路径】问题出现前后相关操作
【附件及日志】

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

2 个赞

针对您提到的在生产环境中使用 OSS 备份时遇到的备份失败并且持续占用带宽的问题,我们可以首先使用 obdiag 工具来进行日志的采集,通过查看相关日志来确定备份失败的具体原因,以及是否存在异常的进程或配置导致带宽被持续占用。下面是具体的日志采集命令:

日志采集场景: 数据备份问题
日志采集命令: obdiag gather scene run --scene=observer.backup

请您执行上述命令并收集日志,之后您可以将收集到的日志发送给我们进行进一步分析,或者自行检查是否有明显的错误信息。

另外,为了确定具体的问题,在此需要您提供一些信息:

  1. 当前使用的 OSS 存储桶名称及区域是否正确?
  2. 是否可以访问到 OSS 服务,网络连接是否有异常?
  3. 备份失败时是否有特定的错误代码或错误信息?
  4. OceanBase 集群的配置信息,特别是与备份相关的配置项,例如 backup_dest 等。
  5. 最近是否有对集群进行过任何配置更改或升级操作?

以上信息将有助于我们更准确地定位问题,请您配合提供,谢谢!

附上敏捷诊断工具 obdiag 使用帮助链接

2 个赞

obdiag version: 3.5.0
gather_scenes_run start …
gather from_time: 2025-08-11 09:10:31, to_time: 2025-08-11 09:41:31
[ERROR] Failed to find yaml task path: /root/.obdiag/gather/tasks/
[ERROR] ‘NoneType’ object is not subscriptable
[ERROR] command failed. Please contact OceanBase community. e: ‘NoneType’ object is not subscriptable
Trace ID: 2a6aadb0-7654-11f0-9cb4-000c2960574f
If you want to view detailed obdiag logs, please run: obdiag display-trace 2a6aadb0-7654-11f0-9cb4-000c2960574f

obdiag latest version is 3.6.0, current version is 3.5.0, please update obdiag to the latest version

执行命令报错,跟版本有关系?

2 个赞

这问题

2 个赞

什么情况呢

2 个赞

你升级到obdiag3.6.0再试下

1 个赞

你在这台机器上 根据这个trace_id 取下rootservice.log和observer.log 压缩发下,
如果日志已经被刷掉了,下次失败时取下

grep trace_id observer.log* > observertrc.log
grep trace_id rootservice.log* > rootservicetrc.log

1 个赞

升级了还是不行

1 个赞

已经没有了,有没有办法备份的时候限制带宽啊,不然会影响生产环境

1 个赞

sys_bkgd_net_percentage 用于设置后台系统任务可占用的网络带宽百分比,默认是占用60%的网络带宽,备份的网络速度也是受这个参数控制。

ha_low_thread_score 是备份相关的并发数参数,默认是2,可以设置1,也可以降低资源占用。

也可以参看下备份调优文档相关介绍。
https://www.oceanbase.com/docs/common-oceanbase-database-cn-standalone-1000000003577388#4-title-数据备份相关

2 个赞

ha_low_thread_score这个值是0,是代表什么

1 个赞

学习

1 个赞

0 表示使用默认值,也就是2并发。

1 个赞

如果是备份的租户的话,是调整租户的参数就可以了吗?集群的参数不用调整吧

你可以看下楼上老师发的备份调优文档, sys_bkgd_net_percentage 这个参数是集群级的,其它参数基本是租户级的