数据库备份会导致带宽占满

AntTech_CTIJUU · 2025 年8 月 11 日 09:35

【使用环境】生产环境
【 OB or 其他组件】OB
【使用版本】4.3.5.2
【问题描述】备份使用的是OSS，备份是每天早上4点钟开始，最近开始数据备份频繁失败，然后日志备份就一直在进行中，导致机房分的带宽占满。
【复现路径】问题出现前后相关操作
【附件及日志】

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试，在发帖时输入 [@论坛小助手] 即可召唤小助手，欢迎试用！

论坛小助手 · 2025 年8 月 11 日 09:36

针对您提到的在生产环境中使用 OSS 备份时遇到的备份失败并且持续占用带宽的问题，我们可以首先使用 obdiag 工具来进行日志的采集，通过查看相关日志来确定备份失败的具体原因，以及是否存在异常的进程或配置导致带宽被持续占用。下面是具体的日志采集命令：

日志采集场景: 数据备份问题
日志采集命令: obdiag gather scene run --scene=observer.backup

请您执行上述命令并收集日志，之后您可以将收集到的日志发送给我们进行进一步分析，或者自行检查是否有明显的错误信息。

另外，为了确定具体的问题，在此需要您提供一些信息：

当前使用的 OSS 存储桶名称及区域是否正确？
是否可以访问到 OSS 服务，网络连接是否有异常？
备份失败时是否有特定的错误代码或错误信息？
OceanBase 集群的配置信息，特别是与备份相关的配置项，例如 backup_dest 等。
最近是否有对集群进行过任何配置更改或升级操作？

以上信息将有助于我们更准确地定位问题，请您配合提供，谢谢！

附上敏捷诊断工具 obdiag 使用帮助链接

AntTech_CTIJUU · 2025 年8 月 11 日 09:42

obdiag version: 3.5.0
gather_scenes_run start …
gather from_time: 2025-08-11 09:10:31, to_time: 2025-08-11 09:41:31
[ERROR] Failed to find yaml task path: /root/.obdiag/gather/tasks/
[ERROR] ‘NoneType’ object is not subscriptable
[ERROR] command failed. Please contact OceanBase community. e: ‘NoneType’ object is not subscriptable
Trace ID: 2a6aadb0-7654-11f0-9cb4-000c2960574f
If you want to view detailed obdiag logs, please run: obdiag display-trace 2a6aadb0-7654-11f0-9cb4-000c2960574f

obdiag latest version is 3.6.0, current version is 3.5.0, please update obdiag to the latest version

执行命令报错，跟版本有关系？

AntTech_TLY8FT · 2025 年8 月 11 日 09:43

这问题

AntTech_CTIJUU · 2025 年8 月 11 日 14:56

什么情况呢

旭辉 · 2025 年8 月 11 日 16:37

你升级到obdiag3.6.0再试下

旭辉 · 2025 年8 月 11 日 16:40

你在这台机器上根据这个trace_id 取下rootservice.log和observer.log 压缩发下,
如果日志已经被刷掉了，下次失败时取下

grep trace_id observer.log* > observertrc.log
grep trace_id rootservice.log* > rootservicetrc.log

AntTech_CTIJUU · 2025 年8 月 11 日 16:55

升级了还是不行

AntTech_CTIJUU · 2025 年8 月 11 日 16:56

已经没有了，有没有办法备份的时候限制带宽啊，不然会影响生产环境

秃蛙 · 2025 年8 月 11 日 17:15

sys_bkgd_net_percentage 用于设置后台系统任务可占用的网络带宽百分比，默认是占用60%的网络带宽，备份的网络速度也是受这个参数控制。

ha_low_thread_score 是备份相关的并发数参数，默认是2，可以设置1，也可以降低资源占用。

也可以参看下备份调优文档相关介绍。
https://www.oceanbase.com/docs/common-oceanbase-database-cn-standalone-1000000003577388#4-title-数据备份相关

AntTech_CTIJUU · 2025 年8 月 11 日 17:22

ha_low_thread_score这个值是0，是代表什么

少校 · 2025 年8 月 12 日 09:53

学习

秃蛙 · 2025 年8 月 12 日 10:18

0 表示使用默认值，也就是2并发。

AntTech_CTIJUU · 2025 年8 月 13 日 14:07

如果是备份的租户的话，是调整租户的参数就可以了吗？集群的参数不用调整吧

旭辉 · 2025 年8 月 13 日 15:41

你可以看下楼上老师发的备份调优文档， sys_bkgd_net_percentage 这个参数是集群级的，其它参数基本是租户级的

AntTech_CTIJUU · 2025 年8 月 20 日 07:50

我今天手动执行了一次备份，数据全量备份备份成功了，但是日志备份延迟了一万多秒，导致带宽又被占满了

awker · 2025 年8 月 20 日 08:22

必须的

GonG_z · 2025 年8 月 20 日 09:00

学习

独善其身 · 2025 年8 月 20 日 09:04

能做带宽限制吧

AntTech_JOGQWV · 2025 年11 月 15 日 09:17

期待更多分享