【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4.3.5.2
【问题描述】备份使用的是OSS,备份是每天早上4点钟开始,最近开始数据备份频繁失败,然后日志备份就一直在进行中,导致机房分的带宽占满。
【复现路径】问题出现前后相关操作
【附件及日志】
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4.3.5.2
【问题描述】备份使用的是OSS,备份是每天早上4点钟开始,最近开始数据备份频繁失败,然后日志备份就一直在进行中,导致机房分的带宽占满。
【复现路径】问题出现前后相关操作
【附件及日志】
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
针对您提到的在生产环境中使用 OSS 备份时遇到的备份失败并且持续占用带宽的问题,我们可以首先使用 obdiag
工具来进行日志的采集,通过查看相关日志来确定备份失败的具体原因,以及是否存在异常的进程或配置导致带宽被持续占用。下面是具体的日志采集命令:
日志采集场景: 数据备份问题
日志采集命令: obdiag gather scene run --scene=observer.backup
请您执行上述命令并收集日志,之后您可以将收集到的日志发送给我们进行进一步分析,或者自行检查是否有明显的错误信息。
另外,为了确定具体的问题,在此需要您提供一些信息:
backup_dest
等。以上信息将有助于我们更准确地定位问题,请您配合提供,谢谢!
附上敏捷诊断工具 obdiag 使用帮助链接
obdiag version: 3.5.0
gather_scenes_run start …
gather from_time: 2025-08-11 09:10:31, to_time: 2025-08-11 09:41:31
[ERROR] Failed to find yaml task path: /root/.obdiag/gather/tasks/
[ERROR] ‘NoneType’ object is not subscriptable
[ERROR] command failed. Please contact OceanBase community. e: ‘NoneType’ object is not subscriptable
Trace ID: 2a6aadb0-7654-11f0-9cb4-000c2960574f
If you want to view detailed obdiag logs, please run: obdiag display-trace 2a6aadb0-7654-11f0-9cb4-000c2960574f
obdiag latest version is 3.6.0, current version is 3.5.0, please update obdiag to the latest version
执行命令报错,跟版本有关系?
这问题
什么情况呢
你升级到obdiag3.6.0再试下
你在这台机器上 根据这个trace_id 取下rootservice.log和observer.log 压缩发下,
如果日志已经被刷掉了,下次失败时取下
grep trace_id observer.log* > observertrc.log
grep trace_id rootservice.log* > rootservicetrc.log
升级了还是不行
已经没有了,有没有办法备份的时候限制带宽啊,不然会影响生产环境
sys_bkgd_net_percentage
用于设置后台系统任务可占用的网络带宽百分比,默认是占用60%的网络带宽,备份的网络速度也是受这个参数控制。
ha_low_thread_score
是备份相关的并发数参数,默认是2,可以设置1,也可以降低资源占用。
也可以参看下备份调优文档相关介绍。
https://www.oceanbase.com/docs/common-oceanbase-database-cn-standalone-1000000003577388#4-title-数据备份相关
ha_low_thread_score
这个值是0,是代表什么
学习
0 表示使用默认值,也就是2并发。
如果是备份的租户的话,是调整租户的参数就可以了吗?集群的参数不用调整吧
你可以看下楼上老师发的备份调优文档, sys_bkgd_net_percentage
这个参数是集群级的,其它参数基本是租户级的