OB 4.3.3.1 升级到4.3.5.1 后IOPS暴涨

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
OB
【 使用版本 】
4.3.5.1
【问题描述】清晰明确描述问题


3月23日凌晨升级到4.3.5.1 后磁盘io增加了许多,这是正常现象吗?
【复现路径】问题出现前后相关操作

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

日志采集场景: io问题
日志采集命令: obdiag gather scene run --scene=observer.io

推荐使用 obdiag 工具进行日志采集,以便我们确认 IOPS 增加的具体原因。请您运行上述命令并将采集到的日志提供给我们以便进一步分析。

另外,为了确定具体的问题,在此需要您提供一些信息:

  1. 升级前后是否有业务逻辑或查询模式的变化?
  2. 是否观察到具体的性能瓶颈(如延迟增加、吞吐量下降等)伴随 IOPS 的变化?
  3. 当前的磁盘类型和配置是否发生变化?
  4. 是否可以提供升级前后 IOPS 数据的具体对比情况?

附上敏捷诊断工具 obdiag 使用帮助链接

1 个赞

有怀疑先用敏捷诊断工具拿一份巡检报告回来
obdiag check run
文档:https://www.oceanbase.com/docs/common-obdiag-cn-1000000002488230

1 个赞

:+1: :+1: :+1:

上传不了附件,放网盘里了,麻烦看看

根据文档库中的信息,您提到无法直接上传附件而选择通过网盘分享日志文件。接下来您可以按照以下步骤进行问题排查和解决:

1. 确认 obdiag 日志内容

  • 您已经使用 obdiag 工具采集了日志,请确保日志文件中包含以下关键信息:
    • IO统计信息:如读写延迟、吞吐量等。
    • SQL执行计划:是否有高IO的SQL语句。
    • 系统配置:升级前后OceanBase的参数配置对比。

2. 下载并分析日志

  • 下载您提供的网盘链接中的日志文件后,可以参考以下步骤进行初步分析:
    • 使用 grep 或其他文本处理工具查找关键字,例如 IOPSIO_WAITDISK_USAGE 等。
    • 对比升级前后的日志,查看是否存在明显的性能差异。

3. 可能的原因及解决方案

根据 OceanBase 的社区版特性,以下是可能导致 IOPS 暴涨的一些常见原因及解决方法:

(1) 合并(Merge)操作的影响

  • 升级后可能触发了更频繁的合并操作,导致磁盘 IO 增加。
  • 解决方法:参考 合并管理 文档,调整合并策略或暂停不必要的合并操作。

(2) 参数配置的变化

  • 升级过程中可能修改了某些与 IO 相关的参数,例如 __min_full_merge_intervaldisk_iops_limit
  • 解决方法:对比升级前后的参数配置,恢复到适合业务场景的设置。

(3) 业务负载的变化

  • 如果升级后业务逻辑或查询模式发生变化,可能会导致更高的 IO 负载。
  • 解决方法:检查是否有新增的高 IO SQL 语句,并优化其执行计划。

4. 进一步支持

如果通过上述步骤仍无法定位问题,建议您:

  • 提供具体的日志分析结果或关键片段。
  • 联系 OceanBase 的官方技术支持团队,获取更专业的帮助。

希望以上信息对您有所帮助!如果需要进一步指导,请随时告知。

详情请参考:

  1. 转储
  2. 上传 RPM 包
  3. 合并

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

通过什么工具升级?建议压缩以后上传 我们没有办法从网盘里下载