【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】V4.3.5
【问题描述】磁盘校准失败是怎么判断的,有没有规则。 现在测试3台虚拟机都是失败,但是看IOPS其实挺高的。磁盘性能并不差。
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
论坛小助手
#3
日志采集场景: IO问题
日志采集命令: obdiag gather scene run --scene=observer.io
为了更好地帮助您解决磁盘校准失败的问题,需要您提供一些额外的信息:
- 请确认三台虚拟机的磁盘配置是否一致,包括但不限于磁盘类型、挂载方式等。
- 在进行磁盘校准时,是否有特定的错误信息或提示?如果有,请提供具体的错误信息。
- 除了IOPS表现良好外,其他磁盘性能指标(如延迟、吞吐量)是否也正常?
- 是否在OceanBase集群配置中对磁盘相关参数进行了自定义设置?如果有,请提供相关配置详情。
另外,虽然obdiag当前没有专门针对磁盘校准失败的根因分析场景,但通过上述的日志采集命令可以收集到与IO相关的诊断信息,有助于进一步排查问题。建议您执行该命令并将采集到的日志提供给我们以供分析。
附上敏捷诊断工具 obdiag 使用帮助链接
皇甫侯
#4
你是在OCP部署OB集群的时候提示磁盘性能测试报错了吗?
推荐部署其实都是SSD,虚拟机的磁盘性能不达标正常,跳过这个任务也能部署上但不保证性能,等部署完后有个 oceanbase.GV$OB_IO_BENCHMARK 视图会记录磁盘性能校准的结果,你可以看看
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000002016144
能出结果,但是不知道为啥结果是失败,IOPS,带宽,延迟 看着都还不错的。
论坛小助手
#6
根据您提供的信息,磁盘校准失败但IOPS、带宽和延迟等性能指标看起来正常,这可能意味着问题并不直接与磁盘的性能有关。为了进一步排查磁盘校准失败的原因,请按照以下步骤操作:
1. 检查错误日志
使用 obdiag
工具收集诊断信息,特别是与IO相关的日志。这可以帮助我们找到具体的错误信息或警告,从而更好地理解为什么磁盘校准会失败。
obdiag gather scene run --scene=observer.io
2. 确认磁盘配置一致性
确保三台虚拟机的磁盘配置一致,包括但不限于:
-
磁盘类型:SSD、HDD或其他。
-
挂载方式:是否为直连磁盘、网络存储(如NFS)等。
-
文件系统格式:例如ext4、xfs等。
-
磁盘分区和挂载点设置。
3. 核实OceanBase配置
检查OceanBase集群中是否有对磁盘相关参数进行了自定义设置,比如:
-
data_disk_path
:数据磁盘路径。
-
clog_disk_usage_limit_percentage
:控制日志磁盘使用率上限百分比。
-
ssd_read_bandwidth_limit
和 ssd_write_bandwidth_limit
:限制SSD读写带宽。
4. 分析其他潜在因素
即使IOPS、带宽和延迟表现良好,仍需考虑其他可能导致磁盘校准失败的因素:
-
并发访问压力:是否存在大量并发请求导致短暂资源争用?
-
操作系统层面的问题:如内核版本、驱动程序兼容性等。
-
虚拟化平台特性:如果是云环境或虚拟化环境中运行,某些特性(快照、备份等)可能影响磁盘行为。
5. 提供更多信息
如果上述步骤后仍然无法确定原因,请提供更详细的日志信息以及任何特定的错误消息,以便进行更深入的分析。
通过以上方法,应该能够更准确地定位磁盘校准失败的具体原因。如果有需要进一步的帮助或者遇到了具体的技术难题,欢迎随时联系OceanBase技术支持团队获取专业指导。
检索到的文档如下:
- 操作任务
- 获取公钥
- 解锁租户
- 锁定租户
- 网络抖动
- 集群管理 FAQ
- 取消租户恢复
- 集群性能诊断
- 恢复回收站中的租户
(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)
皇甫侯
#7
大概率是延迟,这个表上记录的延迟时间是平均值。。我遇见过虚拟机延迟有超过10s导致io测试失败