操作OceanBase失败,错误信息: (conn=3221726941) Timeout

【 使用环境 】测试环境
【 OB or 其他组件 】OB
【 使用版本 】
【问题描述】添加主机时报错,连接 sys 执行 alter system add server ? zone ? 失败,错误信息: (conn=3221726941) Timeout
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
subtask_1886.log (7.0 KB)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

根据您的描述,您在尝试通过执行 alter system add server 命令来添加新的主机到 OceanBase 集群时遇到了超时错误。这可能是由于操作过程中某些环节耗时过长导致的。

为了更准确地定位问题的原因,建议您使用 obdiag 工具来收集相关的诊断信息。

根因分析场景: 事务执行超时报错
根因分析命令: obdiag rca run --scene=transaction_execute_timeout

日志采集场景: 集群基础信息
日志采集命令: obdiag gather scene run --scene=observer.base

上述命令将会帮助我们收集到集群的基础信息以及针对事务执行超时的根因分析。请您执行上述命令并将生成的日志文件发送给我们,以便我们进一步分析。

为了更好地帮助您解决问题,请您提供以下信息:

  1. 添加服务器时的具体命令是什么?
  2. 您是否修改过默认的超时设置?例如 ob_query_timeout, ob_trx_timeout 等。
  3. 当前集群的状态如何?是否有其他异常情况发生?
  4. 您使用的 OceanBase 版本是多少?
  5. 失败时集群中正在进行哪些操作?是否有大量的读写请求或其他 DDL 操作正在执行?

具体信息可参考以下文档:

附上敏捷诊断工具 obdiag 使用帮助链接

1 个赞
  1. 添加服务器时的具体命令是什么?
    使用ocp图形化添加
  2. 您是否修改过默认的超时设置?例如 ob_query_timeout, ob_trx_timeout 等。
    没有
  3. 当前集群的状态如何?是否有其他异常情况发生?
    正常运行
  4. 您使用的 OceanBase 版本是多少?
    OceanBase 版本号4.3.1.0
  5. 失败时集群中正在进行哪些操作?是否有大量的读写请求或其他 DDL 操作正在执行?
    测试集群并没有在实际使用
1 个赞

麻烦发现完整的任务日志

1 个赞

根据您提供的信息,您在使用 OCP 图形化界面添加服务器时遇到了超时错误,且集群处于正常运行状态,没有进行大量读写请求或其他 DDL 操作。您使用的 OceanBase 版本为 4.3.1.0,并且没有修改过默认的超时设置。

在这种情况下,超时错误可能是由以下原因导致的:

  1. 网络延迟:尽管集群整体运行正常,但在添加服务器的过程中可能存在网络延迟或不稳定的情况,导致连接超时。
  2. 资源竞争:尽管您提到集群没有进行大量读写请求或其他 DDL 操作,但在添加服务器的过程中,集群内部可能仍然存在一些资源竞争的情况,导致操作超时。
  3. 系统配置:默认的超时设置可能不足以应对某些特定场景下的操作需求,尤其是在网络状况不佳或资源紧张的情况下。

解决方案建议:

1. 检查网络状况

  • 确保新加入的服务器与现有集群之间的网络连接稳定可靠。
  • 测试新服务器与其他服务器间的网络延迟,确保网络延迟在可接受范围内。

2. 调整超时设置

  • 尝试临时增加超时时间设置,例如 ob_query_timeoutob_trx_timeout,以适应当前操作的需求。
  • 您可以通过执行以下命令来调整这些超时设置:
    ALTER SYSTEM SET ob_query_timeout = '100000000';
    ALTER SYSTEM SET ob_trx_timeout = '100000000000';
    

3. 使用 obdiag 进行诊断

  • 执行 obdiag rca run --scene=transaction_execute_timeout 来进行事务执行超时的根因分析。
  • 执行 obdiag gather scene run --scene=observer.base 来收集集群的基础信息。

4. 检查集群负载

  • 确认在添加服务器的过程中集群的负载情况,确保没有其他操作导致资源竞争。

5. 联系技术支持

  • 如果上述步骤未能解决问题,建议联系 OceanBase 的技术支持团队寻求进一步的帮助和支持。

请尝试上述建议,并观察结果。如果问题仍然存在,请随时联系我们以获得更多的帮助。

具体信息可参考以下文档:

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

1 个赞

log_task_1823.zip (40.0 KB)

1 个赞

zoneName=Zone2, svrIp=43.224.226.211, svrPort=2882

在43.224.226.69上测试下
telnet 43.224.226.211 2882

1 个赞

确实telent不通

1 个赞

我现在是否可以删除这个任务,从1-1恢复到1。我这边显示都没有权限

可以删除,麻烦将报错截图发下,另外新增机器相关端口需要开放,参考

https://www.oceanbase.com/docs/common-ocp-1000000001126712

这个问题有进展吗?

我尝试过了,端口确实是正常的。我目前只能说把主机都删除掉了

端口是正常的,删除之后 重新添加还有报错吗?如果还有报错麻烦发下日志