服务器宕机重启后，数据库启动不了

Mouron · 2025 年3 月 24 日 09:49

【使用环境】生产环境

【 OB or 其他组件】ocp

【使用版本】
oceanbase-ce-4.2.1.2
OceanBase Deploy: 2.4.0

【问题描述】
白天服务器宕机，服务器重启后，数据库就起不来了

【复现路径】

启动时屏幕输出如下：

【附件及日志】
observer.log 附件如下
observer.log.zip (10.0 MB)
配置yaml文件如下
dstarv10.yaml.zip (1.5 KB)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试，在发帖时输入 [@论坛小助手] 即可召唤小助手，欢迎试用！

论坛小助手 · 2025 年3 月 24 日 09:55

根据您提供的信息，服务器宕机后重启，数据库无法启动。以下是分析和解决步骤：

错误码 -4012 和 -4016
根据日志分析结果：
- 错误码 -4012 表示超时（Timeout）。这可能是由于系统资源不足或某些操作耗时过长导致。
- 错误码 -4016 表示内部错误（Internal error）。这可能与数据库的内部状态异常有关。
参考文档片段 9 中关于错误码 4012 的描述：

执行超时。可以通过性能调优减少耗时，或者设置更大的超时时间。如果问题持续，请联系技术支持人员协助排查。
系统参数检查
根据 OCR 提取的图片内容，以下系统参数未达到推荐值：
- vm.max_map_count：当前值为 65539，推荐值为 655360 或更高。
- file-max：当前值为 6573687，推荐值大于 6573688。
- stack size：推荐值为 unlimited。
这些参数可能影响数据库的正常启动。建议调整这些参数以满足 OceanBase 的要求。
日志中的其他信息
日志中提到：
- observer program health check ok：表示 Observer 程序健康检查通过。
- connect to observer failed：连接到 Observer 失败，这可能是由于超时或其他内部错误导致。

根据 OceanBase 的最佳实践，调整以下系统参数：

修改 file-max：

echo "fs.file-max = 6573689" >> /etc/sysctl.conf
sysctl -p

在配置文件中增加超时时间，例如：

cluster:
  dstarv10:
    global_conf:
      timeout: 600000  # 设置为 600 秒

执行以下命令重新启动集群：

obd cluster start dstarv10

使用以下命令检查 Observer 的状态：

obd cluster display dstarv10

根据文档库中的信息，数据库无法启动的主要原因可能是系统参数未达到推荐值以及超时问题。通过调整系统参数、增加超时时间、清理日志文件等措施，可以有效解决该问题。如果问题仍然存在，请提供更详细的日志信息以便进一步分析。

具体信息可参考以下文档:

(小助手的答复已结束，如未能解决您的问题，请继续提问并等待其他同学的回复，谢谢！)

shushushu · 2025 年3 月 24 日 09:56

OB小智 · 2025 年3 月 24 日 09:56

嗨！要了解我能说什么，请说 @ob小智显示帮助。

shushushu · 2025 年3 月 24 日 09:57

【使用环境】生产环境

【 OB or 其他组件】ocp

【使用版本】
oceanbase-ce-4.2.1.2
OceanBase Deploy: 2.4.0

【问题描述】
白天服务器宕机，服务器重启后，数据库就起不来了

【复现路径】

启动时屏幕输出如下：

【附件及日志】
observer.log 附件如下
observer.log.zip (10.0 MB)
配置yaml文件如下
dstarv10.yaml.zip (1.5 KB) @OB小智请帮我分析上述这个问题

独善其身 · 2025 年3 月 24 日 10:11

表面报错好像是连接不上ce了

辞霜 · 2025 年3 月 24 日 10:44

看一下这个路径下是不是被删掉文件，或者有什么非法文件。

Mouron · 2025 年3 月 24 日 10:49

具体看什么文件？

辞霜 · 2025 年3 月 24 日 11:14

看一下主机messages日志，查下是否有磁盘故障信息报错

Mouron · 2025 年3 月 24 日 13:44

有什么能尽快恢复使用的方案么

辞霜 · 2025 年3 月 24 日 14:02

服务器宕机导致的日志盘损坏，这种问题是无法恢复的，只能重新搭建集群了

AntTech_QWWMD2 · 2025 年3 月 24 日 18:45

辞霜 · 2025 年3 月 26 日 16:15

你好主机messages日志是否存在磁盘故障报错？