kylinV10安装部署后,2881端口启动没几分钟就挂掉了是什么原因呢?

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题
kylinV10安装部署后,2881端口启动没几分钟就挂掉了是什么原因呢?
然后检查了下config.yaml,更改了proxypo的密码
然后obd cluster stop demo、obd cluster start demo,启动后2881端口也就一两分钟就立马挂掉了,用navicat连接数据库就报错

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

推荐使用 obdiag 工具进行日志采集,以便我们能够更好地了解问题的原因,并提供解决方案。

日志采集场景: observer无故重启
日志采集命令: obdiag gather scene run --scene=observer.restart

请您执行上述命令,将采集到的日志提供给我们,以便确认问题所在。另外,为了确定具体的问题,在此需要您提供一些信息:

  1. 您是否在启动 2881 端口时遇到了任何错误消息或警告?
  2. 您能否提供启动 2881 端口时使用的命令及其参数?
  3. 您是否有定期维护或监控日志的习惯,可以查看最近的日志文件中是否有异常记录?
  4. 您的 OceanBase 版本是多少?
  5. 您的操作系统是什么版本?
  6. 您是否尝试过重新启动 2881 端口,结果如何?

详情请参考:

  1. 0001 ~ 3999

附上敏捷诊断工具 obdiag 使用帮助链接

ps -ef|grep observer ob服务还存在么 提供一份ob挂掉时候的日志,~/oceanbase/log下
更改了proxypo的密码原因是什么。

更改了proxypo的密码原因是什么:在社区搜索文章说更改这个密码,我就尝试着更改了一下,一样都没用。
ps -ef|grep observer ob服务还存在么:服务也不在了

observer.log (33.8 MB)
这是整个日志,通过obd web安装、通过obd demo安装、安装el7和el8版本的、安装完ob挂掉之后obd 重启集群,都试过了,2881端口都是启动起来没1分钟就没这个端口了

根据您提供的 observer.log 日志文件以及问题描述,2881 端口启动后不久就挂掉的问题可能由以下几个方面导致:

  1. 配置问题:您提到更改了 proxypo 的密码,这可能是导致问题的一个因素。OBProxy 的配置文件中包含了与 observer 通信所需的认证信息,如果这些信息不正确,可能会导致 OBProxy 无法正常工作。建议您检查 OBProxy 的配置文件,确保 observer 的用户名和密码配置正确。

  2. 资源限制:检查系统的资源限制,如内存、CPU、文件描述符等,确保它们没有达到上限。可以通过 ulimit -a 命令查看当前系统的资源限制。

  3. 依赖服务:确保 observer 服务正常运行。您提到 ps -ef | grep observer 显示服务不在了,这意味着 observer 服务可能已经崩溃或停止。请检查 observer 的日志文件,通常位于 log 目录下,查找是否有任何错误信息。

  4. 网络问题:检查网络配置,确保 OBProxyobserver 之间的网络通信正常。可以通过 pingtelnet 命令测试网络连通性。

  5. 日志分析:您提供的 observer.log 文件中可能包含了一些关键的错误信息。请仔细查看日志文件,特别是 observer 启动和停止的时间段内的日志,查找是否有任何异常或错误信息。

具体步骤

  1. 检查 OBProxy 配置文件

    • 打开 OBProxy 的配置文件,通常是 config.yaml
    • 确认 observer 的用户名和密码配置正确。
    • 示例配置:
      observer:
        user: "root"
        password: "your_password"
      
  2. 检查系统资源限制

    • 运行 ulimit -a 查看当前系统的资源限制。
    • 如果发现某些资源限制较低,可以尝试增加限制。例如,增加文件描述符限制:
      ulimit -n 65535
      
  3. 检查 observer 日志

    • 查找 observer 的日志文件,通常位于 log 目录下。
    • 查看 observer 启动和停止时间段内的日志,查找是否有任何异常或错误信息。
    • 示例命令:
      tail -f /path/to/log/observer.log
      
  4. 检查网络配置

    • 确保 OBProxyobserver 之间的网络通信正常。
    • 使用 pingtelnet 命令测试网络连通性:
      ping <observer_ip>
      telnet <observer_ip> 2881
      
  5. 重新启动 observer 服务

    • 如果 observer 服务已经停止,尝试重新启动 observer 服务:
      obd cluster restart demo
      

如果您在执行上述步骤后仍然无法解决问题,建议您联系 OceanBase 的技术支持团队,提供详细的日志文件和系统信息,以便他们能够更好地帮助您解决问题。

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

日志中初始化失败存在网络波动问题和4009问题。有可能是内存参数设置有误
白屏化部署有预检查功能推荐使用,可以提供一份yaml文件看看

问题还存在么,这边刚刚看日志发现提供的日志并未保护启动集群时候。如果还存在麻烦发一份新日志