【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题
kylinV10安装部署后,2881端口启动没几分钟就挂掉了是什么原因呢?
然后检查了下config.yaml,更改了proxypo的密码
然后obd cluster stop demo、obd cluster start demo,启动后2881端口也就一两分钟就立马挂掉了,用navicat连接数据库就报错
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
论坛小助手
#3
推荐使用 obdiag 工具进行日志采集,以便我们能够更好地了解问题的原因,并提供解决方案。
日志采集场景: observer无故重启
日志采集命令: obdiag gather scene run --scene=observer.restart
请您执行上述命令,将采集到的日志提供给我们,以便确认问题所在。另外,为了确定具体的问题,在此需要您提供一些信息:
- 您是否在启动 2881 端口时遇到了任何错误消息或警告?
- 您能否提供启动 2881 端口时使用的命令及其参数?
- 您是否有定期维护或监控日志的习惯,可以查看最近的日志文件中是否有异常记录?
- 您的 OceanBase 版本是多少?
- 您的操作系统是什么版本?
- 您是否尝试过重新启动 2881 端口,结果如何?
详情请参考:
- 0001 ~ 3999
附上敏捷诊断工具 obdiag 使用帮助链接
辞霜
#4
ps -ef|grep observer ob服务还存在么 提供一份ob挂掉时候的日志,~/oceanbase/log下
更改了proxypo的密码原因是什么。
更改了proxypo的密码原因是什么:在社区搜索文章说更改这个密码,我就尝试着更改了一下,一样都没用。
ps -ef|grep observer ob服务还存在么:服务也不在了
observer.log (33.8 MB)
这是整个日志,通过obd web安装、通过obd demo安装、安装el7和el8版本的、安装完ob挂掉之后obd 重启集群,都试过了,2881端口都是启动起来没1分钟就没这个端口了
论坛小助手
#7
根据您提供的 observer.log
日志文件以及问题描述,2881 端口启动后不久就挂掉的问题可能由以下几个方面导致:
-
配置问题:您提到更改了 proxypo
的密码,这可能是导致问题的一个因素。OBProxy
的配置文件中包含了与 observer
通信所需的认证信息,如果这些信息不正确,可能会导致 OBProxy
无法正常工作。建议您检查 OBProxy
的配置文件,确保 observer
的用户名和密码配置正确。
-
资源限制:检查系统的资源限制,如内存、CPU、文件描述符等,确保它们没有达到上限。可以通过 ulimit -a
命令查看当前系统的资源限制。
-
依赖服务:确保 observer
服务正常运行。您提到 ps -ef | grep observer
显示服务不在了,这意味着 observer
服务可能已经崩溃或停止。请检查 observer
的日志文件,通常位于 log
目录下,查找是否有任何错误信息。
-
网络问题:检查网络配置,确保 OBProxy
和 observer
之间的网络通信正常。可以通过 ping
或 telnet
命令测试网络连通性。
-
日志分析:您提供的 observer.log
文件中可能包含了一些关键的错误信息。请仔细查看日志文件,特别是 observer
启动和停止的时间段内的日志,查找是否有任何异常或错误信息。
具体步骤
-
检查 OBProxy
配置文件:
-
检查系统资源限制:
- 运行
ulimit -a
查看当前系统的资源限制。
- 如果发现某些资源限制较低,可以尝试增加限制。例如,增加文件描述符限制:
ulimit -n 65535
-
检查 observer
日志:
-
检查网络配置:
-
重新启动 observer
服务:
- 如果
observer
服务已经停止,尝试重新启动 observer
服务:obd cluster restart demo
如果您在执行上述步骤后仍然无法解决问题,建议您联系 OceanBase 的技术支持团队,提供详细的日志文件和系统信息,以便他们能够更好地帮助您解决问题。
(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)
辞霜
#9
日志中初始化失败存在网络波动问题和4009问题。有可能是内存参数设置有误
白屏化部署有预检查功能推荐使用,可以提供一份yaml文件看看