【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】4.2.2
【问题描述】之前oceanbase突然报租户内存不足,所以直接将进程kill掉后重启,但是重启时将memory_limit=8G改为memory_limit=12G启动成功,发现登录不上了
【复现路径】
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
论坛小助手
#3
根因分析场景: 集群无法连接
根因分析命令: obdiag rca run --scene=disconnection
日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down
推荐使用 obdiag 工具进行日志采集和根因分析,并将采集到的日志提供给我们以便确认问题所在。
解释:
-
obdiag gather scene run --scene=observer.cluster_down
命令用于收集与集群无法连接相关的诊断信息,包括 observer 的启动日志、系统资源状态等,有助于排查登录失败的原因。
-
obdiag rca run --scene=disconnection
是针对断连场景的根因分析命令,可以尝试自动定位导致无法登录的根本原因,例如网络异常、服务未正常启动、租户资源配置异常等。
麻烦您提供一些信息以便我们更好地帮助您:
- 重启后 observer 的启动日志中是否有报错信息?特别是关于租户或内存初始化的部分。
- 是否确认 OceanBase 数据库进程已经成功启动并进入 running 状态?
- 修改 memory_limit 后是否同时调整了租户的 memory_limit_percentage 或其他相关内存参数?
- 登录时使用的客户端工具、命令行参数(如 IP、端口、用户名、密码)是否正确?是否出现具体的错误提示信息(如“Access denied”、“Connection refused”等)?
- 是否有 OCP 或 OBD 管理工具?如果使用手工部署,请提供配置文件内容(如
files/observer.ini
和 files/tenant_config.json
)。
附上敏捷诊断工具 obdiag 使用帮助链接
1 个赞
论坛小助手
#4
根因分析场景: 内存问题
根因分析命令: obdiag rca run --scene=memory_problem
日志采集场景: 内存问题
日志采集命令: obdiag gather scene run --scene=observer.memory
您可以通过上述命令使用 obdiag 工具进行日志采集与根因分析,这将有助于我们了解当前遇到的具体问题并找到解决办法。请将采集到的日志提供给我们以便确认问题所在。
另外,为了确定具体的问题,在此需要您提供一些信息:
- 您是否还遇到了其他错误信息或异常现象?
- 在将
memory_limit
调整为 12G 后,具体登录时的错误信息是什么?
- 当前系统资源使用情况如何?特别是内存和磁盘空间的占用情况。
- 您的操作系统版本和 OceanBase 的版本信息是什么?
这些问题的答案将帮助我们更准确地定位问题并提供有效的解决方案。谢谢!
附上敏捷诊断工具 obdiag 使用帮助链接