OCP升级集群,从4.2.2.1升级至4.2.5.3启动报错

【 使用环境 】测试环境
【 OB or 其他组件 】OB
【 使用版本 】4.2.5.3
【问题描述】4.2.2.1升级至4.2.5.3启动报错
【复现路径】cat observer.log.wf
[2025-04-09 13:41:53.750266] INFO New syslog file info: [address: “10.202.12.30:12882”, observer version: OceanBase_CE 4.2.2.1, revision: 101000012024030709-083a68a2907b6a1a12138c4a9e0994949166bfba, sysname: Linux, os release: 4.19.0-91.82.152.uelc20.x86_64, machine: x86_64, tz GMT offset: 08:00]
[2025-04-09 13:45:27.227136] ERROR [SERVER] init (ob_server.cpp:569) [2452931][observer][T0][Y0-0000000000000001-0-0] [lt=17][errcode=-4007] [server_start 2/18] observer init fail. you may find solutions in previous error logs or seek help from official technicians.
[2025-04-09 13:47:24.289561] ERROR [SERVER] init (ob_server.cpp:569) [2453385][observer][T0][Y0-0000000000000001-0-0] [lt=17][errcode=-4007] [server_start 2/18] observer init fail. you may find solutions in previous error logs or seek help from official technicians.
【附件及日志】

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

推荐使用 obdiag 工具进行日志采集,并且将采集到的日志提供给我们以便确认问题所在。上述命令会收集与集群启动失败相关的日志和信息,有助于我们分析错误代码 -4007 的具体原因。

另外,为了确定具体的问题,在此需要您提供一些信息:

  1. 升级过程中是否遇到了任何异常或错误?如果有,请描述具体的错误信息。
  2. 在升级前,是否对集群进行了备份?如果有,请提供备份的时间点和状态。
  3. 错误代码 -4007 是否有更详细的报错信息(例如具体的错误描述或堆栈信息)?
  4. 升级后的配置文件与升级前相比是否有修改?如果有,请说明修改的内容。
  5. 当前集群的硬件资源(如磁盘空间、内存、CPU)是否充足?是否存在资源耗尽的情况?

附上敏捷诊断工具 obdiag 使用帮助链接

observer.log (5.0 KB)
日志报错,是不支持UOS吗?

当前是使用obd升级完成后然后启动ob报错了么。
obd升级期间正常?

根据您提供的日志信息,错误的核心原因是 不支持的 CPU 平台,具体表现为:

unsupported CPU platform, AVX instructions are required.

这表明 OceanBase 数据库在启动时检测到当前的 CPU 不支持 AVX 指令集,而 OceanBase 4.2.5.3 版本需要依赖 AVX 指令集来运行。


解决方案

  1. 确认 CPU 是否支持 AVX 指令集

    • 您可以使用以下命令检查服务器的 CPU 是否支持 AVX 指令集:
      grep avx /proc/cpuinfo
      
      如果输出为空,则表示您的 CPU 不支持 AVX 指令集。
  2. 升级或更换硬件

    • 如果确认当前硬件不支持 AVX 指令集,建议升级或更换为支持 AVX 的 CPU。通常,较新的 Intel 或 AMD 处理器都支持 AVX 指令集。
  3. 尝试降级版本(非推荐)

    • 如果无法更换硬件,您可以尝试使用更低版本的 OceanBase 数据库(例如 3.x 系列),这些版本可能对硬件的要求较低。但请注意,这种方法可能会导致功能和性能上的限制。
  4. 联系技术支持

    • 如果您确认硬件支持 AVX 指令集,但仍然遇到此问题,请提供更详细的系统信息(如 CPU 型号、操作系统版本等),并联系 OceanBase 的官方技术支持团队以获取进一步帮助。

其他注意事项

  • 关于 UOS
    日志中并未明确提到与 UOS(UnionTech OS)相关的兼容性问题。因此,目前可以排除是由于操作系统导致的问题。

  • 资源限制检查
    虽然日志中显示了资源限制(如 RLIMIT_MEMLOCKRLIMIT_NOFILE),但这些限制与当前的启动失败问题无关。如果后续遇到其他问题,可以参考以下命令调整资源限制:

    ulimit -n 655350  # 调整文件句柄限制
    ulimit -l unlimited  # 调整内存锁定限制
    

如果您还有其他疑问,请随时补充说明!

详情请参考:

  1. 锁事件
  2. 基于常态化 Memleak 的内存泄露诊断机制

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

ocp升级ob过程中报错的

小助手分析出来了,你的cpu没avx导致的。需要回退

1 个赞

小助手分析是cpu不支持avx。
解决:开启服务器avx,将物理机的部分CPU feature传给虚拟机解决。

1 个赞

学习