oceanbase 报错集群不可用报错4016

lscpu
cpu.txt (2.7 KB)

lscpu执行一下看看当前cpu指令集

上面的

ocp上查下具体宕机时间,ob版本是多少




确认一下存在业务断联情况么,告警是不是会自动恢复。

业务全部断开了,没有自动重连,我强制重启集群才可以

你给的日志都是五点多,ocp显示集群宕机发生在六点半左右。不过日志中存在大量转换类型报错。
4226:表示在尝试将字符串转换为某种目标类型时发生了错误
4262: 该错误通常发生在尝试将一个非数值字符串转换为 DOUBLE 类型时,字符串的内容无法被正确解析为数值

你那边需要排查下业务sql是否有问题,再提供一下宕机期间前后的observer日志

https://miaojia.oss-cn-shenzhen.aliyuncs.com/backup/observer.2025022511.zip

检查一下集群的各个节点时间是否一致,如果没问题大概率是事务的时间戳存在问题。
再麻烦提供一下7.30前的日志看看

时间节点是一致的

日志 https://miaojia.oss-cn-shenzhen.aliyuncs.com/backup/observer.log202502251138.zip

这种怎么解决呢

事务的时间戳这个是什么问题呢

故障时候ob集群产生core文件了么。可以去clog日志目录看看
使用分析一下该日志 obdiag analyze log --files observer.log.20250225070845385
select * from oceanbase.DBA_OB_SERVERS ;查一下当前集群信息

有code文件,命名是根据什么来的,文件需要什么工具转换下吗,直接阅读阅读不了


这里有好几个

core文件命名规则一般为xxxxx.core,你find一下看看

没有相关的文件

该问题已经排查出来:
1.4016问题创建pl expr savepoint失败导致表达式计算失败后直接回滚了事务,改bug将在后续版本进行修复。
2.集群不可用问题,查看日志中存在时钟跳变情况导致集群不可用,用户反馈NTP服务器存在故障