lscpu
cpu.txt (2.7 KB)
lscpu执行一下看看当前cpu指令集
上面的
ocp上查下具体宕机时间,ob版本是多少
确认一下存在业务断联情况么,告警是不是会自动恢复。
业务全部断开了,没有自动重连,我强制重启集群才可以
你给的日志都是五点多,ocp显示集群宕机发生在六点半左右。不过日志中存在大量转换类型报错。
4226:表示在尝试将字符串转换为某种目标类型时发生了错误
4262: 该错误通常发生在尝试将一个非数值字符串转换为 DOUBLE
类型时,字符串的内容无法被正确解析为数值
你那边需要排查下业务sql是否有问题,再提供一下宕机期间前后的observer日志
检查一下集群的各个节点时间是否一致,如果没问题大概率是事务的时间戳存在问题。
再麻烦提供一下7.30前的日志看看
时间节点是一致的
这种怎么解决呢
事务的时间戳这个是什么问题呢
故障时候ob集群产生core文件了么。可以去clog日志目录看看
使用分析一下该日志 obdiag analyze log --files observer.log.20250225070845385
select * from oceanbase.DBA_OB_SERVERS ;查一下当前集群信息
core文件命名规则一般为xxxxx.core,你find一下看看
没有相关的文件
该问题已经排查出来:
1.4016问题创建pl expr savepoint失败导致表达式计算失败后直接回滚了事务,改bug将在后续版本进行修复。
2.集群不可用问题,查看日志中存在时钟跳变情况导致集群不可用,用户反馈NTP服务器存在故障