OceanBase 社区版1.5天蹦一次【紧急】【重要】

有core文件生成么

core.zip (56.7 KB)
youde

有结果后,辛苦贴子上更新下原因

sys租户不适合当业务使用,可以先考虑新建业务租户,数据导出再导入到业务租户里,应用程序使用新的业务租户连接。

补充一个问题 我把这个 major_freeze_duty_time 合并定时任务执行时间改成了6点 合并就出现访问不了

@AntTech_LTEW4O @tianya
基本确定为同类型问题,可执行文件也发下吧,这边看下用gdb二次验证下。
解决方案:
可以参考原问题中 HaHaJeff 给的方案,

或者是参考用户自身探索的方案,

2 个赞

这边请教一个问题,我这边大量的insert操作能否均衡一下到其他两个zone2 zone3 节点上 感觉现在除了zone1的主节点 其他两个节点在空跑。还有我数据库链接主节点192.168.1.20:2881 和我链接192.168.1.23:2883 有什么区别 后者能够负载吗? 如果他是负载的话那是不是瓶颈就是他 因为我之前没上线的时候做了压力测试 4台 容器每个线程池跑1000 只能开启两台

通过proxy,再加上你配置的primary zone随机打散,会把sql均衡打散到不同的zone上,当然是前提你的表的主分区不能都在同一个节点上

这块可以参考下 xuyu 给的建议

这边的访问不了是指本次问题关联的操作条件么,可以看下对应时间的日志反应

不是 压力测试的时候测的单台连接池1000并发*4台机器 只能开启两台 后来通过测试池只能设置64 *4 这样不会死

那是不是我要把表设置二级分区才能实现这个效果 我现在无法负载基本都是在 zone1主节点 增删改查

我这个问题 该如何解决下呀 改raid卡么 我生成环境无法修改当前 这台服务器上有30多台虚拟机都有业务再跑

存储设备基建的问题不是应用软件能解决的,可以另外找一台机器拉起OB集群后进行数据迁移

此外这边建议新机器先进行POC再上线生产环境

找另外一台机器拉起ob 是说在部署一个ob么? 怎么操作呀

就是在新的,合适的机器上重新拉ob集群,然后迁移原集群的数据到新机器上,因为这块ssd有问题,所以后续还是容易出现问题的,
或者新集群也在原服务上部署,但是不要选择之前出问题的盘,尝试将日志盘挂载本服务器的其他可以通过测试的盘上

你们这边有没有推荐的硬件品牌+型号 因为在你们官方文档里面只提了配置并没有说跟硬件的ssd还有关系 害怕有坑 内存 cpu ssd 阵列卡又哪些要求

你好,如果按上面单测程序测试结果是一样的,基本确认是raid卡缓存模式问题,可以先修改下。

可以使用storcli工具调整
yum install storcli
进安装目录,执行查看raid缓存模式方式
./storcli64/c0 show
如果是WB模式,修改为WT
./storcli64/c0/v0 set wrcache=wt
再次执行./storcli64 /c0 show,查看cache是否改成RWTD,此种方式不用重启服务器。

正常的停止集群
obd cluster stop obs
然后关闭01-03三台服务器 添加内存64G  ->128升级到192G 其他不变

启动服务器
开启集群
obd cluster start obs

集群就起不来了
重启了2次服务器
重试obd cluster start obs

现在将内存从192G--->降到了128G
依然无法启动集群
连接数据库 提示
Server is initializing

生产环境 心酸.....损失巨大

正在处理:20_log.tar.gz…
正在处理:21_log.tar.gz…
正在处理:22_log.tar.gz…