OceanBase 社区版1.5天蹦一次【紧急】【重要】

这块可以参考下 xuyu 给的建议

这边的访问不了是指本次问题关联的操作条件么,可以看下对应时间的日志反应

不是 压力测试的时候测的单台连接池1000并发*4台机器 只能开启两台 后来通过测试池只能设置64 *4 这样不会死

那是不是我要把表设置二级分区才能实现这个效果 我现在无法负载基本都是在 zone1主节点 增删改查

我这个问题 该如何解决下呀 改raid卡么 我生成环境无法修改当前 这台服务器上有30多台虚拟机都有业务再跑

存储设备基建的问题不是应用软件能解决的,可以另外找一台机器拉起OB集群后进行数据迁移

此外这边建议新机器先进行POC再上线生产环境

找另外一台机器拉起ob 是说在部署一个ob么? 怎么操作呀

就是在新的,合适的机器上重新拉ob集群,然后迁移原集群的数据到新机器上,因为这块ssd有问题,所以后续还是容易出现问题的,
或者新集群也在原服务上部署,但是不要选择之前出问题的盘,尝试将日志盘挂载本服务器的其他可以通过测试的盘上

你们这边有没有推荐的硬件品牌+型号 因为在你们官方文档里面只提了配置并没有说跟硬件的ssd还有关系 害怕有坑 内存 cpu ssd 阵列卡又哪些要求

你好,如果按上面单测程序测试结果是一样的,基本确认是raid卡缓存模式问题,可以先修改下。

可以使用storcli工具调整
yum install storcli
进安装目录,执行查看raid缓存模式方式
./storcli64/c0 show
如果是WB模式,修改为WT
./storcli64/c0/v0 set wrcache=wt
再次执行./storcli64 /c0 show,查看cache是否改成RWTD,此种方式不用重启服务器。

正常的停止集群
obd cluster stop obs
然后关闭01-03三台服务器 添加内存64G  ->128升级到192G 其他不变

启动服务器
开启集群
obd cluster start obs

集群就起不来了
重启了2次服务器
重试obd cluster start obs

现在将内存从192G--->降到了128G
依然无法启动集群
连接数据库 提示
Server is initializing

生产环境 心酸.....损失巨大

正在处理:20_log.tar.gz…
正在处理:21_log.tar.gz…
正在处理:22_log.tar.gz…

生产问题就是这样,就是不同的业务创建不同的租户,不同租户间的primary zone指定不同的zone name.
例如:zone names:zone1,zone2,zone3 创建两个租户:贷款、信用卡,
贷款的primary zone设置:(zone1;zone2;zone3)
信用卡的primary zone设置:(zone2;zone3;zone1)
如果使用单一的业务租户,会出现你描述的情况。一台交易,两台空跑。使用上类似主-从-从,以上基于实际场景。如果使用table group或primary zone设置为random。性能慢的让你怀疑人生

后悔了 感觉用用mysql就好了 或者用oracle就好了

存储介质这块的兼容情况确实比较麻烦,社区这边也是尽可能地在常用场景下提供支持,但是有些额外的特殊场景下的兼容还是需要进行定制,或特性兼容。OB企业版有提供这块的指导,可以有需要可以联系下
https://www.oceanbase.com/contactus?fromPage=https%3A%2F%2Fwww.oceanbase.com%2Fsoftwarecenter-enterprise&dataSources=softwarecenter-enterprise_footercontact_d2022

已经改过了阵列卡信息了 然后重启集群就起不来了。。。。。

日志好像没有上传完整,看不到对应的问题是什么

用户问题已解决,问题原因:
1)clog目录占用326G,而启动参数中log_disk_size为200G,导致申请不到磁盘,具体原因确认中;
2)启动过程rpc请求超时,启动参数设置internal_sql_execute_timeout=10m后 启动正常;

用户需要尽快导出sys租户业务数据,新建业务租户使用

1 个赞

这是各种不按规范操作的叠加问题出现 :joy:

这里为了避免有用户误会,不是oceanbase对什么硬件有要求,是硬件本身有bug,修改硬件参数只是为了绕过硬件本身的bug