OceanBase 社区版1.5天蹦一次【紧急】【重要】

渠磊 · 2023 年7 月 21 日 13:38

这块可以参考下 xuyu 给的建议

渠磊 · 2023 年7 月 21 日 13:42

这边的访问不了是指本次问题关联的操作条件么，可以看下对应时间的日志反应

AntTech_LTEW4O · 2023 年7 月 21 日 14:04

不是压力测试的时候测的单台连接池1000并发*4台机器只能开启两台后来通过测试池只能设置64 *4 这样不会死

AntTech_LTEW4O · 2023 年7 月 21 日 14:05

那是不是我要把表设置二级分区才能实现这个效果我现在无法负载基本都是在 zone1主节点增删改查

AntTech_LTEW4O · 2023 年7 月 21 日 14:06

我这个问题该如何解决下呀改raid卡么我生成环境无法修改当前这台服务器上有30多台虚拟机都有业务再跑

渠磊 · 2023 年7 月 21 日 14:27

存储设备基建的问题不是应用软件能解决的，可以另外找一台机器拉起OB集群后进行数据迁移

此外这边建议新机器先进行POC再上线生产环境

AntTech_LTEW4O · 2023 年7 月 21 日 14:44

找另外一台机器拉起ob 是说在部署一个ob么？怎么操作呀

渠磊 · 2023 年7 月 21 日 14:50

就是在新的，合适的机器上重新拉ob集群，然后迁移原集群的数据到新机器上，因为这块ssd有问题，所以后续还是容易出现问题的，
或者新集群也在原服务上部署，但是不要选择之前出问题的盘，尝试将日志盘挂载本服务器的其他可以通过测试的盘上

AntTech_LTEW4O · 2023 年7 月 21 日 20:14

你们这边有没有推荐的硬件品牌+型号因为在你们官方文档里面只提了配置并没有说跟硬件的ssd还有关系害怕有坑内存 cpu ssd 阵列卡又哪些要求

秃蛙 · 2023 年7 月 23 日 18:04

你好，如果按上面单测程序测试结果是一样的，基本确认是raid卡缓存模式问题，可以先修改下。

可以使用storcli工具调整
yum install storcli
进安装目录，执行查看raid缓存模式方式
./storcli64/c0 show
如果是WB模式，修改为WT
./storcli64/c0/v0 set wrcache=wt
再次执行./storcli64 /c0 show，查看cache是否改成RWTD，此种方式不用重启服务器。

AntTech_LTEW4O · 2023 年7 月 27 日 03:15

正常的停止集群
obd cluster stop obs
然后关闭01-03三台服务器 添加内存64G  ->128升级到192G 其他不变

启动服务器
开启集群
obd cluster start obs

集群就起不来了
重启了2次服务器
重试obd cluster start obs

现在将内存从192G--->降到了128G
依然无法启动集群
连接数据库 提示
Server is initializing

生产环境 心酸.....损失巨大

正在处理：20_log.tar.gz…
正在处理：21_log.tar.gz…
正在处理：22_log.tar.gz…

AntTech_LTEW4O · 2023 年7 月 27 日 09:16

渔舟唱晚 · 2023 年7 月 27 日 09:28

生产问题就是这样，就是不同的业务创建不同的租户，不同租户间的primary zone指定不同的zone name.
例如：zone names:zone1,zone2,zone3 创建两个租户：贷款、信用卡，
贷款的primary zone设置：（zone1;zone2;zone3）
信用卡的primary zone设置：（zone2;zone3;zone1）
如果使用单一的业务租户，会出现你描述的情况。一台交易，两台空跑。使用上类似主-从-从，以上基于实际场景。如果使用table group或primary zone设置为random。性能慢的让你怀疑人生

AntTech_LTEW4O · 2023 年7 月 27 日 11:19

后悔了感觉用用mysql就好了或者用oracle就好了

渠磊 · 2023 年7 月 27 日 14:30

存储介质这块的兼容情况确实比较麻烦，社区这边也是尽可能地在常用场景下提供支持，但是有些额外的特殊场景下的兼容还是需要进行定制，或特性兼容。OB企业版有提供这块的指导，可以有需要可以联系下
https://www.oceanbase.com/contactus?fromPage=https%3A%2F%2Fwww.oceanbase.com%2Fsoftwarecenter-enterprise&dataSources=softwarecenter-enterprise_footercontact_d2022

AntTech_LTEW4O · 2023 年7 月 27 日 14:47

已经改过了阵列卡信息了然后重启集群就起不来了。。。。。

渠磊 · 2023 年7 月 27 日 15:26

日志好像没有上传完整，看不到对应的问题是什么

秃蛙 · 2023 年7 月 27 日 18:46

用户问题已解决，问题原因：
1）clog目录占用326G，而启动参数中log_disk_size为200G，导致申请不到磁盘，具体原因确认中；
2）启动过程rpc请求超时，启动参数设置internal_sql_execute_timeout=10m后启动正常；

用户需要尽快导出sys租户业务数据，新建业务租户使用

张雨齐 · 2023 年7 月 28 日 07:13

这是各种不按规范操作的叠加问题出现

xuyu · 2023 年7 月 28 日 15:18

这里为了避免有用户误会，不是oceanbase对什么硬件有要求，是硬件本身有bug，修改硬件参数只是为了绕过硬件本身的bug