ocp 4.3.1升级到4.3.3报错,但是4.3.3还是起来了

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】ocp4.3.1
【问题描述】ocp 4.3.1升级到4.3.3报错,但是4.3.3还是起来了,会不会有什么影响?



image

3 个赞

建议用诊断工具obdiag 巡检一下:https://www.oceanbase.com/docs/common-obdiag-cn-1000000001768218

1 个赞

这个是ocp的observer的诊断结果


ocp用的observer版本

把最后黄色的那个cat ./check_report/xxxxx 那个文件你发出来吧,巡检结果是会写到文件的

你和我碰到的问题差不多,你看看~/.obd/cluster/xxx集群/下几个配置文件先
.data和config.yaml里 ocp-server-ce的版本是否正确
是否有个.upgrade文件
有的话至少说明你和我升级过程中一样,中间步骤哪里出错了,我是有3个ocp-server,只有一个能正常启停

obdiag_check_report_observer_2024-12-16-09-14-06.zip (2.7 KB)

.upgrade的


.data的

升级报错后,是否存在节点登录失败的问题,看样子可能是连接超时。提供一份obd的详细日志涵盖住升级期间的日志。
~/.obd/log/下

这几个critical需要注意一下,我解释一下:

  1. cluster.data_path_settings 这个可能是你obdiag 巡检的时候没有传递,–config obcluster.servers.nodes[1].data_dir=/home/admin/oceanbase/store
    文档:https://www.oceanbase.com/docs/common-obdiag-cn-1000000001768218
    有可能是误报;

  2. cluster.table_history_too_many 这个是说你表的历史信息太多了,这会导致你的升级的时候超时;

  3. disk.sstable_abnormal_file 这个同1;

  4. network.TCP-retransmission,这个是机器上没有安装tsar工具,没办法检查网络情况,这个可以不处理;

  5. table.information_schema_tables_two_data,这个是说information_schema.tables中有相同记录的信息,最好处理一下,处理方式参考:https://www.oceanbase.com/knowledge-base/oceanbase-database-1000000000833265?back=kb

obd.zip (35.7 KB)

确认下你的ocp端口是18080?主机admin和ocp登录的admin用户密码是否更改过
ocp-server日志也麻烦提供一份看看。 ocp-server日志: /home/admin/ocp/log中,ocp-server.log

你好,问下你的ocp-server-ce:4.3.1 的镜像是从哪里下载的

对得是18080,主机admin密码过期了,后来重置了下,但是升级的时候我填的是root的密码。ocp的admin用户密码没有改过。ocp现在起的目录是/root/ocp-server。
ocp-server.log.2024-12-14.zip (6.9 MB)

提供一下obd的版本
obd --version

直接从https://www.oceanbase.com/softwarecenter这里下的

从obd日志里面看,是ocp-server-ce的admin_password错误导致连接失败(这个地方用的是~/.obd/cluster/【cluster name】/config.yaml里面的admin_password)

是不是升级之前在其它地方修改过这个密码

麻烦用~/.obd/cluster【cluster name】/config.yaml里面的admin_password登录ocp-server-ce试试

admin_password密码我记得好久没改过了

大概知道了,确实是个问题,已记录。
如果要解决当前的问题,需要直接修改admin_password为正确密码,但这个操作需要谨慎,操作错误会影响集群运维
vi ~/.obd/cluster/【cluster name】/config.yaml