带有全文索引的表插入数据很慢

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4.3.5.2
【问题描述】使用insert into…select方式插入带有全文索引的表数据非常慢
【复现路径】验证过程见附件
【附件】
OceanBase全文索引写入性能验证.docx (339.0 KB)

4 个赞

对于上述做的验证,请问对全文索引的表插入数据慢是当前现状还是存在bug?是否有其他解决办法

3 个赞

这边咨询下相关同学

这个属于预期内,目前版本全文索引导入数据会比较慢,后续版本会持续进行优化

1 个赞

正常表:rows: 131072, Time used: 27.15 seconds
带全文索引的表:insert非常慢,10分钟左右同步了1000条数据
这相差太多。


你好这边在做复现操作,这里的插入sql有点问题麻烦看下

应该是这个:

insert into ti_les_fh01t05_tmp(werk, spj, knr, pnrstring,

kafka_timestamp, create_by, create_date, update_by, update_date)

select werk, spj, knr, pnrstring, kafka_timestamp, create_by,

create_date, update_by, update_date from ti_les_fh01t05_tmp;

麻烦提供一份数据同步脚本附件

fulltext_insert.py.zip (1.2 KB)


这里有个:white_check_mark:是什么情况

AI 比较喜欢生成这种符号,可以去掉。。

你好这边测试了下看着速率应该是与CPU大小有关,你的10分钟导入1000条确实有问题。磁盘是什么类型的读写速率怎样
2c2g规格 12分钟导入5000条数据
4c6g规格 153s导入32000条数据
4c12g规格 160s导入32000条数据

1 个赞

1000条的请忽略,当时觉得太慢做了中断,使用的规格2c4g,实际导入参考附件2.7开旁路并行及关闭在线收集信息的情况下,导入13万条使用约14分钟,同样规格无全文索引情况下导入13万使用27.15s


这个是今天下午4c4g规格最新的测试

建议租户规格调高一点

同样情况

这个应该不是规格问题了,导入性能确实差,几乎无法使用,生产上1-1-1,12c40g规格,磁盘SSD,导入2500万数据插入全文索引的表,执行了28个小时没执行完成,最终只能中断了,只是想试一下较大数据量下使用全文索引分词的查询效果

当前全文索引导入是慢,可以考虑先导入数据再创建全文索引