大量数据处理方案

AntTech_DWPQCR · 2025 年1 月 21 日 09:48

对于打到500万以上的数据怎么处理可以提高运行效率。当前670万的数据要运行45分钟

独善其身 · 2025 年1 月 21 日 09:52

是哪一种运行？简单查询还是哪一种

AntTech_DWPQCR · 2025 年1 月 21 日 10:19

insert into * select

咖啡哥 · 2025 年1 月 21 日 10:22

insert into * select /*+parallel(8) */

加并行试试？

坤易 · 2025 年1 月 21 日 11:48

旁路导入应该最快。
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000002013744

–但是要考虑是否锁表哈。

aibase · 2025 年1 月 21 日 15:31

建议并行之前，看一下租户是否已经满载，看看集群资源是否有余量可以给租户，如果CPU使用已经非常高了，并行不一定有效，反之可以考虑并行方式。

来轩 · 2025 年1 月 21 日 16:10

500W 45分钟这个明显不符合预期的，你查询的部分单独拿出来执行快吗

AntTech_DWPQCR · 2025 年1 月 22 日 18:09

单独查询很慢

来轩 · 2025 年1 月 22 日 18:51

单独查询的执行计划拿出来看下

辞霜 · 2025 年1 月 23 日 10:00

使用obdaig收集一下sql信息

SQL性能问题

, 此处env中的trace_id对应gv$ob_sql_audit的trace_id
obdiag gather scene run --scene=observer.perf_sql --env “{db_connect=’-hxx -Pxx -uxx -pxx -Dxx’, trace_id=‘xx’}”