Hi all ~
导数工具新版本 4.3.2 已经正式发布,可以从官网下载:https://www.oceanbase.com/softwarecenter 。本次发版主要增加了对 Hive 的支持,可以从目录名中解析分区列信息插入目标表;以及 Azure Blob、GCS 云存储的集成,实现主流云厂商对象存储的全支持。
注:导数工具自 v4.2.1 之后已经不再区分企业版和社区版
新增功能
- 增加
--source-type hive
参数,支持从 Hive 存储路径识别分区信息导入; - 增加
--auto-comlumn-mapping
参数,支持列名映射,允许列数量不一致导入; - 支持 Parquet、ORC 类型文件中的复杂类型;
- 增加
--mem 4G
参数指定内存大小,替代现有修改 JVM 参数的方式,更为友好; - 导出单文件性能优化,实现并行写,通过原有参数
-Denable.parallel.write=true
开启; - 优化 CSV 解析效率,相比之前提高约 30%;
- 增加 Azure Blob、GCS 云存储支持,适配华为云 OBS 并行桶,实现主流云对象存储全兼容;
- 旁路导入对接新 SDK,支持增量旁路,依然复用
--direct
参数,根据目标表是否已存在数据判定使用全量或增量模式; - 扩展
--file-regular-expression
参数,支持从文件名提取库表名,实现多表导入;
兼容性变动
- obloader 解析 CSV 时默认 escapeCharacter 由
\
变更为 null,以符合标准 CSV 规范;
缺陷修复
- 导入时
--retry
重试机制不可用; - 导入单文件同时指定
-- table '*'
可能导入错误表; - oracle模式 json类型导出格式错误;
- obdumper同一个表导出的文件带有二级名称,导致obloader不能导入;
- 通过服务端旁路导入40亿行数据出现计数溢出;
- 整库导出报 ClassCastExcepion cannot be cast to OceanBaseStatement 错误;
- 使用obloader时如果字段中含有特殊的格式字符会遇到报错:Error: Data too long for column;
- 控制文件导入时间数据类型数据不一致;
- 使用obloader恢复DDL时遇到报错:
Executing: "drop table if;" skipped. Reason: Unknown table 'test.if';
- 导入字符串值包含双引号或斜杠的的标准 CSV 格式出错。
详细变动请参考官方文档:https://www.oceanbase.com/docs/common-oceanbase-dumper-loader-1000000001583710