hdfs导出hive

hdfs导出hive（75）

功能说明

HDFS数据导出HIVE表

其他说明

读入HDFS和写HIVE执行者为任务第一个责任人（portal登录用户)

任务设置

1. 基本信息

参考基本信息设置

2. 调度

参考调度设置

3. 参数

任务参数配置如下图： hdfs2hive

源服务器待导入数据所在的 HDFS server 更多信息参考服务器配置
目标服务器存储最终结果的 HIVE server 更多信息参考服务器配置
源目录待导出数据所在HDFS 目录支持时间隐式参数
源文件名默认为 * ,支持linux 格式的通配符支持时间隐式参数
源文件字符集指定hdfs server 存放数据的编码格式。该设置在创建hive 外表时用于 set serdeproperties ('charset'='编码');'
源文件列名源文件的栏位名称，以英文逗号分割（结尾不能是逗号）,必须保证列数和文件内容一致. 创建hive外表（临时表）所用表列名
字段映射关系 hive表列名,以英文逗号分隔,表示的列的内容顺序,需和DB列字段保持一致。决定从临时表往目的表里写的字段顺序。日期和常量需要用中括号包起来，例如：[${YYYYMMDD}], [\'test\']
DB名称待写入数据的hive db
目标表名待写入数据的hive 表名如果目标hive 表有分区字段,字段值类型最好是bigint（分区格式为YYYYMM也可以是int类型）,分区类型为list
分区格式指定hive 表分区格式。通常和任务调度周期对应，如任务调度周期为天，则分区格式为${YYYYMMDD}。如果hive 目标表有分区字段（分区字段值和分区格式必须对应）则一定要分区格式，若无分区字段，分区格式设置无效。
入库为空时任务处理无源文件或入库记录为0时,可以指定任务为成功或失败。选择成功，表示无源文件或入库记录为0时，任务成功，反之失败。
数据入库模式有两种模式可选，append和truncate append模式不会删除原有数据，重跑实例，可能会有重复数据。 truncate 模式会删除原有数据。如果目标hive 表是分区表，则会删除数据时间对应的分区，如果hive 不是分区表，则会将整个hive表记录删除。如果hive 表是分区表，但是对应的分区值不是指定的分区格式，则清理分区不会成功，原数据将会被保存，重跑实例将会出现重复数据。
map个数暂时没有启用
TDW参数暂时没有启用
任务超时（分钟）暂时没有启用

demo

如上图所示

demo资源

Previousdb导入hdfs Nexthdfs导出hive-tdsort

Last updated 4 years ago

Was this helpful?