📖
tbds
  • 前言
  • 部署
    • 安装步骤
  • 平台管理
    • 用户管理
    • 项目管理
    • 系统设置
  • 组件访问开发
    • kafka
    • hadoop
    • hbase
    • accessKey
    • hive
    • spark
    • ftp
    • portalApi
    • hermes
    • 代码访问组件demos
      • hbase
      • hdfs
      • kafka
      • hive
  • 数据接入
    • 数据接入
      • TDBank产品化介绍及使用指引
      • TDBank数据接入指引
      • TDBank采集接口详解
      • OGG Flume Adapter 部署文档
      • DB Demo
      • HDFS Demo
    • Hippo管理
    • 进度监控
    • 血缘分析
  • 实时计算
    • 任务管理
    • 库表模板管理
  • 数据分析
    • 数据交互
    • ideX
  • 任务调度
    • 操作指引
    • 工作流
      • 基本概念
      • 任务基本信息
      • 任务调度设置
      • 任务参数配置
        • shell 脚本
        • ftp导入hdfs
        • kafka导入hbase
        • kafka导入hdfs
        • hdfs导出hbase
        • hive sql 脚本
        • hive导入hdfs
        • hdfs导出DB(mysql,postgreSQL,sql server)
        • tstorm任务
        • spark任务
        • mapreduce任务
        • db导入hdfs
        • hdfs导出hive
        • hdfs导出hive-tdsort
        • hive导出mysql
        • mysql导入hive
      • Demo
        • FTP导入HDFS
        • HDFS导出HBASE
        • HDFS导出Mysql
        • HDFS导入HIVE
        • Hive SQL脚本
        • Hive导出MySQL
        • Hive导入HDFS
        • KAFKA导出HBASE
        • KAFKA导出HDFS
        • MYSQL导入HDFS
        • MySQL导入Hive
        • Shell脚本
        • SPARK任务
      • 升级
        • 集成代码更新
        • rpm升级
      • 补充
        • 手动迁移base组件
        • 手动安装runner组件
        • 自定义任务开发文档
        • 时间隐式变量说明
        • 下发并发数说明和调整操作
        • Issues版本说明
        • 设置分组
        • 跨工作流依赖
      • 常见问题定位和解决方式
        • 常用操作
        • 实时接入任务hdfs2hive (tdsort)
        • 实例日志获取失败
        • 实例日志中提示下载文件失败
        • taskSchedule指标为空定位方法
        • 实例依赖失效确认方式
        • 任务实例诊断按钮无调度信息
        • 诊断和定位操作参考
        • 实例一直等待终止定位
        • mongodb 常见问题和处理办法
    • 任务管理
      • 工作流列表
      • 任务管理
      • 任务运行管理
      • 其他
    • 服务器配置
      • 基本概念
      • 操作指南
  • Tstorm
    • Tstorm介绍
    • 开发实例
      • wordcount
  • 数据展现
    • 自助报表
  • 数据资产
    • 库表管理
      • 可管理库表
      • 可读写库表
      • 无归属库表
      • 维表管理
      • 新建表
    • 数据血缘
    • 数据提取
      • 数据地图
      • 任务列表
      • 架构关联
  • 运维中心
    • 系统运维
      • 组件部署
      • 链接归集
      • 诊断
      • 备份
    • 访问管理
    • 文件管理
    • 监控告警
      • 监控
      • 告警
  • 机器学习
    • 系统简介
    • TDInsight功能介绍
      • 工作流
        • 新建工程
        • 新建工作流
        • 创建和配置节点
        • 运行
        • 日志查看
      • 数据输入输出
      • 组件
        • Spark组件
        • Sparkstreaming组件
        • pySpark组件
        • xgboost组件
    • 多实例并发
      • 3种方式驱动实例
      • 实例查询
      • 历史实例
    • TDInsight模型与在线推理
      • 数据流
      • 模型的训练与使用
      • 模型在线服务
    • TDInsight算法/组件说明
      • 数据说明
      • 特征工程
        • 数据预处理
        • 特征提取
        • 特征转换
        • 特征选择
        • 特征评估
      • 机器学习
        • 分类算法
        • 聚类算法
        • 回归算法
        • 推荐算法
        • 关联规则
      • 模型评估
        • Binary Evaluator
        • Multi Evaluator
        • Regression Evaluator
      • 可视化
        • 关系
        • 分布
        • 对比
        • 组合
      • 深度学习算法简介
        • 计算机视觉
        • 自然语言处理
        • 表示学习
Powered by GitBook
On this page
  • 功能说明
  • 其他说明
  • 任务设置
  • 1. 基本信息
  • 2. 调度
  • 3. 参数
  • demo
  • demo资源

Was this helpful?

  1. 任务调度
  2. 工作流
  3. 任务参数配置

hdfs导出hive

Previousdb导入hdfsNexthdfs导出hive-tdsort

Last updated 4 years ago

Was this helpful?

hdfs导出hive(75)

功能说明

HDFS数据导出HIVE表

其他说明

读入HDFS和写HIVE执行者为任务第一个责任人(portal登录用户)

任务设置

1. 基本信息

参考

2. 调度

参考

3. 参数

任务参数配置如下图:

  1. 源文件字符集 指定hdfs server 存放数据的编码格式。 该设置在创建hive 外表时用于 set serdeproperties ('charset'='编码');'

  2. 源文件列名 源文件的栏位名称,以英文逗号分割(结尾不能是逗号),必须保证列数和文件内容一致. 创建hive外表(临时表)所用表列名

  3. 字段映射关系 hive表列名,以英文逗号分隔,表示的列的内容顺序,需和DB列字段保持一致。决定从临时表往目的表里写的字段顺序。日期和常量需要用中括号包起来,例如:[${YYYYMMDD}], [\'test\']

  4. DB名称 待写入数据的hive db

  5. 目标表名 待写入数据的hive 表名 如果目标hive 表有分区字段,字段值类型最好是bigint(分区格式为YYYYMM也可以是int类型),分区类型为list

  6. 分区格式 指定hive 表分区格式。 通常和任务调度周期对应,如任务调度周期为天,则分区格式为${YYYYMMDD}。 如果hive 目标表有分区字段(分区字段值和分区格式必须对应)则一定要分区格式,若无分区字段,分区格式设置无效。

  7. 入库为空时任务处理 无源文件或入库记录为0时,可以指定任务为成功或失败。 选择成功,表示无源文件或入库记录为0时 ,任务成功,反之失败。

  8. 数据入库模式 有两种模式可选,append和truncate append模式不会删除原有数据,重跑实例,可能会有重复数据。 truncate 模式会删除原有数据。如果目标hive 表是分区表,则会删除数据时间对应的分区,如果hive 不是分区表,则会将整个hive表记录删除。如果hive 表是分区表,但是对应的分区值不是指定的分区格式,则清理分区不会成功,原数据将会被保存,重跑实例将会出现重复数据。

  9. map个数 暂时没有启用

  10. TDW参数 暂时没有启用

  11. 任务超时(分钟) 暂时没有启用

demo

如上图所示

demo资源

源服务器 待导入数据所在的 HDFS server 更多信息参考

目标服务器 存储最终结果的 HIVE server 更多信息参考

源目录 待导出数据所在HDFS 目录 支持

源文件名 默认为 * ,支持linux 格式的通配符 支持

服务器配置
服务器配置
时间隐式参数
时间隐式参数
基本信息设置
调度设置
hdfs2hive