📖
tbds
  • 前言
  • 部署
    • 安装步骤
  • 平台管理
    • 用户管理
    • 项目管理
    • 系统设置
  • 组件访问开发
    • kafka
    • hadoop
    • hbase
    • accessKey
    • hive
    • spark
    • ftp
    • portalApi
    • hermes
    • 代码访问组件demos
      • hbase
      • hdfs
      • kafka
      • hive
  • 数据接入
    • 数据接入
      • TDBank产品化介绍及使用指引
      • TDBank数据接入指引
      • TDBank采集接口详解
      • OGG Flume Adapter 部署文档
      • DB Demo
      • HDFS Demo
    • Hippo管理
    • 进度监控
    • 血缘分析
  • 实时计算
    • 任务管理
    • 库表模板管理
  • 数据分析
    • 数据交互
    • ideX
  • 任务调度
    • 操作指引
    • 工作流
      • 基本概念
      • 任务基本信息
      • 任务调度设置
      • 任务参数配置
        • shell 脚本
        • ftp导入hdfs
        • kafka导入hbase
        • kafka导入hdfs
        • hdfs导出hbase
        • hive sql 脚本
        • hive导入hdfs
        • hdfs导出DB(mysql,postgreSQL,sql server)
        • tstorm任务
        • spark任务
        • mapreduce任务
        • db导入hdfs
        • hdfs导出hive
        • hdfs导出hive-tdsort
        • hive导出mysql
        • mysql导入hive
      • Demo
        • FTP导入HDFS
        • HDFS导出HBASE
        • HDFS导出Mysql
        • HDFS导入HIVE
        • Hive SQL脚本
        • Hive导出MySQL
        • Hive导入HDFS
        • KAFKA导出HBASE
        • KAFKA导出HDFS
        • MYSQL导入HDFS
        • MySQL导入Hive
        • Shell脚本
        • SPARK任务
      • 升级
        • 集成代码更新
        • rpm升级
      • 补充
        • 手动迁移base组件
        • 手动安装runner组件
        • 自定义任务开发文档
        • 时间隐式变量说明
        • 下发并发数说明和调整操作
        • Issues版本说明
        • 设置分组
        • 跨工作流依赖
      • 常见问题定位和解决方式
        • 常用操作
        • 实时接入任务hdfs2hive (tdsort)
        • 实例日志获取失败
        • 实例日志中提示下载文件失败
        • taskSchedule指标为空定位方法
        • 实例依赖失效确认方式
        • 任务实例诊断按钮无调度信息
        • 诊断和定位操作参考
        • 实例一直等待终止定位
        • mongodb 常见问题和处理办法
    • 任务管理
      • 工作流列表
      • 任务管理
      • 任务运行管理
      • 其他
    • 服务器配置
      • 基本概念
      • 操作指南
  • Tstorm
    • Tstorm介绍
    • 开发实例
      • wordcount
  • 数据展现
    • 自助报表
  • 数据资产
    • 库表管理
      • 可管理库表
      • 可读写库表
      • 无归属库表
      • 维表管理
      • 新建表
    • 数据血缘
    • 数据提取
      • 数据地图
      • 任务列表
      • 架构关联
  • 运维中心
    • 系统运维
      • 组件部署
      • 链接归集
      • 诊断
      • 备份
    • 访问管理
    • 文件管理
    • 监控告警
      • 监控
      • 告警
  • 机器学习
    • 系统简介
    • TDInsight功能介绍
      • 工作流
        • 新建工程
        • 新建工作流
        • 创建和配置节点
        • 运行
        • 日志查看
      • 数据输入输出
      • 组件
        • Spark组件
        • Sparkstreaming组件
        • pySpark组件
        • xgboost组件
    • 多实例并发
      • 3种方式驱动实例
      • 实例查询
      • 历史实例
    • TDInsight模型与在线推理
      • 数据流
      • 模型的训练与使用
      • 模型在线服务
    • TDInsight算法/组件说明
      • 数据说明
      • 特征工程
        • 数据预处理
        • 特征提取
        • 特征转换
        • 特征选择
        • 特征评估
      • 机器学习
        • 分类算法
        • 聚类算法
        • 回归算法
        • 推荐算法
        • 关联规则
      • 模型评估
        • Binary Evaluator
        • Multi Evaluator
        • Regression Evaluator
      • 可视化
        • 关系
        • 分布
        • 对比
        • 组合
      • 深度学习算法简介
        • 计算机视觉
        • 自然语言处理
        • 表示学习
Powered by GitBook
On this page
  • 功能说明
  • 其他说明
  • 任务设置
  • 1. 基本信息
  • 2. 调度
  • 3. 参数
  • demo
  • demo资源
  • 问题定位方式

Was this helpful?

  1. 任务调度
  2. 工作流
  3. 任务参数配置

kafka导入hdfs

Previouskafka导入hbaseNexthdfs导出hbase

Last updated 4 years ago

Was this helpful?

kafka接入HDFS

功能说明

实现从kafka消费数据,并将数据写入hdfs。

其他说明

该任务是一个storm toplogy 实时任务。 使用前请确保 jstorm 已经安装,且运行状态正常。

任务设置

1. 基本信息

参考

2. 调度

参考

3. 参数

参数配置如下图所示:

kafka 接入hbase 参数设置分成三个部分:kafka 连接信息,hdfs 连接信息,topology 配置信息。

3.1 kafka 配置信息

  1. 消息中间件主题 kafka topic 在创建任务前,需要确保topic已经存在,系统不会创建对应的topic。

  2. 消息中间件消费组 kafka消费组 可以随意指定,但需要确保消费组全局唯一。

  3. kafka集群broker 列表 kafka broker 列表,格式为 ip1:port,ip2:port ip地址为Kafka Broker 服务所在节点ip port kafka 开放给client 连接端口,可以参考kafka broker 服务配置。

3.2 hdfs配置

  1. 出库HDFS目录 数据落地目录

  2. HDFS地址 数据落地所属的HDFS环境(连接地址)

  3. 文件最大落地大小 单位为:Byte 。如果文件最大落地大小设置的值小于64k,会使用64k ,如果设置的值大于64k,将使用实际设置的值。 实际落地hdfs 的文件大小会稍微小于设置的文件最大落地大小。

  4. 文件最小落地周期 单位为小时,必须整数。 如果时间周期到了,系统会将缓存的数据保存到hdfs ,这是时候落地的数据可能少于64k ,也可能稍微大于设置的文件最小落地大小。

3.3 toplogy配置

  1. Work进程数 该任务所占storm 集群的槽位,默认为1.

  2. Spout线程数 设定spout 启动的线程数

  3. Bolt线程数 设定bolt 启动线程数

  4. kafka消费线程数 设定kafka 消费线程数

demo

消息中间件主题: kafka_export_hbase 消息中间件消费组:kafka_export_hbase kafka集群broker list:10.254.83.70:6668 出库HDFS目录:/project/tbds_autotest/autotest/kafka_export HDFS地址 :hdfsCluster 文件最大落地大小:1024000 文件最小落地周期 :24 Work进程数: 1 Spout线程数: 1 Bolt线程数: 1 kafka消费线程数:1

demo资源

问题定位方式

通过nimbus ,或者storm ui 获取topology日志 1. 确认从kafka 获取内容成功 receive data ,the size

  1. 确认获取对应的配置成功(不能为0) spout receive message from kafka ,the data size 这里需要进一步确认(如果有改记录那就不会往下走):DataInterfaceKafkaSout.java:1030): onlineconfig is null

  2. 接近写成功会出现 desc=[name=

基本信息设置
调度设置
kafka2hdfs