HDFS Demo
2、DB —> HDFS
原理:通过采集Agent获取DB数据,采集数据存储在Hippo,TDSort消费Hippo数据,存储到对应目的HDFS目录下
默认的HDFS存储路径 DataHub Server服务下tdsort-hdfs配置中的dfs.data.dir参数,默认值:/tdbank/data/hippo;指标数据存储路径对应moniter.log.dir,默认值:/data/tdbank/storm/storm-tdbank/tdbank_sort_logs。
1、【基本信息】配置 
备注:
hadoopJobUgi、isHadoopJobUgi 两个参数暂未使用
2、【接口信息】配置
接入的源数据库表信息:源DB:tdbank, 源Table:student, teacher,接口名称:db2HDFSTest 
配置对应的目的数据接口:选择自动创建tdbank_studenthive表 

备注:
接口名:命名规定
源DB名_源Table名文件大小限制:默认120M,即文件达到对应限制值后,会执行一次TDSort落地HDFS。如文件尚未达到限制值,TDSort默认每个小时调度一次,如果期望文件快速落地,可调小限制值
创建hive表:是->默认在接入所属的项目下创建对应的库表,库名:
tbds_{小写接入Hippo topic名称},表名:{小写的接口名称}, 创建hive表是方便之后基于【工作流】将hdfs数据导入Hive表创建hive的hive表,默认会带有分区字段:
frequency_date,按照小时入库
3、【资源信息】配置
该接口使用的Hippo Topic名称为:hdfs_topic_01 
4、查看创建的Hive表
接入审批通过后,会自动创建对应的Hive表(接口配置设置自动创建hive表),在【数据资产】->【库表管理】下可查看对应的库表信息。
创建库名:tbds_{小写接入hippo topic},表名:{小写接入名称};即库名:tbds_hdfs_topic_01,表名:tdbank_student


5、【采集Agent】配置 数据接入审批成功后,配置数据接入Agent,配置的参数详情,参考[TDBank采集接口详解]
配置data-hub:common.properties
配置Flume:log4j.properties
追加以下配置信息,用于接入的指标采集
配置Flume:flume.conf
配置Tmetric: agent.ini
6、【指标查询】
点击数据接入详情,查看数据流向: 
在Hippo管理界面查看,对应Topic的生产消费情况(Agent数据采集、TDSort落地情况) 
在【进度监控】->【数据明细】查看对账数据 
Last updated
Was this helpful?