DB Demo
1、DB —> DB
原理:通过采集Agent获取DB数据,采集数据存储在Hippo,TDSort消费Hippo数据,存储到对应目的DB
操作步骤
1、【基本信息】配置

使用目的数据库:tdbank_dest 
备注:
接入名称:全局唯一,agent采集数据对应的接入名称
项目名称:该接入关联的所属项目
责任人:接入的责任用户,后续创建hive表或工作流会使用该用户
消息格式:目前仅支持文本
数据编码:目前仅支持UTF-8
源文件分隔符:接入文本的分隔符,
必须与agent设置的分隔符保持一致,TDsort会基于该分隔符落地数据数据流向:数据的落地目的,目前仅支持HDFS、DB
落地HDFS配置
hadoopJobUgi:访问hdfs需要的用户名密码信息,目前该配置未使用,可
任意填,满足格式即可fsdefaultname:落地hdfs的路径,落地TBDS内的HDFS集群,默认使用
hdfs://hdfsClusterisHadoopJobUgi:未使用该参数,可默认选true
落地DB配置
DBDriver:目前仅支持MySQL Driver
DBUrl:
落地数据的目的数据库信息,以MySQL为例:jdbc:mysql://ip:port/dbnameDB用户名/DB密码:目的数据库的连接用户名、密码信息,点击[下一步]时会校验DB连接信息
2、【接口信息】配置
接入的源数据库表信息:源DB:tdbank, 源Table:student, teacher,接口名称:db2dbTest
配置对应的目的数据接口: 

确保在目的数据库tdbank_dest,已经创建对应接口名的表,字段和上述保持一致。 
备注:
接口名:命名规定
源DB名_源Table名,落地的目的Table名称与接口名保持一致,接口名不能重复接口描述:接口的描述信息,可任意填写
业务并发度:TDSort落地该接口数据的并发度
接口名称:落地的数据表字段信息
如果接口名不符合命名规范,则数据无法落地的期望的目的。TDSort消费时会抛弃该数据
3、【资源信息】配置

备注:
topic名称:每个数据接入对应一个Hippo Topic,Topic不能重复被不同接入使用
类型:目前仅支持Hippo
IP列表:允许该Topic进行数据生产的IP列表,逗号分隔,
*代表不进行IP限制,允许所有IP访问数据量、峰值速率:该Topic的数据流量控制
Topology名称:TDSort使用的Topo配置的名称,目前TDSort基于TStorm运行
Topology.workers:TDSort使用的woker数量
Spout.parallel:TDSort的Spout并行度
Bolt.parallel:TDSort的Bolt并行度
Checker.parallel:
Checker.parallel:
资源验证:提交接入任务前,需要进行资源验证,校验有足够的接入资源
Hippo创建,数据接入创建后,需要所属项目管理员进行审批,只有审批通过后,才能正常使用。审批成功后,数据接入从
草稿变成启动状态。
4、【采集Agent】配置
数据接入审批成功后,配置数据接入Agent,配置的参数详情,参考[TDBank采集接口详解]
配置data-hub:common.properties
配置Flume:log4j.properties
追加以下配置信息,用于接入的指标采集
配置Flume:flume.conf
配置Tmetric: agent.ini
启动Agent、Tmetric命令:
5、【指标查询】
点击数据接入详情,查看数据流向: 
在Hippo管理界面查看,对应Topic的生产消费情况(Agent数据采集、TDSort落地情况) 
供接入30条数据:student表20条,teacher表10条 
在【进度监控】->【数据趋势】查看数据累计趋势图 
在【进度监控】->【数据明细】查看对账数据 
Last updated
Was this helpful?