📖
tbds
  • 前言
  • 部署
    • 安装步骤
  • 平台管理
    • 用户管理
    • 项目管理
    • 系统设置
  • 组件访问开发
    • kafka
    • hadoop
    • hbase
    • accessKey
    • hive
    • spark
    • ftp
    • portalApi
    • hermes
    • 代码访问组件demos
      • hbase
      • hdfs
      • kafka
      • hive
  • 数据接入
    • 数据接入
      • TDBank产品化介绍及使用指引
      • TDBank数据接入指引
      • TDBank采集接口详解
      • OGG Flume Adapter 部署文档
      • DB Demo
      • HDFS Demo
    • Hippo管理
    • 进度监控
    • 血缘分析
  • 实时计算
    • 任务管理
    • 库表模板管理
  • 数据分析
    • 数据交互
    • ideX
  • 任务调度
    • 操作指引
    • 工作流
      • 基本概念
      • 任务基本信息
      • 任务调度设置
      • 任务参数配置
        • shell 脚本
        • ftp导入hdfs
        • kafka导入hbase
        • kafka导入hdfs
        • hdfs导出hbase
        • hive sql 脚本
        • hive导入hdfs
        • hdfs导出DB(mysql,postgreSQL,sql server)
        • tstorm任务
        • spark任务
        • mapreduce任务
        • db导入hdfs
        • hdfs导出hive
        • hdfs导出hive-tdsort
        • hive导出mysql
        • mysql导入hive
      • Demo
        • FTP导入HDFS
        • HDFS导出HBASE
        • HDFS导出Mysql
        • HDFS导入HIVE
        • Hive SQL脚本
        • Hive导出MySQL
        • Hive导入HDFS
        • KAFKA导出HBASE
        • KAFKA导出HDFS
        • MYSQL导入HDFS
        • MySQL导入Hive
        • Shell脚本
        • SPARK任务
      • 升级
        • 集成代码更新
        • rpm升级
      • 补充
        • 手动迁移base组件
        • 手动安装runner组件
        • 自定义任务开发文档
        • 时间隐式变量说明
        • 下发并发数说明和调整操作
        • Issues版本说明
        • 设置分组
        • 跨工作流依赖
      • 常见问题定位和解决方式
        • 常用操作
        • 实时接入任务hdfs2hive (tdsort)
        • 实例日志获取失败
        • 实例日志中提示下载文件失败
        • taskSchedule指标为空定位方法
        • 实例依赖失效确认方式
        • 任务实例诊断按钮无调度信息
        • 诊断和定位操作参考
        • 实例一直等待终止定位
        • mongodb 常见问题和处理办法
    • 任务管理
      • 工作流列表
      • 任务管理
      • 任务运行管理
      • 其他
    • 服务器配置
      • 基本概念
      • 操作指南
  • Tstorm
    • Tstorm介绍
    • 开发实例
      • wordcount
  • 数据展现
    • 自助报表
  • 数据资产
    • 库表管理
      • 可管理库表
      • 可读写库表
      • 无归属库表
      • 维表管理
      • 新建表
    • 数据血缘
    • 数据提取
      • 数据地图
      • 任务列表
      • 架构关联
  • 运维中心
    • 系统运维
      • 组件部署
      • 链接归集
      • 诊断
      • 备份
    • 访问管理
    • 文件管理
    • 监控告警
      • 监控
      • 告警
  • 机器学习
    • 系统简介
    • TDInsight功能介绍
      • 工作流
        • 新建工程
        • 新建工作流
        • 创建和配置节点
        • 运行
        • 日志查看
      • 数据输入输出
      • 组件
        • Spark组件
        • Sparkstreaming组件
        • pySpark组件
        • xgboost组件
    • 多实例并发
      • 3种方式驱动实例
      • 实例查询
      • 历史实例
    • TDInsight模型与在线推理
      • 数据流
      • 模型的训练与使用
      • 模型在线服务
    • TDInsight算法/组件说明
      • 数据说明
      • 特征工程
        • 数据预处理
        • 特征提取
        • 特征转换
        • 特征选择
        • 特征评估
      • 机器学习
        • 分类算法
        • 聚类算法
        • 回归算法
        • 推荐算法
        • 关联规则
      • 模型评估
        • Binary Evaluator
        • Multi Evaluator
        • Regression Evaluator
      • 可视化
        • 关系
        • 分布
        • 对比
        • 组合
      • 深度学习算法简介
        • 计算机视觉
        • 自然语言处理
        • 表示学习
Powered by GitBook
On this page
  • 定时实例
  • 参数实例
  • 参数的常见使用方法
  • 重跑实例

Was this helpful?

  1. 机器学习
  2. 多实例并发

3种方式驱动实例

Previous多实例并发Next实例查询

Last updated 4 years ago

Was this helpful?

TDinsight上有4种驱动方式:手动,定时,参数驱动和重跑。 对同一个工作流来说,这4种驱动方式即不同的实例类型。 在前文已介绍过手工驱动实例,这里就不再赘述,重点介绍后3种。

定时实例

定时实例是指用户可以设置自动运行策略,到时间后自动生成实例并运行的功能。 调试后的工作流可设置定时策略进行例行化运行,具体如下图所示:

注意

  1. 定时设置后,需要在工作流画布上手动保存一下才能生效

  2. 设置了定时策略的作业,将使用online资源运行,保障例行化作业的资源配比

参数实例

参数驱动

算法工程师进行模型训练时需要进行大量的参数调试,TDInsight提供带参数集的运行功能。用户可以设置数值型和枚举型参数,赋予其规则。系统将根据这种设定的规则生成多个实例,实现不同的参数组合条件下的模型训练。 1. 参数设置和初始化,先在工作流页面的地“参数设置”工具栏中先设置好参数以及初始值。用key=value的方式即可

2.带参数运行工作流

注意: 这种方式生成的实例类型都为“参数驱动”,可进行实例查询和历史实例快照的查询。具体见实例查询章节

参数的常见使用方法

参数值在执行的时候会被替换成最新传递的.

时间参数的使用

时间参数在TDinsight平台上也用得比较多, 有2类时间参数概念:

  1. 执行时间;即用户在执行任务时对应的时间 ,由于任务每次执行时间不一样,如果用户同一个日期目录下的数据,今天执行一次,第二天再执行时,如果不进行参数的计算变更,就会无法拿到了。

  2. 业务时间:是数据时间,在数平离线处理的数据加工过程中,都会加一个业务时间,用户在进行某次训练或计算时使用的是某个业务时间下的数据,此时间是固定的,只要指定了业务日期,那工作流不管何时执行,执行多少次,只要业务逻辑没有变更,结果都是一样的;

因此TDinsight使用业务时间来进行任务同步, TDinsight上可以使用${YYYYMMDD}的格式进行业务时间的参数传递,对周期工作流来说,${YYYYMMDD}取的是上一个周期的日期,举个例子, 假设当时时间为2016-08-08 16:00:00,不同的周期和参数传递后取到的值对应关系如下:

使用时注意:

  1. 天任务的小时,分钟,秒都为0;

  2. 月任务的时间都是每个月的1号;

  3. 周任务可以使用间隔7天来实现;

重跑实例

用户需要对历史某个时段的数据进行重新处理时,在工作流画布页面,选择重跑的时间区间,提交即可。

注意:

  1. 如果当前的流设置了定时策略,重跑的时间设定单位与定时策略保持一致。例如定时策略设置的是每12小时运行一次,重跑的区间也是从开始时间起每12小时运行一次。

  2. 支持月,周,天,时为单位的重跑,但不支持分钟任务重跑。

  3. 对于“等待运行”和“正在运行”状态的重跑实例,如果新提交的请求中有相同数据时间的实例,系统会进行去重处理。

  4. 由于SparkStreaming任务的业务场景是流式计算,因此如果工作流中含有sparkstreaming任务节点,则不支持重跑功能。

  5. 单个流的重跑实例数目前上限为50, 超过则不能提交。

在下图的入口设置参数值,数值型的可以通过设置初始值,终值,步长的方式变化每次运行的参数值,枚举型需以空格进行分隔,设置完成后,系统就会根据参数配置的组合提交实例去运行。 例如下面的例子,第一个参数实例的参数分配是:a=2,b=white

参数初始化以后,可以用${参数}的方式在工作流里来使用,例如