📖
tbds
  • 前言
  • 部署
    • 安装步骤
  • 平台管理
    • 用户管理
    • 项目管理
    • 系统设置
  • 组件访问开发
    • kafka
    • hadoop
    • hbase
    • accessKey
    • hive
    • spark
    • ftp
    • portalApi
    • hermes
    • 代码访问组件demos
      • hbase
      • hdfs
      • kafka
      • hive
  • 数据接入
    • 数据接入
      • TDBank产品化介绍及使用指引
      • TDBank数据接入指引
      • TDBank采集接口详解
      • OGG Flume Adapter 部署文档
      • DB Demo
      • HDFS Demo
    • Hippo管理
    • 进度监控
    • 血缘分析
  • 实时计算
    • 任务管理
    • 库表模板管理
  • 数据分析
    • 数据交互
    • ideX
  • 任务调度
    • 操作指引
    • 工作流
      • 基本概念
      • 任务基本信息
      • 任务调度设置
      • 任务参数配置
        • shell 脚本
        • ftp导入hdfs
        • kafka导入hbase
        • kafka导入hdfs
        • hdfs导出hbase
        • hive sql 脚本
        • hive导入hdfs
        • hdfs导出DB(mysql,postgreSQL,sql server)
        • tstorm任务
        • spark任务
        • mapreduce任务
        • db导入hdfs
        • hdfs导出hive
        • hdfs导出hive-tdsort
        • hive导出mysql
        • mysql导入hive
      • Demo
        • FTP导入HDFS
        • HDFS导出HBASE
        • HDFS导出Mysql
        • HDFS导入HIVE
        • Hive SQL脚本
        • Hive导出MySQL
        • Hive导入HDFS
        • KAFKA导出HBASE
        • KAFKA导出HDFS
        • MYSQL导入HDFS
        • MySQL导入Hive
        • Shell脚本
        • SPARK任务
      • 升级
        • 集成代码更新
        • rpm升级
      • 补充
        • 手动迁移base组件
        • 手动安装runner组件
        • 自定义任务开发文档
        • 时间隐式变量说明
        • 下发并发数说明和调整操作
        • Issues版本说明
        • 设置分组
        • 跨工作流依赖
      • 常见问题定位和解决方式
        • 常用操作
        • 实时接入任务hdfs2hive (tdsort)
        • 实例日志获取失败
        • 实例日志中提示下载文件失败
        • taskSchedule指标为空定位方法
        • 实例依赖失效确认方式
        • 任务实例诊断按钮无调度信息
        • 诊断和定位操作参考
        • 实例一直等待终止定位
        • mongodb 常见问题和处理办法
    • 任务管理
      • 工作流列表
      • 任务管理
      • 任务运行管理
      • 其他
    • 服务器配置
      • 基本概念
      • 操作指南
  • Tstorm
    • Tstorm介绍
    • 开发实例
      • wordcount
  • 数据展现
    • 自助报表
  • 数据资产
    • 库表管理
      • 可管理库表
      • 可读写库表
      • 无归属库表
      • 维表管理
      • 新建表
    • 数据血缘
    • 数据提取
      • 数据地图
      • 任务列表
      • 架构关联
  • 运维中心
    • 系统运维
      • 组件部署
      • 链接归集
      • 诊断
      • 备份
    • 访问管理
    • 文件管理
    • 监控告警
      • 监控
      • 告警
  • 机器学习
    • 系统简介
    • TDInsight功能介绍
      • 工作流
        • 新建工程
        • 新建工作流
        • 创建和配置节点
        • 运行
        • 日志查看
      • 数据输入输出
      • 组件
        • Spark组件
        • Sparkstreaming组件
        • pySpark组件
        • xgboost组件
    • 多实例并发
      • 3种方式驱动实例
      • 实例查询
      • 历史实例
    • TDInsight模型与在线推理
      • 数据流
      • 模型的训练与使用
      • 模型在线服务
    • TDInsight算法/组件说明
      • 数据说明
      • 特征工程
        • 数据预处理
        • 特征提取
        • 特征转换
        • 特征选择
        • 特征评估
      • 机器学习
        • 分类算法
        • 聚类算法
        • 回归算法
        • 推荐算法
        • 关联规则
      • 模型评估
        • Binary Evaluator
        • Multi Evaluator
        • Regression Evaluator
      • 可视化
        • 关系
        • 分布
        • 对比
        • 组合
      • 深度学习算法简介
        • 计算机视觉
        • 自然语言处理
        • 表示学习
Powered by GitBook
On this page
  • 1.介绍
  • 2.使用
  • 2.1入口
  • 2.2指标告警
  • 2.3服务告警
  • 2.4告警通知的发送策略
  • 2.5告警的消除策略

Was this helpful?

  1. 运维中心
  2. 监控告警

告警

Previous监控Next机器学习

Last updated 4 years ago

Was this helpful?

1.介绍

告警提供了对集群内的监控数据以及服务有异常时的告警功能。告警分为指标告警和服务告警,指标告警可以对监控页面中的指标创建自定义告警,服务告警则是套件内组件运行异常时会自动触发的告警,在套件安装时已经创建,无需手工干预。

2.使用

2.1入口

套件首页点击运维中心卡片,并一次点击进入上侧的监控告警、左侧边栏的告警图标,即可进入告警页面。

注意:如果找不到入口则是权限不足,请使用具有Administrator角色权限的账户登录。

2.2指标告警

告警首页默认呈现的即指标告警页面。指标告警根据监控页面中定义的指标创建相应告警。

2.2.1创建指标告警

点击【创建告警】按钮,在弹出的创建告警对话框中,依次选择或填入内容即可创建相应指标报警。

  • 告警名称:必填,输入的名称最好能够表征相应告警的内容,如创建tbds-10-254-83-16机器CPU1的1分钟平均负载,则可以命名为tbds-10-254-83-16_CPU1_1分钟平均负载。

  • 是否开启:告警是否开启的开关。在某些情况下想暂时关闭告警则可以把该选项置为关闭状态。

  • 通知方式:复选项,定义告警时的通知方式。每次告警同时还会发站内信给接收人。

  • 接收人:告警的汇报对象。

  • 指标分类:必选项,告警的具体指标名称。

    • 全部服务:指标的分类列表,与监控页面的监控指标分类一致。选择某一分类后旁边的下拉框可选择具体的指标名称。

    • 指标名称:某一指标分类中的指标名称列表,与监控页面的监控指标分类一致。

    • 指标维度:某些指标具有额外的指标维度,比如当选择硬件指标分类中的内存使用_总量指标时,下方会出现指标维度选项。在第一个下拉框中选择host_name维度,在第二个下拉框中选择具体的指标维度值,如tbds-10-254-83-16,选择*表示全选(全选功能在套件4.0.4.1及以后的版本中可用)。指标是否具有指标维度与指标的定义有关,指标定义在监控页面。

  • 告警条件:分为阈值、同比、环比三种方式。

    • 阈值:设定告警触发的数值。

    • 同比:与上一天同一时刻相比增长的百分比(可以为负数)。

    • 环比:与上一指标检测周期相比增长的百分比(可以为负数)。 对于上面每一种方式,可以分别定义区间外、小于、大于三种告警方式。

  • 检测周期:检查告警指标的时间间隔,默认为1分钟,即每1分钟就会去检查定义的告警是否符合触发条件。

2.2.2指标告警的查询、过滤和列表展示

指标告警首页列出了所创建的指标告警及其当前状态,用户可在搜索框中输入告警名称或指标名称进行模糊查询,也可使用指标状态和指标分类下拉框进行过滤。

2.2.3指标告警的删除、修改和开启、关闭

在指标告警首页可以对列出的告警进行编辑和删除,并可选择关闭或开启其告警,如下图所示。

2.2.4指标告警记录

告警首页点击【告警记录】按钮可进入告警记录页面,在该页面可以根据时间范围、告警接收人和指标名称进行搜索,也可使用指标分类下拉框进行过滤。

告警记录也可在在套件的站内信中查看。

2.3服务告警

在告警首页右上侧点击【服务告警】即进入服务告警页面。服务告警是在套件组件安装时预定义好的,无法修改,主要针对套件各个组件的运行状态。

2.3.1服务告警的查询、过滤和列表展示

服务告警首页列出了所创建的服务告警及其当前状态,用户可在搜索框中输入告警名称或服务名称进行模糊查询,也可使用指标状态和指标分类下拉框进行过滤。

2.3.2服务告警的修改和开启、关闭

在服务告警首页可以对列出的告警进行编辑,并可选择关闭或开启其告警,如下图所示。

2.3.3服务告警记录

参考2.2.4指标告警记录**服务告警记录和指标告警记录**页面是同一个,服务告警记录也可在在站内信中查看。

2.4告警通知的发送策略

某一告警被触发后,为防止连续不断的发送大量重复告警,告警信息的发送间隔是和检测周期成倍数关系增长的,如检测周期是1分钟,则触发告警后会在第1分钟,第12分钟,第12*2分钟...发送告警通知。

2.5告警的消除策略

某一告警被触发后,只有在连续两个检测周期都发现告警不符合触发条件后才会解除告警状态。