📖
tbds
  • 前言
  • 部署
    • 安装步骤
  • 平台管理
    • 用户管理
    • 项目管理
    • 系统设置
  • 组件访问开发
    • kafka
    • hadoop
    • hbase
    • accessKey
    • hive
    • spark
    • ftp
    • portalApi
    • hermes
    • 代码访问组件demos
      • hbase
      • hdfs
      • kafka
      • hive
  • 数据接入
    • 数据接入
      • TDBank产品化介绍及使用指引
      • TDBank数据接入指引
      • TDBank采集接口详解
      • OGG Flume Adapter 部署文档
      • DB Demo
      • HDFS Demo
    • Hippo管理
    • 进度监控
    • 血缘分析
  • 实时计算
    • 任务管理
    • 库表模板管理
  • 数据分析
    • 数据交互
    • ideX
  • 任务调度
    • 操作指引
    • 工作流
      • 基本概念
      • 任务基本信息
      • 任务调度设置
      • 任务参数配置
        • shell 脚本
        • ftp导入hdfs
        • kafka导入hbase
        • kafka导入hdfs
        • hdfs导出hbase
        • hive sql 脚本
        • hive导入hdfs
        • hdfs导出DB(mysql,postgreSQL,sql server)
        • tstorm任务
        • spark任务
        • mapreduce任务
        • db导入hdfs
        • hdfs导出hive
        • hdfs导出hive-tdsort
        • hive导出mysql
        • mysql导入hive
      • Demo
        • FTP导入HDFS
        • HDFS导出HBASE
        • HDFS导出Mysql
        • HDFS导入HIVE
        • Hive SQL脚本
        • Hive导出MySQL
        • Hive导入HDFS
        • KAFKA导出HBASE
        • KAFKA导出HDFS
        • MYSQL导入HDFS
        • MySQL导入Hive
        • Shell脚本
        • SPARK任务
      • 升级
        • 集成代码更新
        • rpm升级
      • 补充
        • 手动迁移base组件
        • 手动安装runner组件
        • 自定义任务开发文档
        • 时间隐式变量说明
        • 下发并发数说明和调整操作
        • Issues版本说明
        • 设置分组
        • 跨工作流依赖
      • 常见问题定位和解决方式
        • 常用操作
        • 实时接入任务hdfs2hive (tdsort)
        • 实例日志获取失败
        • 实例日志中提示下载文件失败
        • taskSchedule指标为空定位方法
        • 实例依赖失效确认方式
        • 任务实例诊断按钮无调度信息
        • 诊断和定位操作参考
        • 实例一直等待终止定位
        • mongodb 常见问题和处理办法
    • 任务管理
      • 工作流列表
      • 任务管理
      • 任务运行管理
      • 其他
    • 服务器配置
      • 基本概念
      • 操作指南
  • Tstorm
    • Tstorm介绍
    • 开发实例
      • wordcount
  • 数据展现
    • 自助报表
  • 数据资产
    • 库表管理
      • 可管理库表
      • 可读写库表
      • 无归属库表
      • 维表管理
      • 新建表
    • 数据血缘
    • 数据提取
      • 数据地图
      • 任务列表
      • 架构关联
  • 运维中心
    • 系统运维
      • 组件部署
      • 链接归集
      • 诊断
      • 备份
    • 访问管理
    • 文件管理
    • 监控告警
      • 监控
      • 告警
  • 机器学习
    • 系统简介
    • TDInsight功能介绍
      • 工作流
        • 新建工程
        • 新建工作流
        • 创建和配置节点
        • 运行
        • 日志查看
      • 数据输入输出
      • 组件
        • Spark组件
        • Sparkstreaming组件
        • pySpark组件
        • xgboost组件
    • 多实例并发
      • 3种方式驱动实例
      • 实例查询
      • 历史实例
    • TDInsight模型与在线推理
      • 数据流
      • 模型的训练与使用
      • 模型在线服务
    • TDInsight算法/组件说明
      • 数据说明
      • 特征工程
        • 数据预处理
        • 特征提取
        • 特征转换
        • 特征选择
        • 特征评估
      • 机器学习
        • 分类算法
        • 聚类算法
        • 回归算法
        • 推荐算法
        • 关联规则
      • 模型评估
        • Binary Evaluator
        • Multi Evaluator
        • Regression Evaluator
      • 可视化
        • 关系
        • 分布
        • 对比
        • 组合
      • 深度学习算法简介
        • 计算机视觉
        • 自然语言处理
        • 表示学习
Powered by GitBook
On this page
  • 1.介绍
  • 2.使用
  • 2.1查看库表元数据信息
  • 2.2执行sql查询&导出结果
  • 2.3添加&修改UDF
  • 2.4添加phoenix库表映射

Was this helpful?

数据分析

Previous库表模板管理Next数据交互

Last updated 4 years ago

Was this helpful?

1.介绍

数据分析(supersql)提供了访问sparksql、hive、phoenix的简洁易用的界面,能够:

  • 查看有权限的数据库、表和各字段类型等元数据信息

  • 使用sql语句进行数据的分页查询

  • 查询结果以csv、excel格式导出

  • 添加、修改UDF(User-Defined-Function)

  • hbase表映射为phoenix表并进而使用sql进行查询

2.使用

如下图所示,在数据交互页面中左侧点击依次是hive、sparksql、phoenix交互页面。

2.1查看库表元数据信息

以hive页面为例(sparksql和phoenix页面类似),页面左侧区域【数据库表】页签中会列出当前有权限的数据库名、表名以及表拥有的字段及其类型。

注意:如果没有显示库表则是因为没有权限,请在库表管理页面中对数据库和表赋予权限。phoenix更特殊一些,除了要赋予权限外,还需要进行映射才可以执行sql,详见2.4添加phoenix库表映射。

2.2执行sql查询&导出结果

以hive页面为例(sparksql和phoenix页面类似),点击左侧表名会在中间sql输入框中生成对应表的查询sql,点击执行按钮即可执行sql查询,sql可使用导出按钮进行导出。导出是异步的,也就是说在导出的过程中你可以执行其他操作,只要不关闭portal页面导出就不会中断。导出完成后会存储csv格式文件到本地。同时也可以打开多个sql输入框进行操作。

2.3添加&修改UDF

2.3.1添加&修改hive UDF

hive页面左侧区域点击切换到【设置】页签,在数据库下拉列表中选择目标数据库,并依次输入函数名称、类名称(点击新增一行可同时添加多个UDF),最后上传jar文件,创建成功后即可在sql中使用。如果需要修改则重新创建即可。

2.3.2添加&修改phoenix UDF

phoenix页面左侧区域点击切换到【设置】页签,输入函数名称(点击新增一行可同时添加多个UDF),最后上传jar文件,创建成功后即可在sql中使用。如果需要修改则重新创建即可。

2.4添加phoenix库表映射

hbase属于nosql数据库,要使用sql操作hbase首先需要将qualifier映射为phoenix的column。数据分析中进行映射非常方便,在phoenix页面中点击左上区域如下图所示的图标:

在弹出的对话框中选择hbase的表空间和表,并在下方每行中依次输入columnFamily、qualifier、数据类型(不需要的可以不进行映射,也可以自行任意添加)。

点击确定,则会创建同名的phoenix表,字段名则与qualifier相同,如下图所示。

接下来就可以使用phoenix sql进行查询了。

注意:TBDS4.0.4.1之前的版本一旦映射成功是无法修改列的数据类型的,也无法将该列删除,因此使用的时候需特别注意。TBDS4.0.4.1及之后的版本则无此限制。

注意1:数据分析只作查询相关的操作,元数据的管理请使用库表管理。 注意2:phoenix的语法要求表名、字段名要使用双引号,常量要使用单引号,例如SELECT * FROM "t_hb001" where "islike"='ds',更多信息请参考。

注意1:如果没有数据库权限请在库表管理中申请。 注意2:编写hive UDF请参考。

注意1:如果没有数据库权限请在库表管理中申请。 注意2:编写phoenix UDF需要实现org.apache.phoenix.expression.function.ScalarFunction类,建议使用支持hbase1.2+,phoenix 4.8.1+以上的版本作为依赖进行开发,具体请参考。

phoenix语法
这里
这里