TDInsight算法/组件说明
Jarvis仅支持HDFS存储类型,下面介绍一下在使用这个路径的时候需要注意的问题
1. 路径命名规则
在每个算法模块填写输入与输出数据的路径时,对路径的命名规则有如下要求:
填写完整的HDFS路径名称 例如:hdfs://xxx.xx.xx.xx:54310/user/hdfs/hashingtf/result
2. 数据格式要求
数据格式总体分为Dense和Libsvm两种数据格式
2.1 Dense数据格式
Dense数据格式每行对应一个样本,每列对应一个特征,在HDFS中每行样本的各列以空格连接,如:
2.2 Libsvm数据格式
这是数据的一种稀疏表达方式,仅支持标准的libsvm数据格式,如下面的示例。libsvm数据格式作为输入数据时无需刻意指明,系统通过模式匹配自动识别数据是dense还是libsvm格式。每行中的元素以空格连接
标准libsvm数据格式要求:要求数据中的index必须是从1开始计数,且以升序排列;
特征数目:稀疏表达的数据需要指定特征数,特征列参数中指定"1-featureSize"。如“1-19”表示特征数有19维。若不确定参数数目,可以参数选择列为空
TDInsight样例中数据访问说明
TDInsight中的Jarvis样例读写的数据支持HDFS存储形式。如果需要查看HDFS中的相关数据,可以使用hadoop命令查看
常用参数表
参数名 | 参数类型 | 参数描述 | 默认值 | ||
算法操作类型(algoType) | TEXT | train or predict | train | ||
输入数据路径(input) | TEXT | HDFS URL | |||
特征数据起始列(beginCol) | INTEGER | 从0开始计数,默认0 | 0 | ||
特征数据终止列(endCol) | INTEGER | 默认:含标签length-2,无标签length-1 | |||
数据标签列(labelCol) | INTEGER | 从0开始计数;默认为length-1 | |||
并行数(partitionNum) | INTEGER | 即数据分区数 | 10.0 | ||
抽样率(sampleRate) | FLOAT | 范围:0~1.0 | 1.0 | ||
预测数据路径(predictData) | TEXT | HDFS URL | |||
输出数据路径(output) | TEXT | HDFS URL | |||
算法终止误差(tol) | FLOAT | 迭代误差小于该值时,迭代终止 | |||
最大迭代次数(maxIter) | INTEGER | 算法最大迭代次数 |
Last updated