TDInsight算法/组件说明

Jarvis仅支持HDFS存储类型，下面介绍一下在使用这个路径的时候需要注意的问题

1. 路径命名规则

在每个算法模块填写输入与输出数据的路径时，对路径的命名规则有如下要求：

填写完整的HDFS路径名称例如：hdfs://xxx.xx.xx.xx:54310/user/hdfs/hashingtf/result

2. 数据格式要求

数据格式总体分为Dense和Libsvm两种数据格式

2.1 Dense数据格式

Dense数据格式每行对应一个样本，每列对应一个特征，在HDFS中每行样本的各列以空格连接，如：

10.2 12.8 3.67 ...
25.9 55.9 29.0 ...
7.89 0.89 14.5 ...

2.2 Libsvm数据格式

这是数据的一种稀疏表达方式，仅支持标准的libsvm数据格式，如下面的示例。libsvm数据格式作为输入数据时无需刻意指明，系统通过模式匹配自动识别数据是dense还是libsvm格式。每行中的元素以空格连接

1 1:0.5 3:3.1 7:1.0
0 2:0.1 3:2.3 5:2.0
2 4:0.2 7:1.1 9:0.0

标准libsvm数据格式要求：要求数据中的index必须是从1开始计数，且以升序排列；
特征数目：稀疏表达的数据需要指定特征数，特征列参数中指定"1-featureSize"。如“1-19”表示特征数有19维。若不确定参数数目，可以参数选择列为空

TDInsight样例中数据访问说明

TDInsight中的Jarvis样例读写的数据支持HDFS存储形式。如果需要查看HDFS中的相关数据，可以使用hadoop命令查看

常用参数表

参数名

参数类型

参数描述

默认值

算法操作类型(algoType)

TEXT

train or predict

train

输入数据路径(input)

TEXT

HDFS URL

特征数据起始列(beginCol)

INTEGER

从0开始计数，默认0

特征数据终止列(endCol)

INTEGER

默认:含标签length-2,无标签length-1

数据标签列(labelCol)

INTEGER

从0开始计数；默认为length-1

并行数(partitionNum)

INTEGER

即数据分区数

10.0

抽样率(sampleRate)

FLOAT

范围：0~1.0

1.0

预测数据路径(predictData)

TEXT

HDFS URL

输出数据路径(output)

TEXT

HDFS URL

算法终止误差(tol)

FLOAT

迭代误差小于该值时，迭代终止

最大迭代次数(maxIter)

INTEGER

算法最大迭代次数

Previous模型在线服务 Next数据说明

Last updated 5 years ago

hashtag1. 路径命名规则

hashtag2. 数据格式要求

hashtag2.1 Dense数据格式

hashtag2.2 Libsvm数据格式

hashtagTDInsight样例中数据访问说明

hashtag常用参数表

1. 路径命名规则

2. 数据格式要求

2.1 Dense数据格式

2.2 Libsvm数据格式

TDInsight样例中数据访问说明

常用参数表