TDInsight模型与在线推理
Last updated
Was this helpful?
Last updated
Was this helpful?
所谓数据流,即上下游节点的连接线不仅代表着节点的先后次序,同样代表着数据的流向。数据流使数据如血液般在平台中流动,使平台工作流的搭建更加简单、方便。
数据的输入、输出依赖关系只需要通过节点连线即可自动完成,对于需要数据流的节点,您会发现这些节点上的输入和输出可以是多个的(但不超过3个)。
拉动线条连接时,系统会自动把上个节点的数据输出作为下个节点的输入。通过鼠标hover在这些输入、输出点上,就能看到每个数据点的提示。
如下图所示,数据切分节点有两个输出点,代表有两份数据输出。将第一个输出点与下游的LogisticRegression第一个输入点相连,这样LogisticRegression节点的“训练集路径”参数就自动填上数据切分的第一个输出。如此,用户可以方便地将数据切分成训练集和验证集,用于LR模型的训练。
在有监督机器学习训练过程中,数据集会有训练集、验证集和测试集的概念。训练集和验证集用于模型的训练和模型参数的选择。在模型训练过程结束后,用测试集评测最终模型的性能。
每个“算法节点”所附带的“模型节点”不仅具有模型管理、查看等功能,而且有预测功能,“算法节点”执行训练结束后,将执行左侧“模型节点”的预测功能。
下图给出一个基于数据流的机器学习工作流示例:
训练集和测试集作为整个LR算法的输入,如果你的训练集和测试集是从同一份数据分出来的,那你可以再加一个数据切分的节点;
数据随机按比例切分成训练集和验证集;
LR模型训练、调参;
用生成的模型预测测试集,并计算模型评测指标。