数据预处理

1. DataSampling

  • 算法说明

    该模块是一种常用的数据预处理方法,通常可作为其他算法的前提。它提供了从原数据集里随机抽取特定的比例或者特定数量的小样本的方法。其他常见的算法模块可以通过配置抽样率完成数据抽样的功能,无需单独使用该模块;该模块常用于抽取小样本用于数据的可视化。

  • 输入

  • 输出

    • 格式:|features|

    • 说明:格式与输入数据一致

  • 参数

    • 抽样率:范围是0~1.0,表示抽取样本的比例

    • 抽样量:抽样数目

    • 并行数:训练数据的分区数、spark的并行数

  • 注意:最终抽样的比例是min(抽样率, 抽样量/总数据量)。因此如果抽样量参数为1000,最终的抽样量不一定是精确的1000。

2. Spliter

  • 算法说明

    Spliter对数据按比例进行随机划分,使原始样本数据被划分成两个数据集:第一份输出结果(output1)和第二份输出结果(output2)。例如划分比例为0.7,则第一份输出数据的个数占原始数据总个数的70%,第二份数据的占30%。

  • 输入

  • 输出

    • 第一输出结果:第一份数据的输出

      • 格式:| features |

      • 说明:格式与输入数据一致

    • 第二输出结果: 第二份数据的输出

      • 格式:| features |

      • 说明:格式与输入数据一致

  • 参数

    • fraction: 数据的划分比例

    • 并行数:训练数据的分区数、spark的并行数

Last updated