表示学习

1. BRNN ENCODER

  • 算法说明 BRNN Encoder (Bidirectational Recurrent Neural Network Encoder) 是基于RNN改进的时序编码模型,可以对具有时序特性数据进行特征编码及衍合,BRNN Encoder算法的输入,可以是多天的用户行为数据,也可以是语句中的词向量,编码后的结果可以用于其他的模型训练。

  • 训练节点

    • 输入

      • 数据形式:TimeSeriesTrainData,以半角逗号连接各字段。

      • 格式:| label | timestep×features |

      • label:通过 算法参数类别数 指定。分类任务中label需要经过1-HOT处理,详见TimeSeriesData

      • timestep:可通过 算法参数时序长度 指定,代表每条样本的时序个数。

      • features:可通过 算法参数选择特征列 指定,代表每个timestep中包含的特征个数。

    • 模型输出

      • Tensorflow模型文件,可参考Serving a TensorFlow Model。可以通过 算法IO参数 中的 模型输出 指定,将模型保存至自己的cephfs路径下。

      • 内容:包括ckpt、meta和 checkpoint三种文件。

    • 算法IO参数

      • 训练数据路径:训练数据路径(ceph路径) 。

      • 测试数据路径:同上 。

      • TensorBoard目录:tensorboard 存储路径 。

      • 模型输出路径:模型输出路径(必填),如:/cephfs/person/rtx/。

    • 算法参数

      • 初始学习率:控制模型的收敛速度。

      • 每层单元个数:每层中包含的rnn单元个数。

      • 网络深度(层):构建单层或多层rnn模型。

      • 特征数量:作为feature值,用于训练模型。

      • 时序长度:brnn循环的次数,作为timestep值。

      • 类别数:样本输出类别的个数。

      • 模型保存间隔:控制缓存模型的间隔,可用于重复训练。

      • 训练步数:训练过程中,数据集被循环利用的次数。

  • 预测节点

    • 输入

      • 数据形式:TimeSeriesTrainData,以半角逗号连接各字段。

      • 格式:| ID | timestep×features |

      • ID:用于标识每条预测样本,可以为QQ号或者文本编号。

        • timestep:可通过 模型参数时序长度 指定,代表每条样本的时序个数。

      • features:可通过 模型参数选择特征列 指定,代表每个timestep中包含的特征个数。

    • 输出

      • 格式:| ID | encoded_features |

      • 说明:以半角逗号连接各字段

      • encoded_features:编码后的时序特征,feature的个数与输出层神经元个数相同,可以通过 模型参数隐含层个数 指定。

        • 模型参数

      • 时序长度:编码数据的时间序列个数, 作为timestep值。

      • 特征数量:作为feature值,用于特征编码,需要与训练样本的feature个数一致。

Last updated