文档

Doc2Vec

更新时间:

Doc2Vec算法将文档ID视为一个词来进行训练,其中句向量表示与该文档ID相对应的向量,词向量是在文档ID充当上下文时训练得到的向量。您可以通过Doc2Vec算法组件将文章映射为向量,输入为词汇表,输出为文档向量表、词向量表或词汇表。本文为您介绍Doc2Vec算法组件的配置方法。

使用限制

支持的计算引擎为MaxCompute。

组件配置

您可以使用以下任意一种方式,配置Doc2Vec组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

文档ID列名

用来进行训练的文档列名。

文档内容

用来进行训练的词汇,以空格分隔。

参数设置

单词的特征维度

单词的特征维度数量。取值范围为0~1000,默认值为100。

语言模型

训练使用的语言模型。取值范围为

  • skip-gram模型(默认值)

  • cbow模型

单词窗口大小

单词的窗口大小。取值范围为正整数,默认值为5。

截断的最小词频

取值范围为正整数,默认值为5。

Hierarchical Softmax

是否采用HIERARCHICAL SOFTMAX。默认采用。

Negative Sampling

负采样的窗口大小。取值范围为正整数,默认值为5,0表示不可用。

向下采样阈值

向下采样的阈值。取值范围为1e-3~1e-5,默认值为1e-3,0表示不可用。

开始学习速率

取值大于0,默认值为0.025。

训练的迭代次数

取值大于等于1,默认值为1。

Window是否随机

指定单词窗口的展示方式。取值范围为大小在1~5间随机不随机,其值由window参数指定,默认值为不随机,其值由window参数指定

执行调优

计算的核心数

默认为系统自动分配。

每个核心的内存(MB)

默认为系统自动分配。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name pai_doc2vec
    -project algo_public
    -DinputTableName="d2v_input"
    -DdocIdColName="docid"
    -DdocColName="text_seg"
    -DoutputWordTableName="d2v_word_output"
    -DoutputDocTableName="d2v_doc_output";

参数名称

是否必选

描述

默认值

inputTableName

输入词汇表的名称。

inputTablePartitions

输入词汇表中参与分词的分区名称。格式为partition_name=value。多级分区格式为name1=value1/name2=value2。如果指定多个分区,用英文逗号(,)分隔。

docIdColName

用来进行训练的文档列名。

docColName

用来进行训练的词汇,以空格分隔。

layerSize

单词的特征维度数量。取值范围为0~1000。

100

cbow

训练使用的语言模型。取值范围为0(skip-gram模型)和1(cbow模型)。

0

window

单词的窗口大小。取值范围为正整数。

5

minCount

截断的最小词频。取值范围为正整数。

5

hs

是否采用HIERARCHICAL SOFTMAX。取值范围为0(不采用)和1(采用)。

1

negative

负采样的窗口大小。取值范围为正整数,0表示不可用。

5

sample

向下采样的阈值。取值范围为1e-3~1e-5,默认值为1e-3,0表示不可用。

1e-3

alpha

取值大于0。

0.025

iterTrain

取值大于等于1。

1

randomWindow

指定单词窗口的展示方式。取值范围为0(不随机,其值由window参数指定)和1(大小在1~5间随机)。

1

outVocabularyTableName

输出词汇表名称。

outputWordTableName

输出词向量表名称。

outputDocTableName

输出文档向量表名称。

lifecycle

输出表的生命周期。取值范围为正整数。

coreNum

核心数,需要与memSizePerCore参数同时设置才生效。取值范围为正整数。

系统自动分配

memSizePerCore

内存数,需要与coreNum参数同时设置才生效。取值范围为正整数。

系统自动分配

相关文档

关于Designer更详细的内容介绍,请参见Designer概述

  • 本页导读 (1)
文档反馈