请问机器学习PAI easyrec是否支持文本特征输入?-[阿里云_云淘科技]

请问机器学习PAI easyrec是否支持文本特征输入?可有教程参考。这里separator是代表文本的分隔符吗? 中文需要提前分词吧

以下为热心网友提供的参考意见

阿里云机器学习PAI的EasyRec算法库支持文本特征输入,可以读取MaxCompute数据或HDFS数据,其中MaxCompute表中的每一列或CSV文件中的某一列,都需要与data_config中的一个input_fields对应。

关于文本特征的输入,需要特别注意的是,使用csv格式的输入需要指定separator作为列之间的分隔符,默认是半角逗号”。除此之外,也可以使用不可见字符作为分隔符,如’\001’, ‘\002’等。在处理文本特征时,除了这种以字符为基本单位的特征表示外,还可以通过卷积神经网络(如TextCNN)来提取句子中n-gram的特征表示。此外,EasyRec还支持对输入的离散值进行组合,比如age + sex等。

对于中文文本特征,确实需要进行分词处理。例如,你可以根据词表的规则进行分词,也可以使用基于统计的方法。统计分词方法会利用已经分词的文本,基于统计机器学习模型学习词语切分的规律。另外,有些复杂的分词方法还会考虑上下文特征和句法知识。这样,即使面对”机器学习”这样的词汇,也能准确地将其分割为”机器”和”学习”两个部分。

以下为热心网友提供的参考意见

TextCNN特征聚合(Sequence Combiner) 特征配置模块支持使用TextCNN算子对序列特征进行embedding聚合,示例:

feature_configs: {
input_names: ‘title’
feature_type: SequenceFeature
separator: ‘ ‘
embedding_dim: 32
hash_bucket_size: 10000
sequence_combiner: {
text_cnn: {
filter_sizes: [2, 3, 4]
num_filters: [16, 8, 8]
}
}
}
需要 ,此回答整理自钉群“【EasyRec】推荐算法交流群”

本文来自投稿,不代表新手站长_郑州云淘科技有限公司立场,如若转载,请注明出处:https://www.cnzhanzhang.com/13673.html

(0)
匿名
上一篇 2023年12月10日
下一篇 2023年12月10日

相关推荐

新手站长从“心”出发,感谢16年您始终不离不弃。