【NLP】使用AutoX_nlp自动化提取文本特征

汉无为 2022-05-22 发布于湖北

展开全文

背景

你是否曾面对结构化数据中的文本列,不知如何处理？文本数据作为一种常见的数据类型，包含了大量重要特征，如情感、意图等。为了高效地将文本转换为可供模型使用的特征，AutoX_nlp提供了文本列自动特征提取的解决方案。通过该方案，可以很方便地调用文本处理工具，将文本特征变成数值特征，进行后续训练、预测。

效果

目前AutoX_nlp结合AutoX端到端自动机器学习建模方案，已在多个包含文本域的数据集上取得优于其他自动建模工具的结果。

案例说明

你可以很容易地使用AutoX_nlp，几行代码即可完成文本特征提取：

from autox.autox_nlp import NLP_featureNLP_feature = NLP_feature()

text_columns = ['text1','text2']train_text_feature = NLP_feature.fit_transform(train,text_columns)test_text_feature = NLP_feature.transform(test)

AutoX_nlp介绍

主要流程包括:

1. 分词：将单条文本拆分为多个token，将文本信息拆分细化。默认为空格分词，无监督分词器可以动态选择较合适的分词粒度；

2. 特征提取：将拆分后的文本表示为数值特征向量，默认为TFIDF，此外还支持Word2Vec、FastText、Glove、Bert、Zero-shot labeling。其中zero shot labeling使用在NLI任务下训练的模型对文本潜在的类别进行预测，适用于提前知晓文本列所指代特征的情况；

3. 输出：将特征转化为期望的输出格式，默认为离散型，此外也可以直接以稀疏矩阵输出第二步的特征，以及使用有监督的方式输出连续型特征。