【原】用Rapidminer做文本挖掘的应用：情感分析

拓端数据 2023-11-07 发布于浙江

展开全文

原文链接：http:///?p=14547

情感分析或观点挖掘是文本分析的一种应用，用于识别和提取源数据中的主观信息（点击文末“阅读原文”获取完整代码数据）。

情感分析的基本任务是将文档，句子或实体特征中表达的观点分类为肯定或否定。本教程介绍了Rapidminer中情感分析的用法。此处提供的示例给出了电影列表及其评论，例如“ 正面” 或“ 负面”。该程序实现了Precision and Recall方法。精度是（随机选择的）检索文档相关的概率。召回率是在搜索中检索到（随机选择的）相关文档的概率。高召回率意味着算法返回了大多数相关结果。精度高表示算法返回的相关结果多于不相关的结果。

首先，对某部电影进行正面和负面评论。然后，单词以不同的极性（正负）存储。矢量单词表和模型均已创建。然后，将所需的电影列表作为输入。模型将给定电影列表中的每个单词与先前存储的具有不同极性的单词进行比较。电影评论是根据极性下出现的大多数单词来估算的。例如，当查看Django Unchained时，会将评论与开头创建的矢量单词表进行比较。最多的单词属于正极性。因此结果是肯定的。负面结果也是如此。

进行此分析的第一步是从数据中处理文档，即提取电影的正面和负面评论并将其以不同极性存储。该模型如图1所示。