分享

方法专题|情感分析:如何分析社交媒体文本包含的用户情绪?

 njemma 2021-05-24

文| 萌萌 zizi

编| zizi

责编| 伊妍

各位岛友大家好!这里是计传岛的“方法专题分享”栏目。在前几期分享中,我们为大家介绍了自然语言分析中的语料库方法语义网络分析方法。本期“方法专题分享”将继续为大家介绍分析文本时的另一大重要任务——情感分析

当前,社交媒体上汇聚着海量的包含用户情感的文本。对这些文本进行情感分析,其结果可应用于舆情分析、内容推荐、信息预测等诸多方面。下面我们将介绍一些能够处理社交媒体文本并进行情感分析,且无需编程基础中英文工具,不会或不精通编程的小伙伴们快来一起看看吧!

01

什么是情感分析

情感分析(sentiment analysis):文本情感分析旨在分析出文本中针对某个对象评价的态度,如下图。

Image

图1: 分析句子情感倾向性(图源自李明磊的《一文看懂 NLP 中的文本情感分析任务》)

情感分析主要有五个要素: entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间(有时可能不考虑观点持有者与时间这两个要素),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素,并且对它们的关系进行分析,最终得出整个句子或文章表达的情感倾向性。

其中,极性分类(Polarity classification)是情感倾向分析中的主要的任务之一。在各种情感分析中,对情感的正负面——也就是褒义、贬义进行分析判定。

02

情感分析方法

根据使用方法的不同,情感分析方法多被划分为以下三种:

1. 基于情感词典的情感分析方法

基于情感词典的分析方法的普遍做法是,首先使用现成的情感词典对需要分析的文本进行情感词匹配,然后汇总情感词计算出整体评分,最后得到文本的整体情感倾向。目前使用较多的中文情感词典主要有两种:一种是BosonNLP情感词典,另一种是知网推出的情感词典。

2. 基于传统机器学习的情感分析方法

机器学习是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。基于此的情感分析方法主要是采用有监督的学习方式,在有标注的训练语料上训练一个情感分类器,然后用于未标注数据的情感极性及具体情感属性预测。

3. 基于深度学习的情感分析方法

深度学习是学习样本数据的内在规律和表示层次,让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。以此为基础的情感分析方法会自动提取文本特征,并通过神经网络学习文本中所蕴含的语义信息,达到情感分析的目的。

03

无需编程的情感分析工具

对于没有编程基础的同学们来说,直接采用上述方法要求自己编写程序分析文本,还是非常有挑战性的。接下来,我们将为大家介绍以下5种不需要编程的中英文情感分析工具,让编程小白可以轻松自如地根据自己的需求进行情感分析。

1

NCSU Tweet Sentiment Visualization (英文)

2

Social Searcher (英文)

3

RapidMiner + Aylien (英文)

4

中国传媒大学国重自然语言处理综合服务平台(中文)

5

NLPIR-Parser大数据语义智能分析平台(中文)

英文平台

NCSU Tweet Sentiment Visualization ●

NCSU Tweet Sentiment Viz是由北卡罗来纳州立大学高级分析研究所教授 Christopher Healey 博士开发的,专门应用于 Twitter 的免费情感分析工具。该程序可根据使用者输入的关键字,通过推文搜索接口(Tweet's Search API)自动提取过去一周内的相关推文。

不同于常见的“正面-中立-负面”三值情感分析,该应用采用了James Russell的环状情感模型(circumplex model of affect),使其能够进行更为细致的情感分类。这一模型提供基于高兴(pleasure)和兴奋(arousal)两个情感维度的情感分析,其可定位包括激动-沮丧(excited-depressed)和痛苦-放松(distressed-relaxed)等中间情感在内的28种情感

Image

图2: Tweet Sentiment Viz 的情感维度

该应用采用基于情感词典的情感分析方法。开发者使用自主建立的情感词典,该情感词典可对大约10,680个英文单词的进行分析,并逐一给出在[1,9]区间内的情感评分。

NCSU Tweet Sentiment Viz 的强项在于可视化功能。该应用可自动生成反映推文整体情感倾向的散点图(scatterplot)。使用者将鼠标悬停在某一气泡上,可以获取单个推文,并查看其中与情感词典相匹配的具体单词和详细的情感评分。除此之外,该应用还可结合主题、时间、地点、等信息,提供标签云(tag cloud)、时间线(timeline)、地图等8种情感倾向可视化选择。

作为一个免费的情感分析工具,NCSU Tweet Sentiment Viz简单易用,可以满足基本的监测和分析需求。然而,该程序目前只适用于Twitter上的推文分析,适用范围小,也没有用于高级实现的API (应用程序接口,即一个软件组件或是一个 Web 服务与外界进行的交互的接口,其作用是把某些功能封装好,方便其他人调用)。并且,其只能提取过去一周内的推文,涉及时间范围小,也无法满足更长期的分析需求。

网址:

https://www.csc2./faculty/healey/tweet_viz/tweet_app/

Social Searcher ●

Social Searcher是一款由Dmitry Oreshko开发的社交媒体搜索引擎,支持对多家主流社交网络进行实时搜索和监测,并可通过指定社交媒体的API自动导入包含输入关键词的内容,并进行情感分析。目前,其支持42种语言的关键词检索,并可对英语、德语、法语等共8种语言进行情感分析,但尚不支持中文。其支持对包括Facebook,Twitter,YouTube,Instagram在内的11个主要的社交网络进行检索和分析

该工具的免费版套餐包含每天100条实时搜索,以及2条邮件提醒。如果想要进行更多搜索,设置更多提醒,以及使用对特定话题进行实时监测、全网关键词搜索等功能,用户则需付费升级套餐。

Social Searcher使用基于情感词典的情感分析方法,并对相关帖子进行三值(正面、负面或中立)情感评分。在其分析结果界面中,使用者不仅可以查看三种情感类别中热度最高的帖子,还可以查看单个社交网络的分析结果,或进行多平台对比。除此之外,其还支持以CSV格式导出检索结果。

Image

图3: Social Searcher 网站操作界面

由于使用社交网络的开放式API导入数据,Social Searcher可搜集的数据时间范围受到限制。其中,其只可从Facebook导入过去两周的或者最新的100个相关帖子,Twitter的数据来源也限定在过去两周。

网址:https://www./

 RapidMiner + AYLIEN ●

RapidMiner,原名为YALE(Yet Another Learning Environment)由多特蒙德技术大学的人工智能部门的Ralf Klinkenberg,Ingo Mierswa和Simon Fischer于2001年开始开发。

RapidMiner是一个免编程的数据挖掘分析平台,可以通过不同组件模块之间的自由组合实现任何情感分析方法,以情感词典,或机器学习为基础的情感分析方式均可实现。其中情绪分析组件Aylien正确率很高,其界面为全英文界面,与情感分析相关联的功能也均以英文作为语言。目前RapidMiner只能处理英文。

该软件当中的文件导入功能可以通过更换组件从本地上传不同类型的文本分析文件(如图画圈部分),也可以通过API导入,或是从网上的数据库直接导入。

RapidMiner + AYLIEN 可以自动分析导入文本,并用三值情绪量表(正面、负面或中立)对其进行范围从-1到1的评分除了从在线数据源读取外,RapidMiner 还可以直接读取本地文件(如 CSV 和 Excel 文件或数据库)。

RapidMiner的初级版本免费,情感分析的Aylien文本情绪分析组件提供每天1500个条目的免费分析。

其优势是,通过添加不同组件,RapidMiner即可以实现数据输出的可视化,也可以轻松把数据分析结果导出为Excel 或CSV任何版本的数据。但软件的缺点是,其涉及的功能繁多,且网上的中文教程很少,相关软件的高级功能方面教程均为英文。

Image

图4: RapidMiner软件操作界面

Image

图5: Aylien 扩展包添加界面

软件下载界面:https:///get-started/

扩展包下载添加页面:https://marketplace./UpdateServer/faces/product_details.xhtml?productId=rmx_com.aylien.textapi.rapidminer

中文平台

中国传媒大学国重自然语言处理综合服务平台 ●

中国传媒大学国重自然语言处理综合服务平台由中国传媒大学开发。界面为中文。平台服务包含汉语分词、自动关键词语、自动摘要、情感计算、信息抽取和标题党识别等

用户在注册页面输入用户名,密码,手机号和手机验证码,即可注册成功,每个手机号只能注册一个账号。系统的所有服务必须先进行注册以及token值(即登录令牌. 用户登录成功之后,在服务器端会根据用户信息生成一个唯一的值)的申请,之后再请求服务的时候附带该token参数。


该平台因训练语料大多为中文,故目前在中文领域内效果较好,英文或其他外文暂不支持。

目前该平台的情感倾向分析可以分析的情感类型有积极、消极、中性。对输入的文本进行极性计算,可以输入句子,短文本和篇章(长文本),计算机会自自动判断,输出结果包括正面、中立、负面三种类型,并给出倾向强度,范围从-1到1,判断的依据是等于0分为中立,大于0为正面,小于0为负面。用户可以根据自已语料的特点对中立进行重新划分,比如-0.25到0.25为中立。

Image

图6: 中国传媒大学国重自然语言处理综合服务平台界面

登录地址:http://1.119.44.200:6482

NLPIR-Parser大数据语义智能分析平台 ●

NLPIR-Parser大数据语义智能分析平台是北京理工大学开发的的大数据内容批处理平台。此平台针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索技术的十三项功能,提供客户端工具、云服务、二次开发接口。其界面是中文的,目前仅能处理中文。目前平台的应用均免费给研究人员从事研究工作。

平台的数据收集和预处理中包括了通过主题采集和站点采集从互联网上爬取信息和处理本地上传或录入的信息,同时还提供了不同文档格式转换和编码转换的工具;平台的情感分析功能是针对事先指定的分析对象,自动分析海量文档的情感倾向:情感极性,并在原文中给出正负面的得分和句子样例。

NLPIR情感分析的优势在于情感分类丰富,不仅包括正、负两面,还包括好、乐、惊、怒、恶、哀和 惧的具体情感属性NLPIR还提供关于特定人物的情感分析,并能计算正负面的具体得分。可以单个对象分析和批量对象分析来进行情感分析。情感分析统计结果包括:文档总数、正面数量及占比,每一篇文档的正负面 得分与排序。情感分析详情结果会在原文本中显示情感分析的详情:对象、得分、 原文等。

Image

图7: NLPIR大数据语义智能分析客户端

Image

图8: 单个对象的情感分析结果

NLPIR客户端下载:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR-Parser

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多