分享

如何分析处理网络舆情的海量数据

 饮冰听雨 2023-05-23 发布于云南

从2008年人民日报社网络中心舆情监测室(即后来的人民网舆情监测室)正式组建开始算起,网络舆情事业发展到现在已有15年的历史。从搜索引擎到监测系统,从手动搜索到大数据推送,从理论摸索到实践完善,技术进步和社会发展,使得目前的网络舆情形式以及分析处理与15年前相比出现了较大改变。

作为从业者,纵数横谈始终注重在舆情监测和分析研判中要紧贴实际情况,改进工作方法,增加分析效率,提供精准解释。我们认为,在当今的大数据背景下,网络舆情、网络评论分析呈现出“信息数量剧增,平台来源丰富,呈现形式多样,观点构成复杂”的特点,首当其冲面临的就是海量数据的冲击——这也符合大数据“4V”特点中的“Volume(数据体量巨大)”。

在以前,由于网络信息源较为单一,研究者多通过门户网站、搜索引擎、知名论坛以及留言板,辅以问卷调查、人工检索等方式进行信息采集和分析,工作量相对较小;而今日,随着爬虫技术和大数据信息采集系统的运用,必然要面对越来越多的信息量和平台载体,数据量动辄以千条、万条乃至十万条为单位。

如何在海量数据下进行有效分析,准确把握舆情动向,合理预判舆情走势,我们对此进行了探索,通过2019年腾讯游戏《刺激战场》更名为《和平精英》事件,对超过16万条的相关信息数据进行整理、分析、抽样、研判,研究出独创的平台分类多层抽样方法,并将该成果以《大数据背景下的网络评论分析方法与问题——以2019年《刺激战场》游戏更替事件为例》为题发表在了《中国传媒科技》(RCCSE B+,准核心期刊)上。

纵数横谈团队研究认为:在海量数据下进行网络舆情和评论分析,无论是从数量还是质量来看,以单一平台作为数据来源,都不能有效呈现网民态度,也无法采用单一抽样方法;新闻(微博、帖子、回答等)显示的总体参与量无法直接用于分析,其数量趋势为“总体参与量>总体评论量>可显示评论量>有效评论量>实际相关评论量>抽样评论量”,分析抽样仅能在“可显示评论量”及其之下的层面进行。

因而,我们依据现有的网络评论平台特点重新对其进行了梳理,发掘出了Ⅰ类(传统门户网站新闻、“两微一端”中的媒体和自媒体客户端发布新闻、报刊数字版、微信公众号文章等)、Ⅱ类(“两微一端”中的微博以及短视频平台)、Ⅲ类(以百度贴吧等为代表的综合论坛和主题论坛)、Ⅳ类(以知乎为代表的专业问答社区和行业问答社区)评论平台的各自特点,分别采取配额抽样、分层抽样、简单随机抽样、判断抽样等方法,成功研判出了各平台上的民众意见与舆论趋势。

通过对不同的网络评论平台的分类,结合其评论特点,针对性采取抽样方法,纵数横谈团队一方面脱离了陷入穷举式的“数据海”困境,从而提升了网络舆情事件分析的时效性和工作效率;另一方面,也避免了简单随机抽样、系统抽样等方法可能带来的分布偏差,从而为海量舆情信息数据的处理积累了信心和经验。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多