如何分析处理网络舆情的海量数据

饮冰听雨 2023-05-23 发布于云南

展开全文

从2008年人民日报社网络中心舆情监测室（即后来的人民网舆情监测室）正式组建开始算起，网络舆情事业发展到现在已有15年的历史。从搜索引擎到监测系统，从手动搜索到大数据推送，从理论摸索到实践完善，技术进步和社会发展，使得目前的网络舆情形式以及分析处理与15年前相比出现了较大改变。

作为从业者，纵数横谈始终注重在舆情监测和分析研判中要紧贴实际情况，改进工作方法，增加分析效率，提供精准解释。我们认为，在当今的大数据背景下，网络舆情、网络评论分析呈现出“信息数量剧增，平台来源丰富，呈现形式多样，观点构成复杂”的特点，首当其冲面临的就是海量数据的冲击——这也符合大数据“4V”特点中的“Volume（数据体量巨大）”。

在以前，由于网络信息源较为单一，研究者多通过门户网站、搜索引擎、知名论坛以及留言板，辅以问卷调查、人工检索等方式进行信息采集和分析，工作量相对较小；而今日，随着爬虫技术和大数据信息采集系统的运用，必然要面对越来越多的信息量和平台载体，数据量动辄以千条、万条乃至十万条为单位。

如何在海量数据下进行有效分析，准确把握舆情动向，合理预判舆情走势，我们对此进行了探索，通过2019年腾讯游戏《刺激战场》更名为《和平精英》事件，对超过16万条的相关信息数据进行整理、分析、抽样、研判，研究出独创的平台分类多层抽样方法，并将该成果以《大数据背景下的网络评论分析方法与问题——以2019年《刺激战场》游戏更替事件为例》为题发表在了《中国传媒科技》（RCCSE B+，准核心期刊）上。

纵数横谈团队研究认为：在海量数据下进行网络舆情和评论分析，无论是从数量还是质量来看，以单一平台作为数据来源，都不能有效呈现网民态度，也无法采用单一抽样方法；新闻（微博、帖子、回答等）显示的总体参与量无法直接用于分析，其数量趋势为“总体参与量＞总体评论量＞可显示评论量＞有效评论量＞实际相关评论量＞抽样评论量”，分析抽样仅能在“可显示评论量”及其之下的层面进行。

因而，我们依据现有的网络评论平台特点重新对其进行了梳理，发掘出了Ⅰ类（传统门户网站新闻、“两微一端”中的媒体和自媒体客户端发布新闻、报刊数字版、微信公众号文章等）、Ⅱ类（“两微一端”中的微博以及短视频平台）、Ⅲ类（以百度贴吧等为代表的综合论坛和主题论坛）、Ⅳ类（以知乎为代表的专业问答社区和行业问答社区）评论平台的各自特点，分别采取配额抽样、分层抽样、简单随机抽样、判断抽样等方法，成功研判出了各平台上的民众意见与舆论趋势。