分享

基于互联网大数据的事件智能抓取和画像

 跬步行者 2018-01-15

组类( B ): B 高职组

赛题简介:介绍整个赛题的思路和整体要求

随着互联网大数据的发展,各种大数据的分析对各行业都产生了不同程度的影响。网站数据、社交媒体数据等是互联网大数据的重要组成部分。对于民航业领域,社会事件的发生,会很大程度影响旅客的出行需求变化,从而影响航空公司飞机运力投放、航班编排、票价策略调整等,对互联网事件的准确抓取和分析能够帮助航空公司更好的服务市场、服务旅客、提升收益。

本题要求参赛选手从互联网上抓取事件,并进行分词及语义等处理,提取事件的属性建立事件模型,以及可视化展现。

 

赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景

对于航空公司来说,能否预先判断旅客的出行需求,可用于航空公司及行业管理部门决定行业运力投放的合理性,从而提高旅客服务水平、提高航空公司航班收益水平。目前,仅靠航空公司拥有的数据是远远不够的,从互联网中获取大量的影响民航领域的信息能够帮助航空公司制定销售策略。而互联网事件数据,是其中非常重要的一种数据来源。

通过初步分析,对民航业可能有影响的事件主要可分为如下几类:政治会议(例G20)、展会、体育赛事、演唱会、突发异常天气等。对不同类型的事件分别分析,并建立一个相对统一的模型描述事件,用来分析其对旅客出行的影响。

但是互联网上的数据复杂性非常高,一是事件数据来源多;二是各数据源对事件的描述非常复杂,来自不同数据源的同一事件,可能差别较大;三是事件数据一般为非结构化数据,其处理和分析有一定的难度。

传统做法需要投入大量人工进行标注。因此要求参赛者具有抓取数据的技术和一定的自然语言处理能力,实现自动化。

 

功能性需求

1.实现互联网事件天级或更高频次抓取,能够采集政治会议、展会、体育赛事、演唱会、突发异常天气等各类中比较主要的事件,每个类型的事件数据至少来自2个数据源(网站)。

2.实现事件的去重功能,主要有两个方面,一是不同数据源(网站)的事件去重,二是不同天抓取的事件去重。

3.事件画像建模,即事件属性自动化提取。属性需包括主办方级别、影响区域范围、影响力度、影响人群等。

4.可视化展现,可视化展示事件的影响情况,形式不限。

5.加分项:参赛选手可从互联网上自行抓取民航有关的数据,并分析事件对民航相关数据的影响。

注:本题“事件”可主要考虑国内事件。

 

非功能性需求

1.事件抓取频率:每天至少一次。

2.事件应包括主要的影响力较大的事件,能涵盖指定时间段内主办方选取的事件为优。

3.属性提取准确性高为优。

4.可视化展现效果好者为优,形式不限。

 

其他限制条件:开发环境、实验平台、开发语言、数据库、编译器等限制条件(请尽量明确)

语言不限,建议使用开源工具及平台,请注明使用到的第三方代码。

 

测试数据或平台:提供给参赛者的测试环境和测试数据。(可提供电子档)

1.数据源要求:

政治会议类事件:包括http://xinhuanet.com/ 但不限于此网站;

展会类事件:包括http://www./ 但不限于此网站;

体育赛事类事件:包括https://www./ 但不限于此网站;

演唱会类事件:包括https://www./ 但不限于此网站;

突发异常天气类事件:包括http://www.weather.com.cn/ 但不限于此网站。

2.提供事件及属性值样本作为参考。

3.初赛阶段,要求参赛选手抓取指定时间段内的各类事件并计算出属性值,赛题将准备一份事件及属性数据作为评价标准,此数据仅供评委老师在初赛评审现场使用,初赛结束后再公开给参赛选手自行比对。

4.决赛阶段,要求参赛选手重新抓取另一指定时间段内的各类事件并计算出属性值,赛题将准备一份新的事件及属性数据作为评价标准,此数据仅供评委老师在决赛评审现场使用。

 

开发所需设备及设备指标需求说明

 

其他要求

提交相关文档及程序源码:

《算法描述和软件设计说明书》分析题目需求(包含但不限于题目给出的要求),针对题目问题,阐述解题思路和算法;描述软件结构、模块、接口、功能等,为读者提供清晰的编码思路和源代码阅读指南;

《测试用例与测试报告》包含测试环境、测试用例、测试方法、评价标准,应包含功能与非功能测试;

程序安装包、源码及注释、外部数据。

参赛选手可制作幻灯片、视频等,以生动形象的方式展示作品。

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多