【干货】技术思享会之实战影视Big Data

新李亚 2016-05-04

展开全文

此内容为数据派独家内容，数据派是清华大数据产业联合会官方微信公众账号，定期发布清华大数据系列讲座信息，分享讲座实录，欢迎个人转发、收藏。

其他机构或媒体如需转载，请联系 yafei.xue@tsingdata.com 申请授权。

时间：2016-04-07 14:05~17:30

分享嘉宾：郭锐（艾漫数据联合创始人）

郭锐，清华大学计算机系硕士毕业，拥有丰富的大型软件开发、产品管理、项目管理和团队管理经验。曾联合创办对美软件外包公司及互联网育儿社区，成功领导多个国家级、省级企业软件的开发项目，在人工智能和软件工程方面具备深厚功底，对互联网项目开发和运营，分布式软件平台服务，商业智能系统，大数据挖掘应用拥有丰富的实战经验。现作为国内娱乐大数据龙头企业艾漫数据的联合创始人，领导了娱乐大数据平台和多个影视大数据服务项目的开发。

大数据产业地图

从2016年最新的地图显示技术在不断地演化。演化的方向是分工越来越细致，越来越多的细分领域涌现出有代表性的企业。现在越来越细化，细化的结果是，大家的分工非常明确。

第一类、是做底层基础技术架构的公司。主要是技术实力雄厚的大公司为主，出品底层基础平台和工具。比如EMC；

第二类、是通用性的分析工具。既有老牌公司、也有新玩家。比如SPSS，又比如微软最近推出一些免费的工具，等等；

第三类、垂直领域的技术服务公司。它们在垂直领域中利用前面的一些技术架构或者是分析工具，结合领域的一些业务逻辑或者是规则，引入算法或者是数据，从而在这个领域的应用当中产生一些创新式的系统或者是服务甚至是诞生某一些新的商业模式。

第四类、类似IBM、谷歌、微软，它们横跨领域提供基础架构和分析平台；

第五类、开源社区。它们是整个大数据繁荣的基础；

第六类、是新加入的数据交易，包括数据源和API。

影视大数据

数据是帮助决策的信号，是进行决策的辅助性的工具，在影视领域不能代替人。艾漫数据一直致力于为影视内容生产的前中后阶段提供全程的大数据服务，我们在投资立项、剧本决策、主创筛选、广告内容植入、发行、营销阶段都有各自的数据积累和数据模型，在这些方面会挑一些重点给大家解释一下。

投资立项阶段的重点是风控。现在中国的票房去年已经到440亿，越来越多对影视陌生的资本进来。他们需要一些这样的数据来帮助他们规避风险。根据题材、主创阵容、影片、档期等因素，确定是否值得拍，怎么盈利，这些决策都需要一些数据来支持。我们会一直跟踪这些数据，给出预测建议。

影片背后潜在的受众人群是什么，这部分人群到底是什么样的，针对这些影片，针对这个市场容量到底会有多大，都是可以通过数据来做一部分的工作。

剧本的策划与质量评估。主要是对剧本的内容和题材或者是创作思路进行辅助评估，做一些质量控制。

主创的筛选基于我们对于中国大概有两三千当红艺人的持续监测，现在的明星热度怎么样，他们在公众心目中的形象怎么样，根据这一系列的条件来帮助制作团队去进行主创的筛选。

广告内容的植入。这个方面主要是基于对内容观看人群的分析，比如电视剧、电影背后潜在的观众是什么，再对于商业品牌主要面对的消费者的分析，得到受众的一个匹配程度的分析，从而提供广告植入这一块决策的支持。

发行策略方面，主要是对于发行公司提供像档期、排片的一些策略，如票仓城市、面向的人群分布等等策略的支持。

营销方面，数据比较充分，因为我们现在从原来的线下营销越来越转到线上，在这个过程之中会有大量数据出现在互联网上。基于这些互联网社交媒体等等的分析就可以在上影前一段周期内，对于在什么时间（也就是营销节奏）、对什么对象（潜在受众），采用什么样的营销点进行营销，进行数据方面的支持。让我们能够找到一批最可能使他们和影片产生共鸣的点，并且找到一个合理的渠道，触达到潜在的观众当中。

我们在娱乐和影视制作产业前中后期，都会应用数据来帮助行业中的各位同仁和机构。

下面举一个例子。《小时代1》播完之后，我们为《小时代2》及后面的续集提供了数据分析服务。比如，杨幂在我们印象里面是非常神经大条的北京妞，但是很多网友对她的评价是很正能量的，对她的评价讨论的声量是居高不下的。主演负面口碑榜对主创筛选起到了一定的作用。在《小时代1》中负面评价最高的是杨幂男友的扮演者。比如，对他形容词有出现“丑绝人寰”。女网友们对他特别不认可。这个角色在后面剧集当中没有再出现，这是很典型的C2B（Consumer To Business）。在排片方面，根据数据分析，建议在南方安排更大的比重。最后检验，我们TOP100当中推荐的城市排名和最终票仓城市的排名重合率是85%。在档期上，当时可以有两种选择，一个是暑期档，另外一个是圣诞档。根据分析，《小时代1》的人群主要是以女学生为主，有非常明确的成群结伴的特性。所以选择暑期档。并且，加大白天场的比重。所以这个案例是我们从主创筛选、剧情的辅助、营销的策略、发行的策略等等方面做了一个服务。这是一个典型案例。

数据研究方法说明

艾漫数据采用了基于大数据的智能信息处理，自然语言理解与数据挖掘技术，对互联网信息进行全方位的获取，对海量数据进行多维度和多层次的建模与计算，在娱乐知识图谱的基础上深度挖掘各种娱乐对象。我们的数据大部分是通过文本分析而来，同时也必须进行多源异构数据的融合，我们会从互联网大数据和行业数据以及第三方的合作数据等方面把数据打通融合，建立复杂的数据挖掘系统和多层次的数据维度，产生分析结果。比如我们7x24小时持续采集大约3亿用户对三千位左右的艺人的评论。

专业数据指标说明

媒体关注度指标，通过这个来反映媒体（互联网的门户、行业垂直网站、视频、纸媒电子版等主流的互联网媒体）对于娱乐对象的曝光程度，我们会对于这些对象的曝光首先要抓取，在曝光的基础上再把文章的转载量，本身媒体的重要性、曝光的位置等等方面作为加权的因素考虑进去，最后综合得出来一个媒体关注度的指数，这是媒体关注度的算法。

公众影响力反映的是公众对于娱乐对象的谈及和评论的情况。它的数据来源主要是微博、BBS、贴吧、博客，还有包括像视频网站或者是新闻网站下面的一些评论都会进行抓取，包括像弹幕也是现在流行的一种UGC的内容，抓取之后也同样是考虑他们讨论热议的程度进行加权，最后得出公众的影响力。另外，公众的影响力和票房是一种正相关的关系，但是没有绝对的因果关系。没有说设立一个指标，它就推算出收视率曲线、票房曲线，绝对做不到。

口碑指数，对于娱乐对象美誉度的评估指标，同样也是抓取全网的评论，再进行情感分析和观点挖掘，最后得到多维度、细粒度的口碑评价，这是对于公众的谈论所进行的进一步挖掘。

网络播放量，要抓八大视频网站，有各种各样视频的播放量，当然这个播放量有水分，但是也要看。

这是几个比较基础的数据指标的说明，其实我们在这些基础数据指标之上再进行各维度的交叉、关联，会得到一些新的数据指标。这是我们比较典型的数据指标的代表。

这里面还要考虑一个问题，比如微博和贴吧、论坛的量完全不是一个级别的。我们会做一个加权，或者加入系数来调整，然后再汇总。有时候也会分别展示这些不同来源的量。具体要依据客户的要求来计算。

最后是数据分析，为了能够构建在这个领域里面的各种不同的分析主题，进行分析钻取。我们在影视行业的六个方面进行分析，分成六个功能模块，比如剧本、主创、广告植入、发行、营销、投资等方面都要进行分析。每一块又会分解成若干个指标，所以我们在这几年一共积累了大概80项的通用型指标，对应影视、艺人、电视剧、综艺、动漫等等，一共下来会有200多个分析指标维度。这些分析指标维度是要进行日常化的计算处理，让我们的分析师团队能够快速的获得数据，让客户能够通过在线服务获得分析数据，这需要建立商业智能数据仓库，并进行可视化非常好的报表展示。这是我们在这一方面的技术。另外我们有终端化的产品，比如说在线web端的产品或者是APP的产品，这些产品会通过SAAS服务模式提供给用户。整个技术体系会围绕这些方面进行这样一个构建。

技术架构

我们从2013年1月起开展流程化、工业化的数据处理过程，对每个娱乐对象进行抓取和处理。到今天为止，对近2000部在中国放映的电影进行有效跟踪。从底层的数据源通过数据处理层、数据挖掘层，最后通过业务应用层对外提供SAAS服务，大数据分析服务和娱乐APP服务，为了保证数据平台持续稳定工作，还有一个平台支撑系统，对于整个平台的各个参数进行设置，任务进行调度。图上展示的是一个功能性的架构，每一个层面需要有什么功能。

首先是数据处理层。我们分成爬虫和数据流程这两块。经过数据处理以后，我们把非结构化的数据基本变成一个半结构化的数据，原来是各种各样的格式，什么样的格式都有，经过清洗、规格化之后就变得结构比较能处理，但没有最后达到结构化的数据，还只是一个半结构化的数据，能够被索引到，但是没有变成一个完全可以分析统计的结构。

数据的采集，是我们做大数据必不可少的方面。有通用爬虫，也有定向定制，对于数据来说，各种各样的数据是千差万别。比如说，有的是需要网页的数据，有的是需要APP的数据，有的可能通过API调用的数据，都有可能。所以除了有一个通用的分布式的大的爬虫框架之外，还有各种各样的小的爬虫系统。

数据挖掘层的第一步是自然语言处理。我们面对的最大的挑战之一是剔除噪声处理。比如很可能有超过95%的抓取内容是与我们关注的某个主题无关，只有4%有相关性。用命名实体识别技术，来排除这些噪声，这部分的工作量非常大。

我们通过再进一步数据挖掘之后，就完全结构化了。比如说娱乐对象识别，经过这个识别之后，就知道一篇文章里面到底讲了几个对象，这里面讲的对象都是指娱乐对象，一个电影、一个电视剧、一个综艺、一个艺人，同时一个对象出现在多少篇的文章当中，一个对象的口碑怎么样都会在数据挖掘之后会体现出来。其他的数据挖掘模块比如说票房预测、剧本的分析都是在这一层面做的。

在这一层之后，会把这些中间的挖掘结果或者是中间的分析结果，最后按照我们业务的需求，比如说产品的需求，针对某一个分析项目的需求进行一个数据最终的统计、汇总到我们最终的业务层面数据仓库当中去，再通过数据接口或者是在线端的产品提供给我们自己的内部应用或者是外部系统，或者是一些娱乐APP等等方面使用。

我们对于娱乐对象建立知识图谱，一部电影有很多繁杂的信息，需要进行整理才能用。比如说我们对于娱乐电影有很多种说法，《致我们终将失去的青春》简称“致青春”等等，这都是需要进行整理的，这种整理会变成我们关于这个对象知识的一部分，对象之间还有关联，比如说一部电影是有哪些演员出演的，一部电影是什么题材，这些方面都需要有很多数据的整理、数据的收集、码表的清洗等等一系列的工作，都在我们这个平台支撑系统里面做。

我们用到一些人工智能的技术，比如，全网事件传播与跟踪的技术，基于Hash指纹的海量文档快速聚类算法，我们采用多个Hash函数对于两个文档集合快速计算一个距离相似度，这样能够实现快速的聚类算法。聚类其实是为了得到一个事件传播，因为一篇文章，比如说在影视行业或者是艺人会发通稿，会在网络上进行传播，有一些文章会标注出处，大部分情况下不会说明引用来源，但是内容大体是相似的，有一些编辑会改一些其中的内容，但是大体的内容不变。这个方法是能把相似的文章尽量聚在一起，从而能够判断出一篇文章在网络里面是怎么传播的，再用一个可视化比较好的手段展示文章的传播路径。

这个例子，纵轴是一个时间轴，按时间的变化是怎么传播的，每一个点实际上是一篇文章发表的媒体，这样就知道这篇文章在不同媒体之间是怎么传播的。横轴是一个媒体的分布，时间轴是向下的。比如说一篇文章可能是有几个始发网站，每一个网站都画一个点旁边是发表时间。实际上都是一些点，每一个点都是一个媒体，每一个媒体之间是一个转载关系，依此构建就成为这样一个图。横的方面是同一个时间，我们看到是差不多时间段发的，集中在这个时间点爆发传播了。

观点挖掘和情感计算，这也是非常核心的技术。会对于娱乐对象在网络上口碑的评估、声誉的管理起到了非常大的作用。

以上几个观点挖掘和情感分析的案例。这是短语分析的技术，我们既会做篇章级的也会做句子级别的极性分析，极性分析主要是用SVM分类算法分成正中负以及无关四分类来做的，并结合规则系统、领域资源构建三管齐下。观点挖掘技术则采用基于句法分析和基于大数据的句法模式挖掘相结合的思路，实现了对口碑短语精确提取。

重点是，我们会把维度评价发现出来，把搭配关系给找到，比如对于外貌的评价，维度和维度词的搭配关系找到，对于每个维度又分别计算好评率。有一些业界公司可能就是做篇章级的口碑评价，但我们是计算分维度细粒度的好评差评，并最终有一个整体的好评率。

独创的实体识别技术：采用机器学习模型和规则系统相结合的技术框架，能为各种复杂的娱乐对象（电影、明星、电视剧等）配置灵活的资源和规则，并采用机器学习算法自动挖掘与娱乐对象强关联的特征，通过迭代学习自动完善识别性能。

在这里面会有很多的强特征的，一个是人工整理，二是机器自动发掘，人工整理比如说怒放青春，有消歧的别名是怒放，没有歧义的别名是怒放青春。再就是通过主动机器学习的，在一段时间内，通过信息熵会发现一些新词，比如说，文章这个演员，出现“周一见”，李晨，出现“心形石头”，自动学习构建样本。消歧率是指去掉歧义之后的样本占整体样本的比率，这里是一些核心的案例，也就是说文章这个演员采集到的相关内容中有95.79%的都是垃圾。

电影票房预测探索

在票房预测方面，我来做一下业界的综述和我们自己的一些尝试。

中国票房快速增长，到2015年已经到440亿，据估计，到2018年到960亿，这已经超出美国的水平。

中国票房数据来源，最权威的是专资办的数据，猫眼有专业版，微票也有数据版，但只能看目前上映的，查不到历史。实际上中国在2012年开始有体系化票房上传的机制和票房数据官方出口。

票房影响的要素，我只是列了一些大家公认的，制作阶段、题材等等，比如说目前从去年来看，一个是喜剧类，一个是玄幻类的已经成了一个趋势。卡司阵容，也会带来一些粉丝的效应，《小时代》就是典型的粉丝电影。发行策略方面，《捉妖记》的票房渠道，小镇青年的票房贡献比例已经到了81%，宣传方面，运用一些社交媒体可以精准的触达目标用户，《失恋33天》是社会化营销的开创案例。上映阶段有档期、口碑甚至一些不可控的因素，《速度与激情》就是有不可控的因素。

除非影片是百分之百原创的，不然总是有相关或者类似的影片。总是有可以类比和参考的对象。比如说《狼图腾》是根据非常热门的IP改编的，《美人鱼》有星爷这么多年的历史。对于这样一类片子，是比较好预测，因为有让你分析的点。对于一些完全杀出来的票房黑马怎么预测？比如说《捉妖记》这种，可能导演也不是特别知名。也不一定靠明星卖钱，明星的卡司如果我们正常的票房预测，绝对到不了26亿的体量。这类就比较难预测。（另外一位嘉宾分享：我们之前做过研究，在电影市场环境上，我们之前做过风险控制的研究，传媒大学有个老师得出一个结论，电影票房能够拱到15亿这个线，到20亿以上是非常轻松了。比如，花了五千万的宣发费，到了15亿票房的时候，后面还要不要追加宣发费，让他20亿甚至25亿？这已经不重要了，因为到15亿本身在中国的电影历史上已经成为社会现象，后面再怎么追加宣传费作用不大。比如说后面再追加五千万的宣发费，也许我不追加五千万的宣发费也能够到25亿。）

要是在投资阶段预测大圣归来，可能不会预测到这样一个票房。我们把目前来说会考虑的因素，归结一下，票房可能在口碑、卡司、制作、发行等方面都或多或少有一个重点因素在里面。这里面特别难的是，数据要么特别难收集，要么特别难量化，要通过各种各样的手段能够让他量化。比如说等级划分等等。

传统估算方法，我们在某一些情况下也会用，先估测一个全年票房，看一下今年增长了多少，综合估计一下全年大概有多少容量、多少增长率。再预测一下，这个档期在总票房当中的占比，当然也可以回归一下，每个档期历年在全年占的比例，今年的档期是什么比例，档期的竞品会有什么关系，给一个经验值的判断，最后乘起来以后可以估出一个票房的数量。

谷歌的票房预测在我看来纯粹就是一个PR行为，他做测试是上映前一周的预测。方法也很简单就是多元线性回归。红色是代表票房，灰色是代表整个电影搜索指数（PPT），这两个曲线还是高度相关的。他首先拿电影搜索量，大概票房的正确率在70%左右。如果加上广告点击量，上映的院线数量和同系列电影票房表现结果会在92%，加上预告片搜索量和档期的季节性特征大概是94%。他们都基于自己的大数据，其实意义也不太大，因为到一周了，这完全是他们做PR的策略。

神经网络的总票房预测模型，这是美国人做的。主要考虑因素有七个，美国的MPAA的评级，同行的竞争、明星价值、影片类型、特技效果、是否为续集、银幕数量，作为七个输入的节点，比如评级有五个，竞争关系可以分成高中低三种，加起来有一共26个级别的值。做的输出是区间，小于一百万美元一个区间，一百万到一千万是一个区间，最后大于两个亿是一个分类，他分了九类。他就把一个数值问题变成了一个分类问题，用两层的隐含神经元网络。效果并不算太好，完全准确的在一个区间的效果大概也就是在30%到50%，如果允许他错位一个，如果这部影片落到第二类，但是预测在第三类，因为相差不大可以容忍，准确度在95%以上，这个模型也可以适用，在某种程度下也有一定的用处。国内也有很多人在尝试。

美国案例中有两个隐含层，每一层的节点应该是十多个。我们的神经网络没有那么多层和节点，几个因素做一下组合远远不是这么多，确实是。我们也在尝试当中，中国的问题就是样本数太少了。我们选2012年以来的电影做的，大概有一千部左右，这个数据确实比较少，无法采用深度学习。

今天经过讨论，大家也都知道，中国底子很薄，样本太少，关键是可参考的样本量太少。虽然电影早就有，但是真正市场化的票房2010年以后才算是真正比较能用的。而且现在很多脏数据，很难预测到什么程度。要把这些黑天鹅去掉。还有一些票房里面本身有一些不可控的因素，比如说潜规则、票房的资本运作，都很难说。中国现在处于一个爆发期，到底是银幕数多了刺激消费还是这个电影好，都很难说。在爆发期，快速变化的数据也会对数据预测带来一定的难度，中国档期的竞争也特别残酷。再看行业的特点，进口片是有配额的，排片也有一些因素，院线自己出品的，比如像中影也有一些院线，都有政策因素在里面，所以这都是中国的行业特点，有不可控的因素，还有资本的介入等等，都使得中国的票房预测非常难。我们也是在不断的尝试。

做了一些尝试，会挑里面的一些预测因素，本质上还是线性回归，是上映前一个月对总票房的一个预计，这个数据也只是一部分的数据，这是给大家的一个参考。

小结一下，从立项阶段开始，我们能够覆盖所有的指标，同类型的影片以往的观众分布，电影主创阵容中所有个体在互联网上的持续变化跟踪等等，包括大量的资料收集和逐步分析的工作量。我们认为票房分析的作用起码是风险控制，至少能够帮助排除肯定有问题的因素，如主创阵容和题材元素等等。

我今天的介绍大概就到这里，非常感谢大家。希望能够探索出中国影视大数据的发展路径，谢谢大家。

（文章综合现场讲解的顺序和PPT的顺序，有所删减）

【整理者按】

借助大数据，跨界投资人和影视新团队，有可能跨越传统的知识壁垒，为观众带来更多新鲜的元素。让这些数据继续飞一会吧。

如果您对“技术思享会”感兴趣，欢迎推荐分享嘉宾、话题建议、流程建议和合作建议。联系人及方式：

黄凯波（kaibo.huang@tsingdata.com）

[清华大数据思享会]

清华大数据思享会由清华大数据产业联合会发起。为联合会成员提供一个展现自我的平台，欢迎联合会的成员都来思享会上展现自己的研究、分享行业思考以及产品和技术的分享；同时思享会也是联合会成员共同提升共同进步的平台，欢迎联合会成员以自身在大数据领域的研究、思考、工作以及项目遇到的实际问题作为思享会的议题。

[清华大数据产业联合会简介]

清华大数据产业联合会是为了应对大数据时代的机遇和挑战，在清华大学数据科学研究院指导下发起，依托于清华大学独特的师生优势及大数据相关领域多年的积累和探索，联合大数据产业链中的优秀龙头企业和创新企业于2014年11月正式成立，也是清华大学数据科学研究院聚合大数据产业资源的载体。联合会旨在提供大数据产业链的思维碰撞和资源对接平台，促进政、产、学、研的良性互动，以产业需求带动复合型大数据人才的培养，推动大数据生态系统中各方合作共赢。