使用机器学习神经网络预测电影利润

江畔夜话 2019-06-02

展开全文

使用机器学习预测电影的利润

电影业是一个庞大的投资领域，但较大的商业领域更加复杂，而且很难选择如何投资。此外，重大投资伴随着更大的风险。随着电影行业日益增长，现在互联网上有大量的数据可供使用，这使其成为一个令人兴奋的数据分析领域。预测电影的票房成功是一项非常复杂的任务。

只有预先发布的特征才被认为是预测一部即将上映的电影的成功。这里预先发布的特征包括电影预算、电影上映的屏幕数量、美国电影协会(MPAA)的评级、演员/女演员的明星影响力、导演的启动力和上映月份。在发布电影一到几周后，发布后的特征将有助于提高预测的准确性，因为这些特征是可用的。为了更好的分类，我使用了5个类别而不是2个(惨淡/大卖)类别。预先发布的特征将作为输入，它将被分为这5类。

将有两种类型的预测，一种是精确匹配，它指的是正确的分类，另一种是远离预测，这意味着从特定类型向上或向下考虑一个类以及完全匹配。

现在，下一部分将是数据准备。它可以分5个阶段完成，

1.数据采集 - 可以通过抓取IMDb，烂番茄，Metacritic和Box Office Mojo等网站来提取一些预测特征，同时可以使用python API提取某些特征。

2.数据清理 - 数据集中有很多电影的预算是不可用的。在这些电影中，没有几部不具备大部分特征。这些电影中有许多是中国、俄罗斯或印度电影，因此无法正确地翻译标题，以链接和提取相应的用户评论和评级。这些影片必须从数据集中删除。

3.特征提取 - 许多预测成功的特征必须使用数据集中提供的原始数据进行计算。例如，评分的倍增值和评分的用户数量被用作单个特征。一个演员的明星影响力是由他/她主演的所有电影的收入总和来计算的。

预算是另一个预发布的特征。如果一部电影的制作预算较高，它就有更大的机会通过宣传获得更多的人气。所以预算高的电影有更高的机会获得更多的收入。计算所有在两周内上映的电影的数量，包括之前和之后，并将其称为“Competition Score（CS）”。然后根据CS的倒数计算'Competition Factor（CF）'，这意味着竞争越激烈，得分越低。同样，也提取其他特征。

4.数据整合和转换 - 为此，目标分为5类，从惨淡到大卖。每个特征都分为这5个类。例如，放映数量的分类如下：

- - - 放映数量<= 100；
- - - 100 <放映数量<= 500；
- - - 500 <放映数量<= 2000；
- - - 2000 <放映数量<= 3000；
- - - 放映数量> 3000 。

同样，其他特征也分为5类。为了根据评论对电影进行分类，将进行情绪分析，并预测电影的情绪（范围在5以内）。

5.数据归一化 - 首先将演员、导演和发布日期等非数值变量转换为数值。然后对数值进行标准化，使数值位于0和1之间，以避免数值的较大变化。在数据准备完成之后，使用分类算法对电影进行5类分类。利润预测将按如下方式计算：

利润=总计- 预算

根据预测的类别对电影进行分组。计算组的最大利润和最小利润的平均值。该范围将是电影的预测利润范围。

例如：

类 - - - - 利润范围；

- - - - - 利润<= 五百万（惨淡）；
- - - - - 五百万<利润<= 1千万；
- - - - - 1千万<利润<= 4千万；
- - - - - 4千万<利润<= 1.5亿；
- - - - -利润> 1.5亿（大卖）。

[2]用于对5类中的电影进行分类的分类算法：

壹.随机森林

它本质上适用于多类问题。它适用于处理数值和分类特征的混合，在这个问题中是一个主要因素。当特征在各种尺度上，它也很好。粗略地说，使用随机森林，您可以按原样使用数据。随机森林算法比支持向量机（SVM）更容易调整。

优点：

它通过平均几棵树来减少过度拟合的可能性。
它们不需要准备输入数据。您不必缩放数据。

缺点：

与其他算法相比，随机森林算法的预测过程比较耗时。
它们需要更多的计算资源，也不太直观。当您拥有大量决策树时，很难直观地掌握输入数据中存在的关系。

贰.支持向量机（SVM）

对于预测，可以使用几种机器学习算法，例如Naive Bayes，Random Forest和Logistic回归等。这些分类器足以用于二进制分类，其中一些可用于多类分类。但是，当数据模式非常复杂时，SVM始终产生更好的结果。对于电影利润预测，需要健全的特征。对于这种复杂的数据模式，SVM在机器学习算法中发挥最佳作用。

优点：