分享

使用机器学习神经网络预测电影利润

 江畔夜话 2019-06-02

使用机器学习预测电影的利润

使用机器学习神经网络预测电影利润

电影业是一个庞大的投资领域,但较大的商业领域更加复杂,而且很难选择如何投资。此外,重大投资伴随着更大的风险。随着电影行业日益增长,现在互联网上有大量的数据可供使用,这使其成为一个令人兴奋的数据分析领域。预测电影的票房成功是一项非常复杂的任务。

只有预先发布的特征才被认为是预测一部即将上映的电影的成功。这里预先发布的特征包括电影预算、电影上映的屏幕数量、美国电影协会(MPAA)的评级、演员/女演员的明星影响力、导演的启动力和上映月份。在发布电影一到几周后,发布后的特征将有助于提高预测的准确性,因为这些特征是可用的。为了更好的分类,我使用了5个类别而不是2个(惨淡/大卖)类别。预先发布的特征将作为输入,它将被分为这5类。

将有两种类型的预测,一种是精确匹配,它指的是正确的分类,另一种是远离预测,这意味着从特定类型向上或向下考虑一个类以及完全匹配。

现在,下一部分将是数据准备。它可以分5个阶段完成,

1.数据采集  - 可以通过抓取IMDb,烂番茄,Metacritic和Box Office Mojo等网站来提取一些预测特征,同时可以使用python API提取某些特征。

2.数据清理 - 数据集中有很多电影的预算是不可用的。在这些电影中,没有几部不具备大部分特征。这些电影中有许多是中国、俄罗斯或印度电影,因此无法正确地翻译标题,以链接和提取相应的用户评论和评级。这些影片必须从数据集中删除。

3.特征提取 - 许多预测成功的特征必须使用数据集中提供的原始数据进行计算。例如,评分的倍增值和评分的用户数量被用作单个特征。一个演员的明星影响力是由他/她主演的所有电影的收入总和来计算的。

预算是另一个预发布的特征。如果一部电影的制作预算较高,它就有更大的机会通过宣传获得更多的人气。所以预算高的电影有更高的机会获得更多的收入。计算所有在两周内上映的电影的数量,包括之前和之后,并将其称为“Competition Score(CS)”。然后根据CS的倒数计算'Competition Factor(CF)',这意味着竞争越激烈,得分越低。 同样,也提取其他特征。

4.数据整合和转换 - 为此,目标分为5类,从惨淡到大卖。每个特征都分为这5个类。例如,放映数量的分类如下:

  1. - - - 放映数量<= 100;
  2. - - - 100 <放映数量<= 500;
  3. - - - 500 <放映数量<= 2000;
  4. - - - 2000 <放映数量<= 3000;
  5. - - - 放映数量> 3000 。

同样,其他特征也分为5类。为了根据评论对电影进行分类,将进行情绪分析,并预测电影的情绪(范围在5以内)。

5.数据归一化  - 首先将演员、导演和发布日期等非数值变量转换为数值。然后对数值进行标准化,使数值位于0和1之间,以避免数值的较大变化。在数据准备完成之后,使用分类算法对电影进行5类分类。利润预测将按如下方式计算:

利润=总计- 预算

根据预测的类别对电影进行分组。计算组的最大利润和最小利润的平均值。该范围将是电影的预测利润范围。

例如:

类 - - - - 利润范围;

  1. - - - - - 利润<= 五百万(惨淡);
  2. - - - - - 五百万<利润<= 1千万;
  3. - - - - - 1千万<利润<= 4千万;
  4. - - - - - 4千万<利润<= 1.5亿;
  5. - - - - -利润> 1.5亿(大卖)。

[2]用于对5类中的电影进行分类的分类算法:

壹.随机森林

它本质上适用于多类问题。它适用于处理数值和分类特征的混合,在这个问题中是一个主要因素。当特征在各种尺度上,它也很好。粗略地说,使用随机森林,您可以按原样使用数据。随机森林算法比支持向量机(SVM)更容易调整。

优点:

  1. 它通过平均几棵树来减少过度拟合的可能性。
  2. 它们不需要准备输入数据。您不必缩放数据。

缺点:

  1. 与其他算法相比,随机森林算法的预测过程比较耗时。
  2. 它们需要更多的计算资源,也不太直观。当您拥有大量决策树时,很难直观地掌握输入数据中存在的关系。

贰.支持向量机(SVM)

对于预测,可以使用几种机器学习算法,例如Naive Bayes,Random Forest和Logistic回归等。这些分类器足以用于二进制分类,其中一些可用于多类分类。但是,当数据模式非常复杂时,SVM始终产生更好的结果。对于电影利润预测,需要健全的特征。对于这种复杂的数据模式,SVM在机器学习算法中发挥最佳作用。

优点:

  1. 作为一种代价敏感的分类器,它可以解决数据不平衡的问题。在现实生活中的问题中,可能存在正数据的数量大于负数据的数量的情况。
  2. 与其他非线性分类器相比,该算法降低了计算复杂度并且提高了分类效率 。

缺点:

  1. 在SVM中很难选择最优的内核函数。
  2. 速度,大小和学习速率都有限制。

叁.神经网络

使用深度神经网络可以在所有方面最好地解决这个问题。它由一组隐藏层组成,借助反向传播技术学习复杂的数据模式。深度神经网络是迄今为止用于分类的最佳方法。

我们向网络提供的数据越多,它给出的结果就越准确。我们知道电影行业是一个快速发展的行业,随着时间的推移,我们可以获得更多的数据集。

优点:

  1. 神经网络是一种非参数模型,即消除了参数估计中的误差 ,而大多数统计方法(MLR等)是需要较高统计背景的参数模型。
  2. 它具有处理不完整知识的能力。

缺点:

  1. 它需要大量的计算时间。
  2. 与其他模型(如决策树)相比,由于学习权重背后的未知符号逻辑意义,模型的可解释性较差 。

结论

在使用神经网络的这三种算法中,这是解决此问题的最佳方法。这是因为对神经网络中的预测的准确性没有限制。随着数据集的增加,其准确性也会提高。此外,对于复杂的数据模式,如电影预发布特征,深度神经网络可能比其他机器学习算法非常有用。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多