使用机器学习预测电影的利润电影业是一个庞大的投资领域,但较大的商业领域更加复杂,而且很难选择如何投资。此外,重大投资伴随着更大的风险。随着电影行业日益增长,现在互联网上有大量的数据可供使用,这使其成为一个令人兴奋的数据分析领域。预测电影的票房成功是一项非常复杂的任务。 只有预先发布的特征才被认为是预测一部即将上映的电影的成功。这里预先发布的特征包括电影预算、电影上映的屏幕数量、美国电影协会(MPAA)的评级、演员/女演员的明星影响力、导演的启动力和上映月份。在发布电影一到几周后,发布后的特征将有助于提高预测的准确性,因为这些特征是可用的。为了更好的分类,我使用了5个类别而不是2个(惨淡/大卖)类别。预先发布的特征将作为输入,它将被分为这5类。 将有两种类型的预测,一种是精确匹配,它指的是正确的分类,另一种是远离预测,这意味着从特定类型向上或向下考虑一个类以及完全匹配。 现在,下一部分将是数据准备。它可以分5个阶段完成, 1.数据采集 - 可以通过抓取IMDb,烂番茄,Metacritic和Box Office Mojo等网站来提取一些预测特征,同时可以使用python API提取某些特征。 2.数据清理 - 数据集中有很多电影的预算是不可用的。在这些电影中,没有几部不具备大部分特征。这些电影中有许多是中国、俄罗斯或印度电影,因此无法正确地翻译标题,以链接和提取相应的用户评论和评级。这些影片必须从数据集中删除。 3.特征提取 - 许多预测成功的特征必须使用数据集中提供的原始数据进行计算。例如,评分的倍增值和评分的用户数量被用作单个特征。一个演员的明星影响力是由他/她主演的所有电影的收入总和来计算的。 预算是另一个预发布的特征。如果一部电影的制作预算较高,它就有更大的机会通过宣传获得更多的人气。所以预算高的电影有更高的机会获得更多的收入。计算所有在两周内上映的电影的数量,包括之前和之后,并将其称为“Competition Score(CS)”。然后根据CS的倒数计算'Competition Factor(CF)',这意味着竞争越激烈,得分越低。 同样,也提取其他特征。 4.数据整合和转换 - 为此,目标分为5类,从惨淡到大卖。每个特征都分为这5个类。例如,放映数量的分类如下:
同样,其他特征也分为5类。为了根据评论对电影进行分类,将进行情绪分析,并预测电影的情绪(范围在5以内)。 5.数据归一化 - 首先将演员、导演和发布日期等非数值变量转换为数值。然后对数值进行标准化,使数值位于0和1之间,以避免数值的较大变化。在数据准备完成之后,使用分类算法对电影进行5类分类。利润预测将按如下方式计算: 利润=总计- 预算 根据预测的类别对电影进行分组。计算组的最大利润和最小利润的平均值。该范围将是电影的预测利润范围。 例如: 类 - - - - 利润范围;
[2]用于对5类中的电影进行分类的分类算法: 壹.随机森林 它本质上适用于多类问题。它适用于处理数值和分类特征的混合,在这个问题中是一个主要因素。当特征在各种尺度上,它也很好。粗略地说,使用随机森林,您可以按原样使用数据。随机森林算法比支持向量机(SVM)更容易调整。 优点:
缺点:
贰.支持向量机(SVM) 对于预测,可以使用几种机器学习算法,例如Naive Bayes,Random Forest和Logistic回归等。这些分类器足以用于二进制分类,其中一些可用于多类分类。但是,当数据模式非常复杂时,SVM始终产生更好的结果。对于电影利润预测,需要健全的特征。对于这种复杂的数据模式,SVM在机器学习算法中发挥最佳作用。 优点:
缺点:
叁.神经网络 使用深度神经网络可以在所有方面最好地解决这个问题。它由一组隐藏层组成,借助反向传播技术学习复杂的数据模式。深度神经网络是迄今为止用于分类的最佳方法。 我们向网络提供的数据越多,它给出的结果就越准确。我们知道电影行业是一个快速发展的行业,随着时间的推移,我们可以获得更多的数据集。 优点:
缺点:
结论 在使用神经网络的这三种算法中,这是解决此问题的最佳方法。这是因为对神经网络中的预测的准确性没有限制。随着数据集的增加,其准确性也会提高。此外,对于复杂的数据模式,如电影预发布特征,深度神经网络可能比其他机器学习算法非常有用。 |
|