【新智元导读】本文盘点了数据科学和机器学习面试中的常见问题,着眼于不同类型的面试问题。如果您计划向数据科学领域转行,这些问题一定会有所帮助。本文约5000字,阅读大约需要10分钟。技术的不断进步使得数据和信息的产生速度今非昔比,并且呈现出继续增长的趋势。此外,目前对解释、分析和使用这些数据的技术人员需求也很高,这在未来几年内会呈指数增长。这些新角色涵盖了从战略、运营到管理的所有方面。因此,当前和未来的需求将需要更多的数据科学家、数据工程师、数据战略家和首席数据官这样类似的角色。 本文将着眼于不同类型的面试问题。如果您计划向数据科学领域转行,这些问题一定会有所帮助。 统计学及数据科学面试题答案 在统计学研究中,统计学中最常见的三个“平均值”是均值,中位数和众数:
标准差(Sigma):标准差用于衡量数据在统计数据中的离散程度。 回归:回归是统计建模中的一种分析方法。这是衡量变量间关系的统计过程;它决定了一个变量和一系列其他自变量之间关系的强度。 线性回归:是预测分析中使用的统计技术之一,该技术将确定自变量对因变量的影响强度。 统计学的两个主要分支:
相关性:相关性被认为是测量和估计两个变量间定量关系的最佳技术。相关性可以衡量两个变量相关程度的强弱。 协方差:协方差对应的两个变量一同变化,它用于度量两个随机变量在周期中的变化程度。这是一个统计术语;它解释了一对随机变量之间的关系,其中一个变量的变化时,另一个变量如何变化。 协方差和相关性是两个数学概念;这两种方法在统计学中被广泛使用。相关性和协方差都可以构建关系,并且还可测量两个随机变量之间的依赖关系。虽然这两者在数学上有相似之处,但它们含义并不同。 结合数据分析,统计可以用于分析数据,并帮助企业做出正确的决策。预测性“分析”和“统计”对于分析当前数据和历史数据以预测未来事件非常有用。 统计数据可用于许多研究领域。以下列举了统计的应用领域:
在统计研究中,通过结构化和统一处理,样本是从统计总体中收集或处理的一组或部分数据,并且样本中的元素被称为样本点。 以下是4种抽样方法:
当我们在统计中进行假设检验时,p值有助于我们确定结果的显著性。这些假设检验仅仅是为了检验关于总体假设的有效性。零假设是指假设和样本没有显著性差异,这种差异指抽样或实验本身造成的差异。 数据科学是数据驱动的科学,它还涉及自动化科学方法、算法、系统和过程的跨学科领域,以任何形式(结构化或非结构化)从数据中提取信息和知识。此外,它与数据挖掘有相似之处,它们都从数据中抽象出有用的信息。 数据科学包括数理统计以及计算机科学和应用。此外,结合了统计学、可视化、应用数学、计算机科学等各个领域,数据科学将海量数据转化为洞见。 同样,统计学是数据科学的主要组成部分之一。统计学是数学商业的一个分支,它包括数据的收集、分析、解释、组织和展示。 R语言类面试题答案 R是数据分析软件,主要的服务对象是分析师、量化分析人员、统计学家、数据科学家等。 R提供的函数是:
在R控制台中输入命令(“Rcmdr”)将启动R Commander GUI。 使用R commander导入R中的数据,有三种方法可以输入数据。
在R中,在程序的任何地方,你必须在#sign前面加上代码行,例如:
要在R中保存数据,有很多方法,但最简单的方法是: Data > Active Data Set > Export Active dataset,将出现一个对话框,当单击确定时,对话框将根据常用的方式保存数据。 你可以通过cor函数返回相关系数,cov函数返回协方差。 在R中,t.test函数用于进行各种t检验。 t检验是统计学中最常见的检验,用于确定两组的均值是否相等。
R 有如下这些数据结构:
通用的形式是: Mymatrix< - matrix (vector, nrow=r, ncol=c , byrow=FALSE, dimnames = list ( char_vector_ rowname, char_vector_colnames) 在R中,缺失值由NA(Not Available)表示,不可能的值由符号NaN(not a number)表示。 为了重新整理数据,R提供了各种方法,转置是重塑数据集的最简单的方法。为了转置矩阵或数据框,可以使用t函数。 通过一个或多个BY变量,使得折叠R中的数据变得容易。使用aggregate函数时,BY变量应该在列表中。 机器学习类面试题答案 机器学习是人工智能的一种应用,它为系统提供了自动学习和改进经验的能力,而无需明确的编程。此外,机器学习侧重于开发可以访问数据并自主学习的程序。 在很多领域,机器人正在取代人类。这是因为编程使得机器人可以基于从传感器收集的数据来执行任务。他们从数据中学习并智能地运作。 机器学习中不同类型的算法技术如下:
监督学习是一个需要标记训练集数据的过程,而无监督学习则不需要数据标记。 无监督学习包括如下:
监督学习包括如下:
朴素贝叶斯的优点:
朴素贝叶斯的缺点是:
朴素贝叶斯是如此的不成熟,因为它假设数据集中所有特征同等重要且独立。 过拟合:统计模型侧重于随机误差或噪声而不是探索关系,或模型过于复杂。 回答: 过拟合的一个重要原因和可能性是用于训练模型的标准与用于判断模型功效的标准不同。
参数模型是指参数有限且用于预测新数据的模型,你只需知道模型的参数即可。 非参数模型是指参数数量无限的模型,允许更大的灵活性且用于预测新数据,你需要了解模型的参数并熟悉已收集的观测数据。 在机器学习中构建假设或模型的三个阶段是:
归纳逻辑编程(ILP):是机器学习的一个子领域,它使用代表背景知识和案例的逻辑程序。 分类和回归之间的区别如下:
归纳机器学习和演绎机器学习的区别:机器学习模型通过从一组观察实例中学习,得出一个广义结论;演绎学习要基于一些已知结论,得出结果。 决策树的优点是:
机器学习领域专注于深受大脑启发的深度人工神经网络。Alexey Grigorevich Ivakhnenko将深度学习网络带入大众视野。如今它已应用于各种领域,如计算机视觉、语音识别和自然语言处理。 有研究表明,浅网和深网都可以适应任何功能,但由于深度网络有几个不同类型的隐藏层,因此相比于参数更少的浅模型,它们能够构建或提取更好的特征。 代价函数:神经网络对于给定训练样本和预期输出的准确度的度量。它是一个值,而非向量,因为它支撑了整个神经网络的性能。它可以计算如下平均误差函数: 其中和期望值Y是我们想要最小化的。梯度下降:一种基本的优化算法,用于学习最小化代价函数的参数值。此外,它是一种迭代算法,它在最陡下降的方向上移动,由梯度的负值定义。我们计算给定参数的成本函数的梯度下降,并通过以下公式更新参数: 其中是参数向量,α 是学习率,J()是成本函数。反向传播:一种用于多层神经网络的训练算法。在此方法中,我们将误差从网络末端移动到网络内的所有权重,从而进行梯度的高效计算。它包括以下几个步骤:
随机梯度下降:我们仅使用单个训练样本来计算梯度和更新参数。 批量梯度下降:我们计算整个数据集的梯度,并在每次迭代时进行更新。 小批量梯度下降:它是最流行的优化算法之一。它是随机梯度下降的变体,但不是单个训练示例,使用小批量样本。 小批量梯度下降的好处
在反向传播期间要使用数据标准化。数据规范化背后的主要动机是减少或消除数据冗余。在这里,我们重新调整值以适应特定范围,以实现更好的收敛。 权重初始化:非常重要的步骤之一。糟糕的权重初始化可能会阻止网络学习,但良好的权重初始化有助于更快的收敛和整体误差优化。偏差通常可以初始化为零。设置权重的规则应接近于零,而不是太小。 自编码:一种使用反向传播原理的自主机器学习算法,其中目标值设置为等于所提供的输入。在内部有一个隐藏层,用于描述用于表示输入的代码。自编码的一些重要特征:
玻尔兹曼机(Boltzmann Machine):一种问题解决方案的优化方法。玻尔兹曼机的工作基本是为了优化给定问题的权重和数量。关于玻尔兹曼机的一些要点如下:
激活函数:一种将非线性引入神经网络的方法,它有助于学习更复杂的函数。没有它,神经网络只能学习线性函数。线性函数是输入数据的线性组合。 参考链接: 本文经授权转载自数据派,ID: datapi。 新智元春季招聘开启,一起弄潮AI之巅! 【2019新智元 AI 技术峰会倒计时8天】 2019年的3月27日,新智元再汇AI之力,在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云·芯世界“为主题,聚焦智能云和AI芯片的发展,重塑未来AI世界格局。 同时,新智元将在峰会现场权威发布若干AI白皮书,聚焦产业链的创新活跃,评述华人AI学者的影响力,助力中国在世界级的AI竞争中实现超越。 |
|