机器学习相关的面试问题

kieojk 2016-07-27

展开全文

伪代码实现：LR、梯度下降、最小二乘、KNN、Kmeans;

基本知识：

1）监督与非监督区别；

2）L1L2区别；

3）生成模型和判别模型区别

算法的优缺点以及相应解决方案：k-means, KNN, apriori

算法原理：LR、KNN、k-means、apriori、ID3（C45,CART）、SVM、神经网络，协同过滤，em算法

常见问题：

1）svm算法的原理、如何组织训练数据、如何调节惩罚因子、如何防止过拟合、svm的泛化能力、增量学习

2）神经网络参数相关。比如，参数的范围？如何防止过拟合？隐藏层点的个数多了怎样少了怎样？什么情况下参数是负数？

3）为什么要用逻辑回归？

4）决策树算法是按什么来进行分类的?

5) 朴素贝叶斯公式

6) 讲em算法

7）svm中rbf核函数与高斯和函数的比较

8）说一下SVM的实现和运用过程

9）谈谈DNN

10）简单说说决策树分析

11）推荐系统中基于svd方法

12）SVM有哪些优势，（x,y,z）三个特征如何用径向基核函数抽取第四维特征

13）userCF和ItemCF在实际当中如何使用,提供具体操作，以及它们的优势（推荐系统）

14）如何用Logic regression建立一个广告点击次数预测模型

15）举一个适合采用层次分析法的例子

17）关联分析中的极大频繁项集；FP增长算法

18）线性分类器与非线性分类器的区别及优劣

19）特征比数据量还大时，选择什么样的分类器

20）对于维度很高的特征，你是选择线性还是非线性分类器

21) 对于维度极低的特征，你是选择线性还是非线性分类器

22) 如何解决过拟合问题

23) L1和L2正则的区别，如何选择L1和L2正则

24) 随机森林的学习过程

25) 随机森林中的每一棵树是如何学习的

26) 随机森林学习算法中CART树的基尼指数是什么

27)支持向量机、图模型、波尔茨曼机，内存压缩、红黑树、并行度

28）如何搭建一个推荐平台，给出具体的想法，
29）实现一个中文输入法

30） k-meanshift的机制，能不能用伪码实现
31）实现最小二乘法。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： kieojk > 《数据挖掘》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多