一、总则CDA(Certified Data Analyst),即“CDA数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证,旨在提升全球用户数字技能,助力企业数字化转型,推动行业数字化发展。「CDA人才考核标准」是面向全行业数据相关岗位的一套科学化、专业化、国际化的人才技能准则,CDA考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。 二、考试形式与试卷结构考试方式:一年四届 (3、6、9、12月的最后一个周六),线下统考,上机答题。 考试题型:客观选择题(单选60题+多选30题+内容相关10题) 案例实操题(1题) 考试时间:90分钟(客观选择题),120分钟(案例实操题),共210分钟 考试成绩:分为A、B、C、D四个层次,A、B、C为通过考试,D为不通过 考试要求:客观选择题为闭卷上机答题,无需携带计算器及其他考试无关用品。 案例实操题考生须自行携带电脑操作(安装好带有数据挖掘功能的软件如:PYTHON、SQL、SPSS 三、知识要求针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 1.领会:考生能够了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点之间的区别与联系,并能做出正确的阐述、解释和说明。 2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。 3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根据具体要求,给出问题的具体实施流程和策略。 四、考试科目PART 1 数据挖掘概论(占比15%)a.数据挖掘概要(3%) b.数据挖掘方法论(3%) c.基础数据挖掘技术(4%) d.进阶数据挖掘技术(5%) PART 2 高级数据处理与特征工程(占比25%)a.高级数据处理(5%) b.特征工程概要(2%) c.特征建构(3%) d.特征选择(5%) e.特征转换(5%) f.特征学习(5%) PART 3 自然语言处理与文本分析(占比20%)a.自然语言处理概要(占比2%) b.分词与词性标注(占比4%) c.文本挖掘概要(占比2%) d.关键词提取(占比4%) e.文本非结构数据转结构(占比8%) PART 4 机器学习算法(占比40%)a.朴素贝叶斯(4%) b.决策树(分类树及回归树)(5%) c.神经网络与深度学习(5%) d.支持向量机(4%) e.集成方法(5%) f.聚类分析(5%) g.关联规则(4%) h.序列模式(3%) i.模型评估(5%) PART 5 机器学习实战(本部分内容考查方式为案例实操,不计入客观选择题占比。) a.自动机器学习 b.类别不平衡问题 c.半监督学习 d.模型优化 五、科目内容PART 1 数据挖掘概论 1、数据挖掘概要【领会】数据挖掘在政府部门及互联网、金融、零售、医药等行业的应用 【熟知】数据挖掘的起源、定义及目标 【应用】根据给定的数据建立一个数据挖掘的项目 2、数据挖掘方法论【熟知】数据挖掘步骤(字段选择、数据清洗、字段扩充、数据编码、数据挖掘、结果呈现) 【应用】运用数据挖掘进行不同文件格式的数据导入,并进行初步的数据探索,探索的内容包含数值型字段的描述性统计分析、直方图(需与目标字段做连接)、缺失值分析及类别型字段的描述性统计分析、条形图(需与目标字段做连接、缺失值分析。数据探索的结果可进行初步的字段筛选。 3、基础数据挖掘技术【领会】可视化技术(能使用相关工具根据业务问题做出可视化数据报告) 【熟知】案例为本的学习(Case-based Learning):KNN(K-Nearest Neighbor)原理 【应用】运用数据挖掘中的KNN算法进行分类预测、数字预测及内容推荐。建模的过程需考虑将数据进行适当的转换以获得更优的分析结果。 4、进阶数据挖掘技术【熟知】数据挖掘技术的功能分类 PART 2 高级数据处理与特征工程 1、高级数据预处理【领会】数据过滤(理解如何通过数据过滤的方式,建立区隔化模型,以提升模型的预测效果) 【熟知】缺失值的高级填补技术,包括KNN填补、XGBoosting填补 【应用】运用高级数据预处理技术进行数据过滤,以建立区隔化模型 2、特征工程概要【领会】特征工程的重要性 【熟知】特征工程的涵盖范围 3、特征建构【领会】特征建构前的准备 【熟知】类别型特征的编码 【应用】运用数据挖掘对特征进行适当的建构,以作为下阶段特征选择的输入 4、特征选择【熟知】无效变量(不相关变量、多余变量) 【应用】运用数据挖掘进行关键特征的选择。同时,评估不同的关键特征选择方法对模型效能的影响。 5、特征转换【领会】线性特征转换-主成分分析(PCA) 【熟知】非线性的特征转换-核主成分分析(Kernel PCA) 【应用】运用数据挖掘进行特征的转换。同时,评估不同的特征转换方法对模型效能的影响。 6、特征学习【熟知】关联规则为基础的特征学习 【应用】运用数据挖掘进行自动的特征学习。同时,评估不同的特征学习方法对模型效能的影响。 PART 3 自然语言处理与文本分析 1、自然语言处理概要【领会】BOSON的中文语意平台 【熟知】自然语言处理的研究范畴 【运用】运用BOSON的中文语意平台进行语言的处理 2、分词与词性标注【领会】词性的种类及意义 【熟知】N-Gram及词 【运用】运用中文分词及词性标注技术对多篇文章进行分词及词性标注 3、文本挖掘概要【领会】信息检索技术之全文扫描 【熟知】文本挖掘的应用 【应用】将多篇文件及查询转为向量格式,并计算查询与文件间的相似度。 4、关键词提取【熟知】TF、DF及IDF 【应用】对多篇文件及查询中的词,计算TF、DF、IDF及词性并提取重要的关键词。 5、文本非结构数据转结构【熟知】词袋模型 【应用】对多篇文件进行词嵌入模型的训练及使用。 PART 4 机器学习算法 1、朴素贝叶斯【熟知】朴素贝叶斯(独立性假设、概率的正规化、拉普拉斯变换、空值的问题) 【应用】运用数据挖掘软件建立朴素贝叶斯模型,解读模型结果,并评估模型效能。 2、决策树(分类树及回归树)【领会】PRISM决策规则算法 【熟知】ID3决策树算法(ID3的字段选择方式、如何使用决策树来进行分类预测、决策树与决策规则间的关系、ID3算法的弊端) 【应用】运用数据挖掘软件建立分类树模型,解读模型结果,并评估模型效能。 3、神经网络与深度学习【领会】BP神经网络概述(理解神经网络的由来及发展历程) 【熟知】感知机(Perceptron)及感知机的极限 【应用】运用数据挖掘软件建立BP神经网络模型,解读模型结果,并评估模型效能。 4、支持向量机【领会】支持向量机概述 【熟知】支持向量 【应用】运用数据挖掘软件建立支持向量机模型,解读模型结果,并评估模型效能。 5、集成方法【领会】集成方法概述 【熟知】抽样技术 【应用】运用数据挖掘软件建立组合方法模型,解读模型结果,并评估模型效能。 6、聚类分析【领会】聚类的概念 【熟知】相似性的衡量(二元变量的相似性衡量、混合类别型变量与数值型变量的相似性衡量) 【应用】运用数据挖掘软件建立聚类模型,解读模型结果,并提供营销建议。 7、关联规则【领会】关联规则的概念 【熟知】关联规则的评估指标(支持度、置信度、提升度) 【应用】运用数据挖掘软件建立关联规则模型,解读模型结果,并提供营销建议。 8、序列模式【领会】序列模式的概念 【熟知】序列模式的评估指标(支持度、置信度) 【应用】运用数据挖掘软件建立序列模式模型,解读模型结果,并提供营销建议。 9、模型评估【熟知】混淆矩阵(正确率(Accuracy)、查准率(Precision)、查全率(Recall)、F-指标(F-Measure)) 【应用】运用数据挖掘软件比较不同模型间的优劣 PART 5 机器学习实战 1、自动机器学习【领会】自动机器学习的基本概念 【熟知】自动数据预处理的方法 【应用】运用自动机器学习技术,快速建立模型,解读模型结果,并评估模型效能。 2、类别不平衡问题【领会】不平衡数据定义 【熟知】类别不平衡问题的检测方法 【应用】能运用类别不平衡的处理技术,提升模型的效能 3、半监督学习【领会】监督学习、无监督学习及半监督学习间的关系 【熟知】半监督学习的基本思路 【应用】能运用半监督学习,降低开发决策模型的成本 4、模型优化【领会】模型参数优化的目的 【熟知】模型参数优化的方法 【应用】运用模型参数优化建立更精准的数据挖掘模型 六、推荐学习书目说明:推荐学习书目中,部分书籍结合软件,考试中客观选择题部分不考查软件操作使用,案例实操部分需要考生运用相关软件进行建模分析,考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。 [1] Jiawei Han, Micheline Kamber, Jian Pei.数据挖掘:概念与技术(原书第3版)[M].范明,孟小峰 译,机械工业出版社,2012.(必读) |
|