什么是商业智能 BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能什么是数据仓库 DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来 什么是数据挖掘 DM:Data Mining,数据挖掘 数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息
1. 数据挖掘的核心
2. 数据挖掘的基本流程
数据挖掘的数学基础
数据挖掘的十大算法 1. 分类
2. 聚类
3. 关联分析 Apriori:挖掘关联规则的算法,通过挖掘频繁项集揭示物品之间的关联关系 4. 连接分析 PageRank:起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强,Google将其用于计算网页权重 什么是数据可视化 数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息,让我们直观了解数据分析的结果 数据可视化工具: 1. python库 Matplotlib Seaborn Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等 2. 商业智能软件 Tableau PowerBI 3. 可视化大屏 大屏作为一种视觉效果强、科技感强的技术,被企业老板所青睐,可以很好地展示公司的数据化能力 4. 前端可视化组件 可视化组件都是基于 Web 渲染的技术的 Web 渲染技术:Canvas(位图)、SVG (失量图)和 WebGL(3D绘图) 什么是用户画像 简单的说,用户画像就是标签的汇总,用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像,用户标签能产生的业务价值
1. 用户标签4个纬度
2. 数据处理的3个阶段
什么是埋点 在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据,埋点一般是在需要统计数据的地方植入统计代码。 数据采集都有哪些方式
什么是数据清洗 数据清洗是去除重复数据、干扰数据及填充缺失值。 数据清洗的4个关键点(完全合一):
什么是数据集成 数据集成是将多个数据源合并存放在一个数据存储中(如数据仓库) 大数据项目中80%的工作都和数据集成有关。
1. 数据集成的两种架构
2. ETL和ELT的区别 ETL和ELT主要是先清洗数据还是先入库的区别。ETL一般使用主流框架用程序在提取的时候就将数据进行清洗,ELT则是将数据存到数据仓库,再用sql进行数据清洗。 未来使用ELT作为数据集成架构的会越来越多,有以下好处:
什么是数据变换 数据变换是数据准备的重要环节,通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。 1. 数据平滑 去除数据中的噪声,将连续数据离散化 2. 数据聚集 对数据进行汇总,例如Sum、Max、Mean等 3. 数据概化 将数据由较低的概念抽象成较高的概念,如北上广深圳概化为中国。 4. 数据规范化 合属性数据按比例缩放,将原来的数值映射到新的特定区域中。
5. 属性构造 构造出新的属性并添加到属性集中。 什么是方差、标准差
作者:雪山飞猪 |
|