共 147 篇文章 |
|
Spark MLlib告诉你很强大!FeatureHasher:特征哈希将一组分类或数字特征投影到指定维度的特征向量中(通常大大小于原始特征空间的特征向量)。Spark中的特征转换支持方法非常多,有Tokenizer、去除停用词、n-gram、二值化、多项式展开、余弦变换、字符串索引、OneHot编码、向量索引、特征交叉、归一化、标准化、SQL转换、离散化处理等等,在此... 阅143 转1 评0 公众公开 20-03-31 03:23 |
数据库的几种常用部署架构。应用系统往数据库主节点写数据,并通过主节点查询。应用系统往数据库主节点写数据,然后主节点把逻辑日志同步到备节点,备节点重新执行日志中记录的操作,以保持与主节点数据一致。两个主节点同时为业务系统提供读写操作,一个主节点宕机了不会影响另一台主节点提供服务,从而满足系统的高并发和高可用要求。 阅3008 转7 评0 公众公开 20-03-07 03:18 |
大数据可视化应用——多维分析。在此立方体中,每一个坐标轴都代表一个业务角度(时间、地区、产品),坐标轴上的坐标值则表示了某个业务角度的一个确定的值(如:江西省、3月份、耳机),不同坐标轴坐标值的交叉点则表示一个具体的销售额。此数据立方体中表示业务角度的坐标轴就是维度,类似于三维立方体的数据结构则被称为多维数据结构(也称... 阅1296 转8 评0 公众公开 20-03-04 07:54 |
垂直拆分后遇到单机瓶颈,可以使用水平拆分。相对于垂直拆分的区别是:垂直拆分是把不同的表拆到不同的数据库中,而水平拆分是把同一个表拆到不同的数据库中。相对于垂直拆分,水平拆分不是将表的数据做分类,而是按照某个字段的某种规则来分散到多个库之中,每个表中包含一部分数据。不存在单库大数据,高并发的性能瓶颈对应用透明,应用端改... 阅16 转0 评0 公众公开 20-02-24 02:55 |
不用找了,大厂在用的分库分表方案,都在这了一、数据库瓶颈。1、非partition key的查询问题(水平分库分表,拆分策略为常用的hash法)端上除了partition key只有一个非partition key作为条件查询。2、非partition key跨库跨表分页查询问题(水平分库分表,拆分策略为常用的hash法)3、扩容问题(水平分库分表,拆分策略为常用的hash法)六、分... 阅25 转0 评0 公众公开 20-02-19 01:58 |
MySQL数据库开发的 36 条军规。字段类军规用好数值字段,尽量简化字段位数把字符转化为数字优先使用Enum或Set避免使用Null字段少用并拆封Text/Blob不在数据库中存图片。索引类军规谨慎合理添加索引字符字段必须建立前缀索引?不在索引列做运算自增列或全局ID做InnoDB主键尽量不用外键。 阅22 转0 评0 公众公开 20-02-12 01:20 |
事实表设计原则a、尽可能包括所有业务过程相关的事实b、只选择与业务过程相关的事实c、分解不可加事实为可加的组件d、选择维度和事实之前必须先声明粒度e、在同一个事实表中不可以有多重不同粒度的事实f、事实的单位要保持一致g、对事实的null值要处理h、使用退化维提高事实表的易用性事务事实表的基本设计方法任何类型的事件都可以被理解成一... 阅823 转13 评0 公众公开 20-01-25 00:08 |
在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分... 阅17 转0 评0 公众公开 20-01-18 21:02 |
执行:scp conf/spark-env.sh username@192.168.56.107:/path/to/spark-2.4.3-bin-hadoop2.7/conf/spark-env.shscp conf/spark-env.sh username@192.168.56.108:/path/to/spark-2.4.3-bin-hadoop2.7/conf/spark-env.sh.spark-env.sh是 Spark 运行时,会读取的一些环境变量,在本文中,主要设置了三个环境变量:JAVA_HOME、SPARK_HOME、SPARK_LO... 阅68 转0 评0 公众公开 19-12-22 05:59 |
关于大数据规模化,管理层应思考的战略及团建问题。我们从人工智能和机器学习的最初结果中发现,这些算法需要大量的数据才能成功,而且没有几家公司拥有所有所需形式的数据,也没有几家公司具备处理数据、获得见解并将其集成到工作流程、应用和渠道时所需的基础设施和人才。例如,客户数据的数据产品负责人会考虑构建/获取的新数据集,如何减少... 阅23 转0 评0 公众公开 19-12-16 08:52 |