共 16 篇文章 |
|
这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟... 阅31 转0 评0 公众公开 18-05-31 15:51 |
SQOOP安装手册(附安装文件)mv sqoop-1.4.6-cdh5.5.2/ sqoop.export SQOOP_HOME=/opt/cdh5/sqoop.第四步:配置SQOOP,vi /opt/sqoop/conf/sqoop-env.sh.sqoop list-tables --connectjdbc:mysql://192.168.133.139:3306/hive --username hive –P.sqoop list-tables --connect jdbc:mysql://192.168.133.139:3306/hive--username hive -P.sqoop... 阅57 转1 评0 公众公开 18-05-31 15:47 |
HIVE的分区和分桶。分区一个分区就是一个目录,但是分区是有上下级关系的。sex=1/age=18.sex=1/age=19.sex=0/age=18.sex=0/age=19.select *from t_user where sex=1 and age=18.select *from t_user where sex=1 and name=''''''''zs''''''''age=18/sex=1.age=19/sex=1.age=1... 阅132 转0 评0 公众公开 18-05-31 14:55 |
数据分析浅谈,前景及学习方法。业务理解说是数据分析师所有工作的基础也不为过,数据的获取方案、指标的选取、乃至最终结论的洞察,都依赖于数据分析师对业务本身的理解。业务能力是优秀数据分析师必备的,如果你之前对某一行业已经非常熟悉,再学习数据分析,是非常正确的做法。对于高级数据分析师,需要探寻更好的数据可视化方法,使用更有... 阅51 转0 评0 公众公开 18-05-30 14:36 |
SPARK的安装和部署。For the Scala API, Spark 1.6.0 uses Scala 2.10.http://d3kbcqa49mib13.cloudfront.net/spark-1.6.3-bin-hadoop2.6.tgz.cd /opt/spark.n 在conf目录下复制并重命名 spark-env.sh.template 为 spark-env.sh :cpspark-env.sh.template spark-env.sh.vim spark-env.sh.n 在 spark-env.sh 中添加:SPARK_MASTER_IP 指定 Sp... 阅369 转2 评0 公众公开 18-05-29 16:10 |
hive的关联查询最近在科多大数据学习的时候,很多同学搞不清楚MySQL和hive的关联查询,我将两者mysql和hive的方法进行了总结,希望对大家有帮助。id name u_id.hive当中的关联查询。select *from t_user left outer join t_order on t_user.id=t_order.u_id.select *from t_user left semi join t_order on t_user.id=t_order.u_id.select *fro... 阅1260 转0 评0 公众公开 18-05-29 15:50 |
hbase.rootdir:hbase的相关的内容(数据)存储在什么位置。hbase.zookeeper.property.dataDir:zookeeper有一个节点(数据)应该存储在什么位置。1.3hbase-site.xml文件中,配置hbase的数据存放目录r,zookeeper存放目录。zookeeper本身是一个独立的组件,在hbase中将zookeeper进行了默认集成,所以不需要单独安装zookeeper。1.5进入到hbase sh... 阅14 转0 评0 公众公开 18-05-29 15:08 |
hive数据类型与创建数据库。hive的数据类型:一般情况下,只存储一个值(理解为同其它数据库的数据类型,或者在一般使用时,就按照普通的数据库的类型使用,string-varchar)在hive中本地模式的组成部分:JDK、HADOOP、MYSQL、HIVE、mysql的驱动包。hive所操作的单元:表 表又放在数据库中(默认有一个数据库叫default)CREATE DATABASE db01;hi... 阅479 转0 评0 公众公开 18-05-29 14:44 |
想学习数据分析,从python入门。如果你要用Python处理数据,你应该学习如何使用pandas库。它包含读写数据、处理缺失数据、过滤数据、清理混乱数据、合并数据集、可视化数据等工具。如果你希望用Python进行机器学习,应该学习使用scikit-learn库。当然需要特别指出,数据分析课程学习内容肯定不止python这一项内容,还包括数据分析基础,互联网... 阅40 转0 评0 公众公开 18-05-28 17:22 |
java编写MapReduce很多人不会使用java编写MapReduce,今天给大家分享下。1、创建一个类为WordMap需要继承org.apache.hadoop.mapreduce.Mapper类,该类有四个泛型(in key类型,in value类型,outkey类型,out value类型)invalue类型,表示是一行的内容(string)out key类型,String.publicclass WordMap extends Mapper<Long,String,String,I... 阅185 转0 评0 公众公开 18-05-28 16:51 |