昵称23016082的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

昵称23016082

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 25 篇文章

显示摘要

每页显示

条

Hadoop MapReduce处理海量小文件：基于CombineFileInputFormat

Hadoop MapReduce处理海量小文件：基于CombineFileInputFormat.import org.apache.hadoop.mapreduce.lib.input.xiaoxiang@ubuntu3:/opt/comodo/cloud/hadoop-1.0.3$ bin/hadoop fs -copyFromLocal /opt/comodo/cloud/dataset/smallfiles/* /user/xiaoxiang/datasets/smallfiles.xiaoxiang@ubuntu3:/opt/comodo/cloud/hadoop-1.0.3$ bin/hadoop ...

阅109 转1 评0 公众公开 17-04-10 18:01

mapreduce中map方法一次读取整个文件

mapreduce中map方法一次读取整个文件。public class WholeFileInputFormat extends FileInputFormat<Text,Text>{ @Override public RecordReader<Text, Text> createRecordReader(InputSplit arg0, TaskAttemptContext arg1) throws IOException, InterruptedException { // TODO Auto-generated method stub RecordReader<Text...

阅426 转2 评0 公众公开 17-04-10 17:58

Hadoop源码解析之: TextInputFormat如何处理跨split的行

Hadoop源码解析之: TextInputFormat如何处理跨split的行。总是是从buffer里读取数据,如果buffer里的数据读完了,先加载下一批数据到buffer在buffer中查找"行尾",将开始位置至行尾处的数据拷贝给str(也就是最后的Value).如果为遇到"行尾",继续加载新的数据到buffer进行查找.关键点在于:给到buffer的数据是直接从文件中读取的...

阅61 转0 评0 公众公开 17-04-10 17:57

Hadoop YARN中内存和CPU两种资源的调度和隔离

Hadoop YARN中内存和CPU两种资源的调度和隔离。【YARN中CPU资源的调度和隔离】目前的CPU被划分成虚拟CPU（CPU virtual Core），这里的虚拟CPU是YARN自己引入的概念，初衷是，考虑到不同节点的CPU性能可能不同，每个CPU具有的计算能力也是不一样的，比如某个物理CPU的计算能力可能是另外一个物理CPU的2倍，这时候，你可以通过为第一个物理CPU多...

阅70 转0 评0 公众公开 17-04-10 17:55

MapReduce Job中全局共享数据的处理办法

MapReduce Job中全局共享数据的处理办法。主要是因为继承Mapper基类的Map阶段类的运行和继承Reducer基类的 Reduce阶段类的运行都是独立的，并不共享一个Java虚拟机的资源，因此，下面介绍三种在MapReduce编程中相对有效的设置全局共享数据的方法。在MapReduce框架中，Map Task和Reduce Task都运行在Hadoop集群的节点上，所以Map和Reduce Task...

阅156 转0 评0 公众公开 17-04-10 17:45

mapreduce top n

public class TopNReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{int len;}@Overridepublic void reduce(IntWritable key, Iterable<IntWritable> values,Context context)throws IOException, InterruptedException {for(IntWritable val : values){add(val.get());}@Overridepublic void cleanup...

阅68 转0 评0 公众公开 17-04-10 17:25

MapReduce程序的工作过程

MapReduce程序的工作过程问题导读1、HDFS框架组成是什么？TaskTracker分配到一个任务后，通过从HDFS把作业的Jar文件复制到TaskTracker所在的文件系统（Jar本地化用来启动JVM），同时TaskTracker将应用程序所需要的全部文件从分布式缓存复制到本地磁盘；Map的输出文件放置在运行MapTask的TaskTracker的本地磁盘上，它是运行ReduceTask的TaskTrac...

阅55 转0 评0 公众公开 16-09-06 15:33

MapReduce程序的工作过程

阅677 转4 评0 公众公开 16-09-06 15:33

8个值得关注的SQL-on-Hadoop框架

8个值得关注的SQL-on-Hadoop框架。和Hive一样，Impala也提供了一种可以针对已有的Hadoop数据编写SQL查询的方法。类似于SQL的查询语言支持，支持大部分Hive-QL一个命令行客户端（基本上是Hive客户端）与Hive metastore交互以实现模式共享支持已有的Hive 扩展，例如UDFs和SerDes何时使用它？ANSI SQL兼容JDBC 驱动集成Hive metastore能够访问Hive...

阅828 转5 评0 公众公开 16-05-23 10:13

combine和partition

combine和partitioncombine和partition都是函数，中间的步骤应该只有shuffle！combine函数把一个map函数产生的<key,value>对（多个key,value）合并成一个新的<key2,value2>.将新的<key2,value2>作为输入到reduce函数中这个value2亦可称之为values，因为有多个。shuffle就是map和reduce之间的过程，包含了两端的combine和part...

阅118 转0 评0 公众公开 16-02-25 09:36

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部