共 16 篇文章 |
|
public static class Map extends Mapper<LongWritable, Text, IntPair, IntWritable> public static class Reduce extends Reducer<IntPair, NullWritable, IntWritable, IntWritable>public static class KeyComparator extends WritableComparator 必须有一个构造函数,并且重载 public int compare(WritableComparable w1, Wri... 阅173 转2 评0 公众公开 13-10-06 16:08 |
被分配了map任务的worker程序读取相关的输入数据片段,从输入的数据片段中解析出key/value pair,然后把key/value pair传递给用户自定义的Map函数,由Map函数生成并输出的中间key/value pair,并缓存在内存中。如果上述努力失败了,master将尝试在保存有输入数据拷贝的机器附近的机器上执行Map任务(例如,分配到一个和包含输入数据的机器在一个... 阅42 转1 评0 公众公开 13-06-26 17:40 |
索引分为聚簇索引和非聚簇索引两种,聚簇索引 是按照数据存放的物理位置为顺序的,而非聚簇索引就不一样了;第二,索引需要占物理空间,除了数据表占数据空间之外,每一个索引还要占一定的物理空间,如果要建立聚簇索引,那么需要的空间就会更大。在哪建索引。首先,在数据库设计的时候,要能够充分的利用索引带来的性能提升,至于如何建立索引... 阅573 转3 评0 公众公开 12-11-15 16:26 |
import org.apache.hadoop.mapred.import org.apache.nutch.crawl.import org.apache.nutch.metadata.import org.apache.nutch.parse.CrawlDatum dbDatum = null;} public void close() throws IOException { } public static void initMRJob(Path crawlDb, Path linkDb, Collection<Path> segments, ... 阅607 转0 评0 公众公开 12-09-17 16:21 |
支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。现有的Hadoop调度器存在较大缺陷,主要体现在探测落后任务的算法上:如果一个task的进度落后于同类型task进度的20%,则把该task当做落后任务(这种任务决定了job的完成时间... 阅1085 转3 评0 公众公开 12-09-14 17:21 |
</description> </property> <property> <name>mapred.capacity-scheduler.queue.default.maximum-capacity</name> <value>-1</value> <description>maximum-capacity defines a limit beyond which a queue cannot use the capacity of the cluster. 阅550 转2 评0 公众公开 12-09-14 17:16 |
bloom filter.7 Posts :: 0 Stories :: 13 Comments :: 0 Trackbacks.“我该走哪条路?”“这取决于你要去哪里。”“我只想能到某个地方。”“只要你走的够远,你始终能到达那个地方。” 阅44 转0 评0 公众公开 12-09-14 15:53 |
hadoop源码远程调试 博客首页登录注册新版博客重磅上线,请关注!博客等级: 博客积分:194.博客访问:938 关注人气:1 相关博文。改好这个之后就然后就对eclipse进行更改。1.点击“run”--》“debug configuration”,如图:2.进行配置,由于上面调试的接口写的是9090,所以这里也用9090.当第一个评论者吧!分享到微博 评论并转载此博文。... 阅253 转1 评0 公众公开 12-09-10 16:19 |
cd /home/baoniu/hadoop-0.23.1/etc/hadoop.ShuffleHandler</value> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value>/home/baoniu/hadoop_data/local</value> </property> <property> <name>yarn.nodemanager.log-dirs</name> <value>/hom... 阅1352 转11 评0 公众公开 12-08-31 18:03 |