分享

细细品味Hadoop

 知识存储馆 2012-09-29

摘要: 1、系统管理1.1 连接MySQL 格式: mysql -h主机地址 -u用户名 -p用户密码 举例: 例1:连接到本机上的MySQL。 首先在打开DOS窗口,然后进入目录 mysqlbin,再键入命令"mysql –u root –p",回车后提示你输密码,如果刚安装好MySQL,超级用户"root"是没有密码的,故直接回车即可进入到MySQL中了,MySQL的提示符是: mysql>。 例2:连接到远程主机上的MYSQL。假设远程主机的IP为:110.110.110.110,用户名为root,密码为abcd123。则键入以下命令:mysql -阅读全文
posted @ 2012-06-18 16:13 虾皮 阅读(1351) | 评论 (5) 编辑
摘要: 1、MySQL安装 MySQL下载地址:http://www./downloads/1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装 第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续。图1.1-1 MySQL安装向导 第二步:在"I accept …."前面勾上,同意协议,按"Next"按钮继续。图1.1-2阅读全文
posted @ 2012-06-12 13:58 虾皮 阅读(1533) | 评论 (5) 编辑
摘要: 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1: 2012-3-1 a2012-3-2 b2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b2012-3-7 c2012-3-3 c 2)file2: 2012-3-1 b2012-3-2 a2012-3-3 阅读全文
posted @ 2012-06-04 13:22 虾皮 阅读(2771) | 评论 (3) 编辑
摘要: 1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。 Hadoop整合了众多文件系统,在其中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS只是这个抽象文件系统的一个实例。提供了一个高层的文件系统抽象类org.apache.h..阅读全文
posted @ 2012-05-28 09:26 虾皮 阅读(2638) | 评论 (7) 编辑
摘要: 1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Windows 7 旗舰版 Eclipse软件:eclipse-jee-indigo-SR1-win32.zip | eclipse-jee-helios-SR2-win32.zip Hadoop软件:hadoop-1.0.0.tar.gz Hadoop Ec...阅读全文
posted @ 2012-05-20 19:09 虾皮 阅读(5068) | 评论 (14) 编辑
摘要: 1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。 在分布式计算中,M阅读全文
posted @ 2012-05-16 16:20 虾皮 阅读(2720) | 评论 (6) 编辑
摘要: 1、Linux配置java环境变量1.1 原文出处 地址:http://blog.csdn.net/jiedushi/article/details/66728941.2 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车。之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它复制到 任何一个目录下。1.3 需要配置的环境变量 1)PATH环境变量 作用是指定命令搜索路径,在shell下面执行命令时...阅读全文
posted @ 2012-05-16 15:54 虾皮 阅读(885) | 评论 (0) 编辑
摘要: 1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的DataNod..阅读全文
posted @ 2012-05-16 14:28 虾皮 阅读(5612) | 评论 (7) 编辑
摘要: 1、SecureCRT简介 SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTelnet客户机的所有特点,包括:自动注册、对不同主机保持不同的特性、打印功能、颜色设置、可变屏幕尺寸、用户定义的键位图和优良的VT100,VT102,VT220和ANSI竞争。能从命令行中运行或从浏览器中运行。其它特点包括文本手稿、易于使用的工具条、用户的键位图编辑器、可定制的ANSI颜色等..阅读全文
posted @ 2012-05-16 14:11 虾皮 阅读(845) | 评论 (2) 编辑
摘要: 1、VSFTP简介 VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。 安全性是编写VSFTP的初衷,除了这与生俱来的安全特性以外,高速与高稳定性也是VSFTP的两个重要特点。 在速度方面,使用ASCII代码的模式下载数据时,VSFTP的速度是Wu-FTP的两倍,如果Linux主机使用2.4.*的内核,在千兆以太网上的下载速度可达86MB/S。 在稳定方面,VSFTP就更加的出色,VSFTP在单机(非集群)上支持4000个以上的并发用户同时连接,根据Red Hat的Ftp服...阅读全文
posted @ 2012-05-16 13:45 虾皮 阅读(1088) | 评论 (3) 编辑
摘要: 1、分布式环境搭建 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。图1 集群的架构 其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点。这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输。它们都可以通过路由器访问Internet,实验网页文档的采集。2、集群机器详细信息2.1 Master服务器 名称详细信息机器名称Master.Hadoop机器IP地址192.168.1.2最高用户名称(Name)root最用用户密码(PWD)hadoop(全小写)一般用户名称(Name)hadoop(全小写)一般用户密码(PWD)hadoop...阅读全文
posted @ 2012-05-16 13:37 虾皮 阅读(978) | 评论 (4) 编辑
摘要: 1、准备安装1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本。每个版本的 CentOS 都会获得七年的支持(通过安全更新方式)。新版本的 CentOS 每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支持新的硬件。这样,建立一个安全、低维护、稳定、高预测性、高重复性的 Linux 环境。 CentOS(Community Enterprise Operating System)是Linux发行版之一,它是来自于Red Hat Enterprise L...阅读全文
posted @ 2012-05-16 12:48 虾皮 阅读(2444) | 评论 (13) 编辑
摘要: 1)Hadoop学习总结 (1)HDFS简介 地址:http://forfuture1978./blog/615033 (2)HDFS读写过程解析 地址:http://blog.csdn.net/forfuture1978/article/details/6001302 (3)Map-Reduce入门 地址:http://blog.csdn.net/forfuture1978/article/details/6043926 (4)Map-Reduce的过程解析 地址:http://blog.csdn.net/forfuture1978/article/deta...阅读全文
posted @ 2012-04-22 14:08 虾皮 阅读(579) | 评论 (1) 编辑
摘要: 下面是Hadoop集群系列的目录安排,按照一星期发布一期的原则进行。希望大家的关注。 目录安排: 1)Hadoop集群_第1期_CentOS安装配置_V1.0 2)Hadoop集群_第2期_机器信息分布表_V1.1 3)Hadoop集群_第3期_VSFTP安装配置_V1.0 4)Hadoop集群_第4期_SecureCRT使用_V1.0 5)Hadoop集群_第5期_Hadoop安装配置_V1.1 6)Hadoop集群_第5期副刊_JDK和SSH无密码配置_V1.0 7)Hadoop集群_第6期_WordCount运行详解_V1.0 8)Hadoop集群_第7期_Ecli...阅读全文
posted @ 2012-04-08 19:15 虾皮 阅读(2743) | 评论 (9) 编辑
摘要: 1)Cygwin相关资料 (1)Cygwin上安装、启动ssh服务失败、ssh localhost失败的解决方案 地址:http://blog.163.com/pwcrab/blog/static/16990382220107267443810/ (2)windows2003+cygwin+ssh 地址:http://wenku.baidu.com/view/3777b8bc960590c69ec3765e.html (3)Cygwin 安裝和SSH設定教學 地址:http://blog./?p=2731 (4)如何在Cygwin中安装并配置SSH 地址...阅读全文
posted @ 2012-01-02 15:15 虾皮 阅读(1041) | 评论 (1) 编辑


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多