HIVE配置手册 - 奔跑的羚羊 - JavaEye技术网站

北桥 2011-02-24

展开全文

HIVE配置手册

文章分类:Java编程

HIVE配置手册
1）下载hive
目前最新版本是hive-0.6.0，但是不支持hadoop-0.21.0，所以需要安装hadoop-0.20.2或者以下版本
解压到每台服务器的/data/soft
解压

Java代码

root@master:/data/soft# tar zxvf hive-0.6.0.tar.gz

root@master:/data/soft# tar zxvf hive-0.6.0.tar.gz

建立软连

Java代码

root@master:/data/soft# ln -s hive-0.6.0.tar.gz hive

root@master:/data/soft# ln -s hive-0.6.0.tar.gz hive

2）配置hive
1.修改bin/hive-config.sh，添加jdk支持

Java代码

export JAVA_HOME=/usr/local/jdk
export HIVE_HOME=/data/soft/hive
export HADOOP_HOME=/data/soft/hadoop

	export JAVA_HOME=/usr/local/jdk
export HIVE_HOME=/data/soft/hive
export HADOOP_HOME=/data/soft/hadoop

2.在HDFS中创建目录，并且将其开放g+w模式

Java代码

root@master:/data/soft#hadoop fs –mkdir /tmp
root@master:/data/soft#hadoop fs –mkdir /user/hive/warehouse
root@master:/data/soft#hadoop fs –chmod g+w /tmp
root@master:/data/soft#hadoop fs –chmod g+w /user/hive/warehouse

root@master:/data/soft#hadoop fs –mkdir /tmp
root@master:/data/soft#hadoop fs –mkdir /user/hive/warehouse
root@master:/data/soft#hadoop fs –chmod g+w /tmp
root@master:/data/soft#hadoop fs –chmod g+w /user/hive/warehouse

通过我的试验，以上创建目录的步骤是可以省略的，Hive会自动创建需要的目录

3. 修改conf/hive-default.xml，这个是hive的关键配置，所以一般不要直接修改，新建hive-site.xml文件，将修改的内容在这个里面配置。

Xml代码

<property>
<name>hive.exec.scratchdir</name>
<value>/data/work/hive/tmp</value>
<description>Scratch space for Hive jobs</description>
</property>
<property>
<name>hive.querylog.location</name>
<value>/data/work/hive/querylog</value>
</property>
<property>
<name>hive.hwi.listen.host</name>
<value>0.0.0.0</value>
<description>This is the host address the Hive Web Interface will listen on</description>
</property>
<property>
<name>hive.hwi.listen.port</name>
<value>9999</value>
<description>This is the port the Hive Web Interface will listen on</description>
</property>

<property>
<name>hive.exec.scratchdir</name>
<value>/data/work/hive/tmp</value>
<description>Scratch space for Hive jobs</description>
</property>
<property>
<name>hive.querylog.location</name>
<value>/data/work/hive/querylog</value>
</property>
<property>
<name>hive.hwi.listen.host</name>
<value>0.0.0.0</value>
<description>This is the host address the Hive Web Interface will listen on</description>
</property>
<property>
<name>hive.hwi.listen.port</name>
<value>9999</value>
<description>This is the port the Hive Web Interface will listen on</description>
</property>

3）运行hive

Java代码

root@master:/data/soft/hive/bin# ./hive
Hive history file=/tmp/root/hive_job_log_root_201101241057_361521373.txt
hive>

root@master:/data/soft/hive/bin# ./hive
Hive history file=/tmp/root/hive_job_log_root_201101241057_361521373.txt
hive>

4）测试hive
1.创建数据表

Java代码

hive> create TABLE pokes( id INT, name string);
OK
Time taken: 8.192 seconds

hive> create TABLE pokes( id INT, name string);
OK
Time taken: 8.192 seconds

默认是使用输入格式（input format）为text ，分割符号使用^A(ctrl-a).

2.创建分区的数据表

Java代码

hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
OK
Time taken: 36.562 seconds

hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
OK
Time taken: 36.562 seconds

包含2列和一个分区列（ds）。分区列是一个虚拟列。它不是数据自身的一部分，但是它由得到分区，详细数据加载到里面

3.显示数据表

Java代码

hive> SHOW TABLES;

hive> SHOW TABLES;

显示所有的数据表

Java代码

hive> SHOW TABLES '.*s';

hive> SHOW TABLES '.*s';

只显示以's'结尾的数据表

4.查询

Java代码

hive> select * from pokes;
OK
Time taken: 0.505 seconds

hive> select * from pokes;
OK
Time taken: 0.505 seconds

5.从本地加载数据

Java代码

hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

这个文件位于hive的安装目录下，examples/files/kv1.txt

6.从hdfs加载数据

Java代码

LOAD DATA INPATH '/jd/files/kv1.txt' OVERWRITE INTO TABLE pokes;

LOAD DATA INPATH '/jd/files/kv1.txt' OVERWRITE INTO TABLE pokes;

去掉LOCAL ，就是从HDFS加载
关键字OVERWRITE意味着，数据表已经存在的数据将被删除。省略OVERWRITE，数据文件将会添加到原有数据列表里

7. 删除数据表

Java代码

hive> drop table pokes;
OK
Time taken: 0.726 seconds

hive> drop table pokes;
OK
Time taken: 0.726 seconds

5）Heap size设置
Hive默认-Xmx4096m
修改hive/bin/ext/util/ execHiveCmd.sh
HADOOP_HEAPSIZE=256

6）启动Hive Thrift Server

Java代码

hive --service hiveserver

hive --service hiveserver

默认使用10000端口，也可以使用HIVE_PORT来指定端口

Java代码

root@master:/data/soft/hive/bin# ./hive --service hiveserver --help
usage HIVE_PORT=xxxx ./hive --service hiveserver
HIVE_PORT : Specify the server port

root@master:/data/soft/hive/bin# ./hive --service hiveserver --help
usage HIVE_PORT=xxxx ./hive --service hiveserver
HIVE_PORT : Specify the server port

7）启动hwi

Java代码

bin/hive --service hwi

bin/hive --service hwi

取消日志的方式

Java代码

nohup bin/hive --service hwi > /dev/null 2> /dev/null &

nohup bin/hive --service hwi > /dev/null 2> /dev/null &

相关资料
http://wiki./hadoop/Hive/GettingStarted
http://wiki./hadoop/Hive/LanguageManual

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：北桥 > 《Hadoop》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

北桥

关注对话

TA的最新馆藏

[转] 我是怎么查文献和整理文献的
[转] gcc Makefile 入门
[转] GDB调试精粹及使用实例
[转] Linux Makefile由浅入深剖析
HBase分布式安装手册
Hadoop-- 海量文件的分布式计算处理方案 - 轻剑寂寥 - JavaEye技术网站

喜欢该文的人也喜欢更多

热门阅读换一换