HADOOP存储图片方案

月影晓风 2014-11-08

展开全文

http://www.cnblogs.com/zhy113/archive/2013/04/15/3022593.html

1：他HBase的API不能做定位读取部分字节存储对象的范围，而HDFS API可以。

2：有两种基本方式：存储图像文件服务形象在HBase的本身，或存储图像的路径。HBase中已经成功地被用于存储和检索图像所使用的大型商业照片共享网站 - 尽管他们不得不仔细调整和监控他们的系统（见HBase的邮件列表的详细信息）。

如果将图像存储在HDFS和在HBase只存路径，你必须确保你不会有太多的图像作为HDFS并不能很好地处理大量的文件（取决于RAM的大小分配给您的NameNode的，但仍然有一个上限）。

除非你打算存储元数据，以及每个图像，你可能能够得到一个非常简单的架构，用于存储数据或图像的路径。我想象的东西像一个单一的列族的两列预选赛：数据和类型。数据列可以存储的路径或实际图像字节。类型将存储图像类型（PNG，JPG，TIFF等）。传回的图像时，通过电线发送正确的MIME类型，这将是有益的。

3：HDFS 是一个分布式文件系统，非常适合大型文件存储。它的文档状态，它是没有，但是，一个通用的文件系统中，文件中并没有提供快速的个人记录查询。HBase的，另一方面，建立在HDFS之上的大表，并提供快速记录查询（更新）。有时这可能是一个点的概念上的混淆。 HBase的内部存在HDFS上的高速查找的索引的“StoreFiles”把你的数据。

4：回声RUOK | NC loclhost 2181;检查饲养员。

5：一开是我单独运行了饲养员，然后开始habse时候又提示绑定zkserver 2181失败，于是关掉饲养员（查看2181的程序是JAVA的，于是killall会JAVA）。重新开启

默认的 Apache HBase的管理着的ZooKeeper的“ 集群“  为你。HBase的启动/停止过程的一部分，它会启动和停止的ZooKeeper合奏。您还可以管理的ZooKeeper合奏HBase和刚刚点的HBase集群，它应该使用独立。要切换ZooKeeper的HBase的管理，使用机密/ HBase的env.sh 的HBASE_MANAGES_ZK变量。此变量默认为true，告诉HBase的是否启动/停止的ZooKeeper的合奏服务器作为启动/停止HBase中的一部分。

6：会不会尝试验证使用SASL（未知错误）

/ etc / hosts文件看起来应该是这样的：

            127.0。0.1 本地
             127.0 0.1 ubuntu.ubuntu的域ubuntu的

是127.0.01但，电脑名称是1287.0.1.1。后来就遇到上面这个问题，浪费大量的时间。它的确定，直到他改变PC名称IP。

7：PC之间时间不同步（HBase的）（从其他的网站，登录funture）

FATAL org.apache.hadoop.hbase.regionserver.HRegionServer：主拒绝启动，因为时钟不同步
org.apache.hadoop.hbase.ClockOutOfSyncException：org.apache.hadoop.hbase.ClockOutOfSyncException：服务器SUC-PC，60020,1363269953286已被拒绝; 报告的时间是出过远与主同步。39375ms>最大允许30000毫秒的时差

　　小问题，一看就知道错误发生在哪。在hbase中，允许小的时间偏差，但是上面39秒的时间偏差就有点大了。如果你是联网的话，可以用ntpdate 219.158.14.130进行同步。219.158.14.130是网通北京的时间服务器，如果不行你可以用别的服务器进行同步。

8：https://github.com/dhardy92/thumbor_hbase

https://github.com/globocom/thumbor/wiki

Thumbor 是一个聪明的成像服务。它使按需裁剪，调整大小和图像翻转。

HBase的 Hadoop生态系统是一个面向列的数据库。

该模块提供支持Hadoop的HBase的作为一个大型汽车REPLICANT的键/值后端存储在Thumbor的图像。

9：http://www./Apache-Hadoop/Is-HBase-appropriate-for-indexed-blob-storage-in-HDFS

这里有篇讨论挺好的，我使用HBase中存储的几件事情，一个是元信息的数据存储（PDF文件，我米年龄，电影等）和二进制位置。我写的，因为它们是直接上传到HDFS在单独的文件中或到一个文件中，如果由用户指示的文件。我使用的是隐式的批量上传。用户可以明确要求一个新的，然后，然后使用该ID上传多个对象和在结束通话提交（BATCHID）。在这种模式下，我写这封信的对象到一个HDFS文件。

10：http://apache-hbase.679495.n3./Storing-images-in-Hbase-td4036184.html

这里已有个讨论，JACK已经配置过HBASE存储图片并运行了2年，几乎没有发生过错误。得仔细看看。

我们到HBase的文件大小高达10MB存储约1 亿张图片。
 它已经运行近2 年没有问题，供应
交付的图像。如果您有任何
有关设置的问题，我会很高兴回答他们。

我有一个更好的主意，您复制的图像文件到一个单一的文件
HDFS，如果 新的形象来将它附加到现有的图像，并保持和
更新元数据的偏移量的HBase。因为如果你把更大
形象，它wil导致一些问题。

HDFS reads are faster than HBase, but it would require first hitting the index in HBase which points to the file and then fetching the file. 
It could be faster... we found storing binary data in a sequence file and indexed on HBase to be faster than HBase, however, YMMV and HBase has been improved since we did that project....