分享

Back blaze:2016年传统硬盘(HDD)故障率报告

 王宇w3j0f3o2vv 2017-02-06

4TB东芝和8TB HGST传统硬盘在2016年我全年没有发生过一次故障!可是希捷4TB硬盘的故障率达到了14%。


自2013年4月以来,Backblaze公司就记录并保存了其数据中心中传统硬盘(HDD)的日常统计信息。


2016年年底,我们共有73653只旋转HDD,其中有1553只引导硬盘和72100只数据硬盘。


本文分析了我们监测的数据硬盘的HDD统计信息。我们首先会看一下2016年第四季度的统计信息,然后列出2016年全年的数据,最后列出了自Backblaze开始跟踪以来在其云存储数据中心使用的所有硬盘的生命周期统计信息。我们会一并介绍所显示的数据方面的观察和见解。


2016年第四季度HDD可靠性方面的统计信息


2016年第四季度末,Backblaze公司在监测72100只数据硬盘。为了评估,我们没有考虑用于测试的那些硬盘以及数量不超过45只的那些少见型号的硬盘。这样一来,我们的生产环境中共有71939只硬盘。


2016年第四季度的HDD年故障率(报告期限10/1/2016 - 12/31/2016)


Backblaze的HDD故障率


说明:

1. 列出的故障率仅针对2016年第四季度。如果硬盘型号的故障率为0%,这意味着这个型号的硬盘在该季度没出现过硬盘故障。

 2. 90只硬盘(2个存储pod)在此期间用于测试。它们包括希捷1.5TB和1TB WDC驱动器。这些不包括在上述结果中。

 3. 一个型号的硬盘数量不到45只的最常见原因是,我们需要更换出故障的硬盘,但是不再有该硬盘型号。我们使用45只硬盘作为季度统计信息和年度统计信息的最小数字。


8TB HDD的性能


2016年第四季度,我们推出了第三种8TB硬盘型号:希捷ST8000NM0055。这是一款企业级硬盘。一个60只硬盘的存储Pod在第四季度中期部署,初始结果看起来很不赖,因为迄今为止没有发生过故障。由于我们过去不愿意为企业级硬盘支付过高的费用,所以这些硬盘会有怎样的性能值得拭目以待。


我们添加了3540只希捷8TB硬盘,型号为ST8000DM002,那样我们共有8660只这种硬盘。在格式化和编码之前,原始存储量为69PB,约占我们当前存储容量的22%。这种8TB硬盘在第四季度的故障率相当低,只有1.65%。这低于上述表格中所有HDD的第四季度故障率:1.94%。


在接下来两个季度,我们将监测新的企业级8TB硬盘与消费级8TB硬盘相比怎样。我们很想知道哪些型号提供最好的价值,想必你们也很想知道。我们会告知结果。


2016年HDD的性能统计信息


回顾2016年,我们添加了15646只HDD,并将110个存储Pod(4950只硬盘)从1TB、1.5TB和2TB硬盘迁移到了4TB、6TB和8TB硬盘。下面是2016年的HDD故障统计信息。与季度结果一样,我们删除了任何非生产级硬盘和数量少于45只的任何型号的硬盘。


2016年第四季度的HDD年故障率(报告期10/1/2016 - 12/31/2016)

Backblaze的HDD故障率


零故障时间


2016年,三款硬盘型号全年没有出现过一次故障,尽管硬盘数量较少。4TB东芝和8TB HGST这两种型号全年没有出现过一次硬盘故障。2016年11月部署的8TB希捷(ST8000NM0055)硬盘同样没有出现过故障。


去年出现故障的硬盘总共1225只。每天3.36只硬盘出现故障,相当于每个工作日5只硬盘出现故障,这样的工作负载很易于管理。当然,我说说很容易,因为我不是更换硬盘的人员。


2016年总的HDD故障率为1.95%。这比2015年的2.47%有所下降,也远低于2014年的6.39%故障率。


大容量硬盘唱主角


我们通过改用更高容量的硬盘来提高存储密度。这帮助我们在2016年底看到3TB硬盘成为我们的数据中心中密度最小的硬盘。2017年,我们会开始从3TB硬盘迁移到容量更大的硬盘。下面是我们数据中心中的HDD按大小在2016年的分布情况。


2016年HDD按大小分布的情况(Blackblaze数据中心,截至12/31/2016,不到1%的硬盘是5TB硬盘)

Backblaze的HDD故障率


再深入一点,下面是2016年按硬盘大小和厂商单列的故障率。


HDD按硬盘大小所列的故障率(截至2016年12月31日)

Backblaze的HDD故障率


HDD按厂商所列的故障率(截至2016年12月31日)

Backblaze的HDD故障率


计算故障率


故障率用年故障率来描述更为准确。它是按硬盘天数和硬盘故障来计算的,不是按硬盘数量来计算的。考虑到我们关注的是一年(这里是2016年),这似乎很奇怪,所以不妨分析一下。


我们先将硬盘故障除以硬盘数量。比如说,如果我们使用4TB文件的统计信息,得到的故障率为1.92%,但是4TB硬盘图表上显示的年故障率是2.06%。仅仅将硬盘故障除以硬盘数量存在的问题是,一年当中硬盘数量在不断变化。如果使用某一天的硬盘数量,你假设每只硬盘在一年中贡献同样的时间量,但事实并非如此。硬盘一直不断进出系统。通过计算每个硬盘处于活动状态的天数(硬盘天数),我们可以兼顾在一段特定的时间段内所有进出的硬盘。


HDD的基准测试统计信息


正如我们之前特别指出,我们自2013年4月以来一直在收集和存储硬盘的统计数据。那时候,我们在数据中心使用55种不同型号的HDD来存储数据。我们忽略了下表中没有足够数量来装填整个存储pod的型号(45只或更少)。这排除了55个型号中的25个。


HDD的年故障率(观察期:2013年4月至2016年12月)

Backblaze的HDD故障率


有趣的数字


自2013年4月以来,共有5380次HDD故障。这大概相当于每天5次或每个工作日7次(每年200个工作日)。作为参考,Backblaze在2010年6月总共只有4500只HDD,当时我们部署了第100个存储Pod,以支持我们的云备份服务。


58375646个硬盘天数相当于14亿多个硬盘小时。换句话说,我们在测量159933年的旋转HDD。


你还会注意到,我们总共使用了85467只HDD。但是在2016年年底,我们有71939只HDD。我们少了13528只硬盘?实则不然。虽然一些硬盘出现故障,但其余硬盘被停用了,这主要是由于从小容量硬盘迁移到大容量硬盘。来自已迁移硬盘的统计信息(比如硬盘小时)在计算故障率时仍被算入,但它们并没有出现故障,只是停止报告数据而已。


一段时间来的故障率


下图显示了一段时间来按硬盘大小所列的HDD年故障率。数据点是截至每年底的故障率。“星号”代表每年所有HDD的平均年故障率。


按硬盘大小所列的HDD年故障率(观察期:2013年4月至2016年12月)

Backblaze的HDD故障率


说明:

1. 2015年8TB硬盘的故障率4.9%包括该年出现2次故障的45只硬盘。2016年,8TB硬盘的数量增加到了8765只,出现了48次故障,年故障率为1.6%。

 2. 1TB硬盘被停用时使用年限平均超过5年。

 3. 投入使用的5TB硬盘只有45只。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多