分享

磁硬盘阵列后如何检测和监控硬盘健康状况?

 pio9999 2023-08-17 发布于广西

HD TURE和传统的磁盘分区助手对于Raid阵列是没办法了。

把RAID拆掉分开检测也不用说了,这么搞数据都没了。。。有没有什么安全可靠的办法吗?

品牌服务器带有硬盘背板的比较方便,损坏的盘会有相应的报警灯点亮。
台机或自己组的比较麻烦,一般硬盘直连阵列卡或主板集成的控制器,需要在控制器的自检界面看硬盘状态如intel的控制器,或安装相应的软件,如lsi的dsm和promise的ip页面。
两盘一般做raid0和1,对于raid0的情况,如果有成员盘故障阵列会崩溃。raid1由于是镜像,损坏一块盘仍然能正常工作,因此常常在没有发现有盘故障的情况下第二块盘故障导致数据丢失。

【常用软件】

1、MegaRAID Storage Manager

2、Hard Disk Sentinel

3、各个厂商自带的iDcard/IPMI/远程卡管理(web/cli/BIOS)

MegaRAID SAS系列raid卡可以用 MegaCli 的工具查看,MegaCli 的linux版本和windows版本网上都有。

Intel Matrix Storage Manager去下载这个软件吧,只要你是使用Intel的南桥组建的阵列,这个软件就能大幅度提升磁盘阵列的随机读取性能,我每次组阵列都会安装这个软件。

两硬盘阵列,除了raid1就是raid0。前者不用担心,反正两块硬盘的内容是一样的;后者担心也没用,raid0就是两块硬盘二合一,根本没有备份,坏了也就坏了。

常用PC服务器阵列卡、硬盘健康监控

通常,我们使用的DELL/HP/IBM三家的机架式PC级服务器阵列卡是从LSI的卡OEM出来的,DELL和IBM两家的阵列卡原生程度较高,没有做太多封装,可以用原厂提供的阵列卡管理工具进行监控;而HP的阵列卡一般都做过封装了,因此需要使用自身特有的管理工具来监控。

本文以几种常用的阵列卡为例,展示其阵列卡及硬盘监控的方法。
DELL SAS 6/iR卡,全称LSI Logic SAS1068E,只支持RAID 0, RAID 1, RAID 1+0, 不支持RAID 5等高级RAID特性,不支持阵列卡电池。
DELL PERC PERC H700卡,全称LSI Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
DELL PERC H310 Mini卡,全称LSI Logic / Symbios Logic MegaRAID SAS 2008,支持常见RAID级别,不支持高级RAID特性,不支持阵列卡电池。
IBM ServeRAID M5014 SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
IBM ServeRAID-MR10i SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 1078,支持常见RAID级别,不支持高级RAID特性,可选配阵列卡电池,这个卡其实和DELL的PERC 6/i卡是一样的,都是基于LSI MegaRAID SAS 1078基础上OEM出来的。

上面是几种常见的阵列卡型号,更多的可以自行查看官方的技术手册。

下面我们要继续的是,这些阵列卡以及硬盘如何监控,阵列卡的管理也请查看官方技术手册,不在本文讨论范畴,或者查看作者的一个分享PPT:PC服务器阵列卡管理简易手册。

一般地,支持RAID 5的卡,我们称其为阵列卡,都可以使用LSI官方提供的MegaCli工具来管理,而不支持RAID 5的卡,我们称其为SAS卡,使用lsiutil工具来管理。HP的服务器使用其特有的hpacucli工具来管理。

1、MegaCli工具
a) MegaCli -adpallinfo -aall — 查看阵列卡信息
-a 参数指定阵列卡的编号,一般服务器上只会配一个阵列卡,因此我们通常指定为 -a0(阵列卡适配器编号,从0开始) 即可,主要关注下面几个信息:

状态值对应含义
Product Name : PERC H710 Mini阵列卡名称
FW Package Build: 21.2.0-0007阵列卡firmware版本号,版本如果太低,建议升级以提高稳定性及性能
BBU : Present是否有配BBU电池

b) MegaCli -cfgdsply -aall — 查看阵列配置

状态值对应含义
Memory: 512MB阵列卡cache大小,2的N次方,如果不是,说明阵列卡有异常
Number of dedicated Hotspares: 0阵列是否有专用/独享热备盘(如果有多个逻辑磁盘组/disk group,则可以指定一个硬盘用于全局热备,那么该disk group上的专用热备盘数量为0也不用担心),除了RAID 1/RAID 1+0一般不指定热备盘以外,其他几个阵列级别建议都要指定热备盘
State : Optimal阵列状态,如果不是 Optimal 就要关注了
Current Cache Policy: WriteBack, ReadAheadNone, Direct, Write Cache OK if Bad BBU阵列读写cache策略,建议写策略设置为FORCE WB,最起码是WB,预读策略可以关掉,意义不大,几乎没影响
Disk Cache Policy : Disabled硬盘cache策略,建议关闭,防止意外时数据丢失
Current Power Savings Policy: None节电策略,建议关闭
Media Error Count: 0三个错误计数器,任何一个值大于100就要立刻引起关注,尤其要关注起增长速度。1T以上SATA盘,计数值不够精确,可能所有盘上该值都会大于0,一般重启就会重新清0,如果重启后还是大于0的话,赶紧报修吧。SAS盘的计数值则比较准确。
Other Error Count: 0
Predictive Failure Count: 0
Firmware state: Online, Spun Up查看硬盘状态,如果是unconfigured表示该硬盘未分配加入到阵列中;如果是 unconfigured(bad)表示该盘不但是未分配,而且还坏了,正是“出师未捷身先死”;如果是failed,表示该盘故障无法识别;如果是rebuilding,表示该盘正在重建数据

c) MegaCli -adpbbucmd -aall — 查看阵列卡电池信息

状态值对应含义
Temperature: 39 C查看电池温度,如果相比上一次查看高出不少,就需要关注了,或者可以根据经验设置一个基线值
Battery State: Optimal电池状态,如果不是为Optimal,就需要关注了
Charger Status: Complete电池充放电状态
isSOHGood: Yes电池状态,如果不是为Yes,需要关注
Relative State of Charge: 93 %当前电量,当电量低于15%,或者电池坏掉时,默认都会将写策略从WB改成WT,除非设定为FORCE WB策略
Max Error = 0 %电池是否有错误信息
Next Learn time: Tue Oct 14 22:06:50 2014电池充放电时间,注意这是美国时间。另外,新的阵列卡电池很多改成电容式的了,也就不需要重复充放电了

d) MegaCli -fwtermlog -dsply -aALL 查看阵列卡日志,关注里面的error/fail/warn等多个关键字

2、lsiutil工具
lsiutil有交互和非交互两种方式,作为监控,我们肯定选择非交互模式。想要使用交互模式的,可以根据非交互模式自行练习。
a) lsiutil -p 1 -a 20,12,0,0 — 查看硬盘计数器
Invalid DWord Count 2,563 — 任何一个值大于0,都需要引起关注
Running Disparity Error Count 2,366
Loss of DWord Synch Count 0
Phy Reset Problem Count 0

b) lsiutil -p 1 -a 21,1,0,0,0 — 查看逻辑卷状态

状态值对应含义
Volume State: optimal, enabled逻辑卷健康状况
Volume draws from Hot Spare Pools: 0是否有热备
Volume Size 139392 MB, 2 Members由几块硬盘组成
Primary is PhysDisk 1 (Bus 0 Target 9)物理硬盘1
Secondary is PhysDisk 0 (Bus 0 Target 3)物理硬盘0

c) lsiutil -p 1 -a 21,2,0,0,0 — 查看物理硬盘状态

状态值对应含义
PhysDisk 0 is Bus 0 Target 3编号
PhysDisk State: online状态
Error Count 13, Last Error: Command = 28h, Key = 3, ASC/ASCQ = 11h/00h错误计数器,大于0的话,就需要引起关注

3、hpacucli工具
hpacucli工具查看阵列、硬盘、电池信息,其实就只要一条指令:
hpacucli ctrl all show config detail — 查看阵列详细信息、配置

状态值对应含义
Controller Status: OK阵列卡状态
Firmware Version: 1.18firmware版本,太低了建议升级,以提高稳定性及性能
Cache Board Present: True是否配备了cache模块
Cache Status: OKcache模块状态
Cache Ratio: 100% Read / 0% Writecache策略,此处只有读cache,不用于写cache,因为没有bbu电池,见下方结果
Drive Write Cache: Disabled关闭磁盘cache
Total Cache Size: 256 MBcache大小
Total Cache Memory Available: 208 MB实际可用cache大小,和理论cache大小不一样,说明cache模块可能有问题
No-Battery Write Cache: Disabled关闭FORCEWB策略
Battery/Capacitor Count: 0阵列卡BBU电池数量为0,也就是没有BBU模块
Battery/Capacitor Status: Failed (Replace Batteries)阵列卡BBU电池状态,这里显示是错误状态,需要及时更换
Array: A第一个乌列阵列,编号从A开始,依次是A、B、C
Status: OK物理阵列状态


Logical Drive: 1第一个逻辑卷,编号从1开始
Fault Tolerance: RAID 5第一个逻辑卷的阵列级别
Status: OK第一个逻辑卷状态
Caching: Enabled第一个逻辑卷是否启用了cache策略


physicaldrive 1I:1:1第一块物理硬盘,编号从1开始
Status: OK第一块物理硬盘状态
Firmware Revision: HPDA第一块物理硬盘firmware,如果太低,也需要及时升级,HP的硬盘每个批次都有不同的firmware

常见磁盘阵列监控软件和方案

1、nagios监控raid磁盘阵列(Fusion-MPT SAS系列raid卡 ioc0)- https://cloud.tencent.com/info/4e6151a578e7e3489ea67e63dab23cc1.html

2、Dell服务器各种RAID卡介绍及监控方法 - yJken的博客 - 博客园 https://www.cnblogs.com/yjken/articles/3843216.html

3、Zabbix通过MegaCli实现对LSI Raid卡硬盘监控(LLD) - CSDN博客 https://blog.csdn.net/n88Lpo/article/details/78099152

4、刀片服务器和磁盘阵列卡(RAID)技术---永和维护(转) - 李克华 - 博客园 https://www.cnblogs.com/likehua/p/3682136.html

5、Vmware ESXi查看RAID健康状态 - CSDN博客 https://blog.csdn.net/yxwmzouzou/article/details/78959560

6、MegaCli监控RAID磁盘健康信息 - Tony_Deng - 博客园 https://www.cnblogs.com/tony-d/p/5675096.html

7、磁盘阵列卡 远程监控(MegaRAID Storage Manager)- CSDN博客 https://blog.csdn.net/tangs_/article/details/79504431

8、MegaRAID Storage Manager配置指南_ https://wenku.baidu.com/view/a5c8f05778563c1ec5da50e2524de518964bd381.html

基于linux系统的megaRAID卡安装megacli工具后再下个 check_megaraid_sas 插件就能结合nagios监控,但是windows2003系统,安装megacli Windows版的工具后还需要自己写插件结合nagios监控,因为check_megaraid_sas没有windows版的,这里先写一个megaRAID卡基于windows系统的监控。——插件是Python的哦 可以自由发挥修改和二次开发。

megacli介绍、安装、使用、crontab监控脚本

查看RAID信息的工具有mpt-status、megarc、dell OpenManage。经测试只有megacli可以实现目标,dell OpenManage由于较大90M左右没有安装。

megacli工具非常强大,不仅能查看RAID卡信息,而且还能设置RAID卡,但是不支持SAS 6/iR的RAID卡,不推荐采用megacli在线设置RAID卡,本文也仅用于监控挂接在RAID上的硬盘状态。

1、查看raid卡的型号:

root@3:~# lspci |grep RAID  H700

02:00.0 RAID bus controller: LSI Logic / Symbios Logic Device 0079 (rev 04)

root@3:~# lspci  |grep RAID  PERC 6/i

03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)

root@k:~# lspci|grep SAS     SAS 6/iR

03:00.0 SCSI storage controller: LSI Logic / Symbios Logic SAS1068E PCI-Express Fusion-MPT SAS (rev 08)

2、安装megacli

root@3:~# more /etc/apt/sources.list

增加如下源:

##add monitor dell perc 6/i raidcontroller's source

deb http://hwraid./debian lenny main 

root@3:~# apt-get update

root@3:~# apt-get install megacli

3、使用megacli查看RAID卡信息

术语:BBU 电池备份单元(Battery Backup Unit)

常用查看命令:

megacli -LDInfo -Lall -aALL   查raid级别

megacli -AdpAllInfo -aALL     查raid卡信息

megacli -PDList -aALL         查看硬盘信息

megacli -AdpBbuCmd -aAll      查看电池信息

megacli -FwTermLog -Dsply -aALL 查看raid卡日志

megacli -adpCount             显示适配器个数

megacli -AdpGetTime –aALL    显示适配器时间

megacli -AdpAllInfo -aAll     显示所有适配器信息

megacli -LDInfo -LALL -aAll   显示所有逻辑磁盘组信息

megacli -PDList -aAll         显示所有的物理信息

megacli -AdpBbuCmd -GetBbuStatus -aALL |grep 'Charger Status’ 查看充电状态

megacli -AdpBbuCmd -GetBbuStatus -aALL 显示BBU状态信息

megacli -AdpBbuCmd -GetBbuCapacityInfo -aALL  显示BBU容量信息

megacli -AdpBbuCmd -GetBbuDesignInfo -aALL    显示BBU设计参数

megacli -AdpBbuCmd -GetBbuProperties -aALL    显示当前BBU属性

megacli -cfgdsply -aALL       显示Raid卡型号,Raid设置,Disk相关信息

4、使用crontab定时监控硬盘状态的小脚本

该脚本实现在监控到硬盘故障时发出报警邮件,并关联到手机短信,以便通知运维人员及时处理。

root@3:~# more /backup/autobackup/autoshell/check_raid_disk_health 

#!/bin/sh

log_dir=/backup/autobackup/logsum/

log_name=_raid_disk_monitor

logtime=$(date +%Y%m%d --date='1 days ago')

fix=.log

host=_`hostname`

STATUS=0

echo  "Checking RAID status on $host" >$log_dir$logtime$log_name$host$fix

RAID_Contrller=`megacli -AdpAllInfo -aALL |grep "Product Name" | cut -d: -f2`

echo "Controller : $RAID_Contrller" >>$log_dir$logtime$log_name$host$fix

Online_disk_num=`megacli  -PDList -aALL | grep Online | wc -l`

echo "Totall number of Physical disks online : $Online_disk_num" >>$log_dir$logtime$log_name$host$fix

Degrade_disk=`megacli -AdpAllInfo -a0 |grep "Degrade"`

echo $Degrade_disk >>$log_dir$logtime$log_name$host$fix

Degrade_disk_num=`echo $Degrade_disk |cut -d" " -f3`

Failed_disk=`megacli -AdpAllInfo -a0 |grep "Failed Disks"`

echo $Failed_disk >>$log_dir$logtime$log_name$host$fix

Failed_disk_num=`echo $Failed_disk |cut -d" " -f4`

##将raid_disk_monitor.log scp到mail上

scp -P120 $log_dir$logtime$log_name$host$fix lai@60.*.*.*:/data/autobackup/logsum

ssh -p120 lai@60.1.1.1  "cat /data/autobackup/logsum//$(date +%Y%m%d --date='1 days ago')_raid*| mail -s "`echo "

/$(date +%Y'年'%m'月'%d'日' --date='1 days ago')ERROR:tv233_RAID卡硬盘报警"|iconv -f utf-8 -t gbk`" postmaster@126.co

m,1860531****@wo.com.cn  -- -f www@xp.com"

[ "$Degrade_disk_num" -ne 0 ] && STATUS=1

[ "$Failed_disk_num" -ne 0 ] && STATUS=1

exit $STATUS

DELL服务器的各种RAID卡的详细参数

1、SAS 6/iR Features

This section provides the specifications of Dell邃「 Serial-Attached SCSI (SAS) 6/iR controller. The following table compares the specifications of the SAS 6/iR Adapter and SAS 6/iR Integrated.

Table 3-1. Specifications of SAS 6/iR

Specification

SAS 6/iR Adapter

SAS 6/iR Integrated

SAS technology

Yes

Yes

Support for x4, x8, or x16 PCI Express Host Interface

Yes

Yes

Form Factor

Standard-Height, Half-Length PCI Adapter

Standard-Height, Half-Length PCI on all systems except on blade servers (where the dimension do not follow industry standards) and some Precision workstations (where the controller has been integrated on the mother board)

I/O controller (IOC)

LSI SAS 1068e

LSI SAS 1068e

Core Speed: 255 MHz

Core Speed: 255 MHz

Operating voltage requirements

+12V, +3.3V, +3.3Vaux

+12V, +3.3V, +3.3Vaux

Communication to the system

PCI-E lanes

System dependent

Communication to end devices

SAS Links

SAS Links

SAS Connectors

2 x4 Internal

2 x4 Internal connectors on all systems, with two exceptions: 4 x1 on Precision workstations with controller integrated on the motherboard, no SAS connector on the controller for the blades (I/O is routed though the PCI connector)

Lead Free

Yes

Yes

Supported operating systems

Microsoftツョ Windows Serverツョ2003 Family, Windowsツョ XP, Microsoft Windows Server 2008 Family, Windows Vista邃「, Red Hatツョ Enterprise Linuxツョ Versions 4 and 5, SUSEツョ Linux Enterprise Server Version 10.

Dell-compliant SAS and SATA compatibility

Yes

Yes

Dell supported direct connected end devices

Dell-compliant physical disks

Dell-compliant physical disks

SMART error support through management applications

Yes

Yes

Backplane supported systems

Yes

Yes

Hardware-based RAID

RAID 0, RAID 1

RAID 0, RAID 1

Maximum number of virtual disks

2

2

Storage management software

OpenManage邃「 Storage Services, SAS RAID Storage Manager

OpenManage Storage Services, SAS RAID Storage Manager

NOTE:The management software that is supported depends on the specific platform.

Support for internal tape drive

No

No

Support for Global Hotspare

Yes

Yes

Maximum number of Hotspares

2

2

2、Dell所有RAID参数对比表

DellTM PERC Products

Model

Interface Support

PCI Support

SAS Connectors

Cache Memory Size

Write Back Cache

RAID Levels

Max Drive Support

RAID Support



PERC H800 Adapter

6Gb/s SAS

PCI-Express 2.0

2x4 external

512MB
512MB NV
1GB NV

Yes (TBBU)

0,1,5,6,10,50,60

192

Hardware RAID


PERC H700 Integrated / Adapter

6Gb/s SAS

PCI-Express 2.0

2x4 internal

512MB
512MB NV
1GB NV

Yes (BBU)

0,1,5,6,10,50,60

16

Hardware RAID


PERC H700 Modular

6Gb/s SAS

PCI-Express 2.0

1x4 internal

512MB

Yes (BBU)

0,1,5,6,10

4

Hardware RAID


PERC H200 Integrated / Adapter

6Gb/s SAS

PCI-Express 2.0

2x4 internal

-

-

0,1,10,supports Non-RAID

16

Hardware RAID


PERC H200 Modular

6Gb/s SAS

PCI-Express 2.0

1x4 internal

-

-

0,1,10,supports Non-RAID

4

Hardware RAID


6Gbps SAS HBA

6Gb/s SAS

PCI-Express 2.0

2x4 External

-

-

-

-

HBA Hardware


PERC 6/E Adapter

3Gb/s SAS

PCI-Express 1.0

2x4 external

512MB
256MB

Yes (TBBU)

0,1,5,6,10,50,60

144

Hardware RAID


PERC 6/I Integrated / Adapter

3Gb/s SAS

PCI-Express 1.0

2x4 internal

256MB

Yes (BBU)

0,1,5,6,10,50,60

16

Hardware RAID


PERC 6/I Modular

3Gb/s SAS

PCI-Express 1.0

1x4 internal

256MB

Yes (BBU)

0,1,5,6,10

4

Hardware RAID


CERC 6/I Modular

3Gb/s SAS

PCI-Express 1.0

1x4 internal

128MB

-

0,1,5,6,10

4

Hardware RAID


SAS 6/IR Integrated / Adapter

3Gb/s SAS

PCI-Express 1.0

2x4 internal

-

-

0,1

8

Hardware RAID


SAS 6/IR Modular

3Gb/s SAS

PCI-Express 1.0

1x4 internal

-

-

0,1

4

Hardware RAID


PERC S300
Windows OS only

3Gb/s SAS

PCI-Express 1.0

2x4 internal

-

-

0,1,10,5

8

Software RAID on HBA


PERC S100
Windows OS only

3Gb/s SAS

-

4 cabled SATA

-

-

0,1,10,5

4

Software RAID on SATA chipset


SAS 5/E HBA

3Gb/s SAS

PCI-Express 1.0

2x4 external

-

-

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多