一、故障描述
用戶VMware ESXi 7.0u3c在使用過程中,本地存儲中的虛擬機(jī)突然無法訪問,用戶在檢查本地存儲卷顯示為不可訪問狀態(tài)。

通過iDrac檢查陣列卡狀態(tài),無法正確識別物理盤及RAID卷組。

二、故障定位
以蘇州天劍技術(shù)服務(wù)工程師的經(jīng)驗判斷,可能是RAID卡的固件缺陷導(dǎo)致的問題,所以第一時間遠(yuǎn)程接入后即檢查了RAID卡固件版本為52.21.0-4606,與DELL原廠核實后,當(dāng)前RAID卡固件版本確實存在需要緊急升級的版本。

詳細(xì)的描述可見:https://www.dell.com/support/kbdoc/en-us/000223831/perc11-perc-h750-h755-and-h755n-controllers-may-experience-single-or-multi-bit-ecc-messages,即當(dāng)前RAID控制器固件版本,存在緩存錯誤導(dǎo)致掛起的情況,也符合當(dāng)前的故障現(xiàn)象。
三、故障處置
與用戶溝通停機(jī)時間后,將服務(wù)器進(jìn)行冷重啟,啟動后Dirver Health Manager彈出提示:

這是由于RAID卡產(chǎn)生了Multi-bit ECC Error,在啟動過程中讀到了LSI_RAID_Controller_info中的錯誤信息,這里僅需按X即可繼續(xù)啟動。
問題原因說明:
RAID卡具備ECC(Error Correcting Code)這種內(nèi)存校驗機(jī)制,采用奇偶性校驗的方法,出現(xiàn)的ECC錯誤分為Single-bit ECC Error和Multi-bit ECC Error兩種。
Single-bit ECC Error:只有單個bit出現(xiàn)了錯誤,能通過奇偶性校驗恢復(fù),因此RAID卡能容許出現(xiàn)一定次數(shù)的Single-bit ECC Error。iBMC會從RAID卡獲取出現(xiàn)錯誤的次數(shù)和產(chǎn)生告警的門限,當(dāng)次數(shù)≥門限時,iBMC會產(chǎn)生告警并記錄維護(hù)日志。
Multi-bit ECC Error:有多個bit出現(xiàn)了錯誤,不能通過奇偶性校驗恢復(fù),因此RAID卡通常會出現(xiàn)掛死,進(jìn)而導(dǎo)致系統(tǒng)掛死甚至系統(tǒng)重啟。RAID卡掛死后,iBMC無法通過RAID卡檢測到產(chǎn)生了Multi-bit ECC Error,因此iBMC無法產(chǎn)生告警。系統(tǒng)重啟后,Multi-bit ECC Error可能恢復(fù),此時iBMC可以從RAID卡獲取到一次Multi-bit ECC Error事件,并記錄在LSI_RAID_Controller_info里,這個是在multi-bit ECC Error發(fā)生且系統(tǒng)重啟之后延遲記錄的。
iDrac順利識別到RAID卡后,按正常升級步驟升級合適的固件版本即可,同時檢查VMware兼容性要求,蘇州天劍服務(wù)工程師趁停機(jī)的機(jī)會一并升級了ESXi驅(qū)動,以滿足兼容性要求。


四、總結(jié)
兼容性檢查是保障穩(wěn)定可靠的生產(chǎn)環(huán)境的最低基線,一定要及時定期檢查如BIOS、RAID卡、HBA卡、網(wǎng)卡等關(guān)鍵硬件的兼容性是否滿足兼容性列表要求!