蘇州天劍服務(wù)工程師在國(guó)慶值班中收到用戶緊急報(bào)障,生產(chǎn)環(huán)境中使用的3節(jié)點(diǎn)Nutanix集群,分布式存儲(chǔ)服務(wù)崩潰,在ESXI中所有虛擬機(jī)顯示為失效狀態(tài),存儲(chǔ)里面查看Nutanix存儲(chǔ)空間也顯示為0B,所有虛擬機(jī)業(yè)務(wù)中斷,蘇州天劍服務(wù)工程在收到該用戶反饋后,第一時(shí)間遠(yuǎn)程接入用戶環(huán)境進(jìn)行處置。

1、環(huán)境檢查
該套Nutanix超融合AOS版本為6.5 LTS與VMware融合部署,在ESXI檢查各個(gè)節(jié)點(diǎn)上的CVM虛擬機(jī)運(yùn)行正常,但是PRISM后臺(tái)9440端口無(wú)法訪問(wèn),通過(guò)web console進(jìn)入cvm發(fā)現(xiàn)a、c節(jié)點(diǎn)的/home分區(qū)使用率極高,c節(jié)點(diǎn)已達(dá)到100%的使用率。

2、集群存儲(chǔ)服務(wù)恢復(fù)
蘇州天劍服務(wù)工程師初步判斷為CVM/home分區(qū)磁盤滿了導(dǎo)致服務(wù)無(wú)法啟動(dòng),造成該次故障,經(jīng)過(guò)對(duì)Nutanix官方kb的查閱,使用KB-1540_clean.sh的腳本進(jìn)行清理并未釋放/home的空間出來(lái)。
NCC-4.0.0: Health Server logs might fail to rotate and fill up /home partition
在進(jìn)一步的故障診斷中,蘇州天劍服務(wù)工程嘗試手動(dòng)釋放部分/home下的日志文件,這里請(qǐng)注意請(qǐng)勿使用rm -rf命令強(qiáng)行刪除。
將/home分區(qū)釋放一部分空間出來(lái)后,服務(wù)仍未恢復(fù),經(jīng)過(guò)蘇州天劍服務(wù)工程師的進(jìn)一步檢查確認(rèn),決定將整個(gè)集群進(jìn)行重啟,集群重啟后,存儲(chǔ)服務(wù)恢復(fù),Prism Element的VIP也可以進(jìn)行正常訪問(wèn),但C節(jié)點(diǎn)仍無(wú)法訪問(wèn)Prism Element后臺(tái)。
3、集群故障處置
在Prism Element中檢查硬件狀態(tài),發(fā)現(xiàn)C節(jié)點(diǎn)無(wú)法獲取信息。

在登錄Prism Element后,檢查告警中看到/home分區(qū)使用率過(guò)高外及集群服務(wù)崩潰的告警,告警最后出現(xiàn)時(shí)間與業(yè)務(wù)實(shí)際中斷時(shí)間相符。

除上述告警外,有一條Disk Inode Usage High on Controller VM xxx.xxx.xxx.xxx的Critical級(jí)別告警,引起了蘇州天劍服務(wù)工程師的注意。

在該告警的kb幫助下,檢查后發(fā)現(xiàn)3節(jié)點(diǎn)的/home下inode均已被/var/spool/postfix/maildrop寫滿。

通過(guò)對(duì)inode的清理,c節(jié)點(diǎn)順利上線。

C節(jié)點(diǎn)順利上線后,蘇州天劍服務(wù)工程師重新執(zhí)行NCC健康檢查,確保集群服務(wù)的健康狀態(tài),至此故障處理排除,用戶業(yè)務(wù)也完全恢復(fù)正常運(yùn)行。
NCC Health Check: inode_usage_check
通過(guò)文檔中的描述來(lái)看,這是個(gè)軟件bug造成的問(wèn)題。
Once the inode usage is bought to normal, Promptly upgrade the AOS to version 6.5.3 or a newer release. Failure to do so in a timely manner may result in cluster downtime due to inode exhuastion.
In case of Nutanix Files, Upgrade the file servers to 4.2 or a newer release.
現(xiàn)蘇州天劍服務(wù)工程師已與用戶約定Nutanix集群軟件版本升級(jí),在軟件版本升級(jí)后,由于/var/spool/postfix/maildrop寫滿inode導(dǎo)致集群服務(wù)崩潰的問(wèn)題將徹底解決。