在數(shù)字化時(shí)代,企業(yè)的IT基礎(chǔ)設(shè)施扮演著至關(guān)重要的角色,而Nutanix超融合系統(tǒng)更是被眾多企業(yè)認(rèn)可為提升效能的利器。然而,即便是最先進(jìn)的技術(shù)也難免會(huì)遭遇各種技術(shù)故障,而這則故事正是發(fā)生在這個(gè)充滿挑戰(zhàn)的背景下。
今天我們400服務(wù)電話接到了一通陌生的報(bào)障電話,這位用戶他們的Nutanix超融合1個(gè)節(jié)點(diǎn)離線,給業(yè)務(wù)的正常運(yùn)行造成了一定的影響。秉承著業(yè)務(wù)至上的原則,我們的技術(shù)服務(wù)團(tuán)隊(duì)在未進(jìn)行任何商務(wù)溝通的情況下迅速遠(yuǎn)程接入生產(chǎn)環(huán)境進(jìn)行檢查。

通過對(duì)集群的基本檢查發(fā)現(xiàn),其中一個(gè)節(jié)點(diǎn)為“Node is removed from metadata store”的狀態(tài),出于對(duì)客戶敏感信息的尊重,同時(shí)也是為了符合我們對(duì)數(shù)據(jù)隱私的高度關(guān)注,本次的故障處置我們不便發(fā)布更多的技術(shù)細(xì)節(jié)。但最終該故障在我們技術(shù)服務(wù)工程師的努力下,順利恢復(fù)上線。

由于Nutanix AOS及VMware ESXI版本較低,存在一些已知問題,我們的技術(shù)服務(wù)工程師將進(jìn)一步與用戶溝通后續(xù)軟件版本升級(jí)細(xì)節(jié),以確保集群服務(wù)的健康穩(wěn)定運(yùn)行。