電腦兩三事 伺服器莫名奇妙的當機處理過程

由於伺服器有一陣子當機,後來發現是硬碟中某一段壞軌,每天凌晨在做備份的時候讀到這段壞軌就會造成硬碟卡死當機,伺服器做的是RAID5,所以規劃了一套流程來應對這次的當機作業

在與其他人討論這次的錯誤時我們規劃出了以下的方式

1. 檢查系統是否是中毒或是系統檔案壞了
2. 檢查伺服器硬體設備(不過這部份沒有備品,未來會依靠電腦公司)
3. 將原有的系統先做虛擬化備份,以防未來整個硬碟都掛了
4. 用虛擬化備機先讓使用者上機,之後將伺服器整台做檢測

在8月份初,伺服器莫名奇妙的當機,只能靠強制重開機來解決,檢查系統事件記錄器,判斷硬碟壞掉的機率最高,在來就是是不是有中毒。

最後與其他人商量討論後,專業的建議先把原有的系統備份及虛擬化,一來能暫時把資料留住,二來也防止這幾天如果突然性的無法開機之後資料完全不見。

伺服器的硬體是我們這種小咖無法解決的,因為我們沒有備品及相關的設備可以檢測哪些東西壞了,為了防止不東補西補來解決硬體故障的問題,我先從虛擬化著手,把舊有的系統先架虛擬機器起來讓使用者上線(一來也是舊有的資訊人員根本沒留任何舊有的資訊,所以不想重灌)。

(1) 系統是否中毒或是檔案壞了,這部份我先放棄,從虛擬機器這部份下手,以不會出錯為前提。
(2) 檢查硬體,也是從虛擬機器下手,能讓使用者暫時上線使用後,將整台機器寄給專業的電腦公司檢測整台機器,以防修好a又壞掉b的囧境。
(3) 這部份我暫時先使用了微軟提供的熱備援工具,一鍵備份成vdhx。
(4) 這部份還在努力中…(掛載一事請參考另一片文章)

各位前輩如何有什麼好的建議或是更節省時間的方法,請多多指教。

文章回應

Facebook Comments

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料