過年快結束前幾天,通常是系統人員比較擔心的問題都是系統若
是無法開機、資料毀損等常態議題,自然會在假日前來公司查看
。沒想到今年開春的神之手,就讓兩顆 Array Raid Set 消失。



過年上班前兩天,原本預計要來公司測試要上線的機器,沒想到
無意間將 Array 重開,卻導致兩顆分別不同的 Disk Array發生
抓不到資料的慘劇,這可是讓人冷汗直流的開春驚奇大紅包哩!

那天發生慘案後,趕緊打給在 PROWARE 認識的工程師,線上
詢問後,發現的確無法處理,只好請當天值班的工程師到場處理
,沒想到..剛好這天年節值班的就是他,深深覺得我帶賽的程度
還可以傳染給別人,這點倒是讓我嘖嘖稱奇!哈哈!

好吧,雖然不小心害到別人年節期間要來客戶這邊維修,但倒是
又多學會了一點小技巧,所以在事後趕緊補上處理的步驟筆記,
避免之後又發生相同情形。

不過,以下步驟,建議最好跟原廠確認後再執行,要不然資料毀
損,可真的就笑不出來了。>"<~~



機型:PROWARE‧SB-3163E-F4A3 ( FC )


發生情形:

  更換有問題的磁碟,硬體不會自動 Rebuild Data,
  作業系統開機後,發現兩個 Raid Set 只抓到一個,
  另個 Raid Set 消失,判定可能 Partition Table 亂掉,
  進入 Incomplete RAID 模式。


處理步驟說明:




1)‧開機時,Log 紀錄看來已直接進入 Incomplete RAID 的模式,
  若是進入這個模式,插入硬碟則不會自動 Rebuild Data。

2)‧關機,重開機後,觀看 System State 時,Raid Set 都還在,
  將第十五顆有問題的硬碟更換後,再查看 System State 時,
  卻發現第十五顆硬碟所在的整個 Raid Set 消失,即使重新
  更換其他硬碟也會發生相同的情形。





※ 因已進入 Incomplete RAID 模式,目前先確認 Array 的硬
  碟有無問題,若無問題,僅能以 Activate Raid Set 功能先
  讓資料回來,先進行資料的備份。若備份完,再將新硬碟做更
  換,此時才會開始自動 Rebuild Data。


3)‧將機器關機,請將所有硬碟拔出,以「空硬碟」狀態開機。
  接著將硬碟逐一單顆插入,先確認每顆硬碟沒有問題。

  當時有問題的 Raid Set 分別是,第 9 顆到第 16 顆的硬碟,
  所以請先「跳過第十五顆有問題的硬碟,不要 Insert!」

4)‧確認硬碟無誤後,執行 Activate Raid Set 的功能,此時
  系統會自動將 Volume & RaidSet Degrad ,再將 Server
  開機,查看是否能抓到之前消失的 Partition,作業系統若是
  能夠找到該顆硬碟的情況下,請「立即」備份資料至其他儲
  存裝置,避免 Rebuild Data 失敗,導致資料全部毀損。


﹝Activate Raid Set 執行的畫面﹞




5)‧資料備份無誤後,插入有問題的硬碟,系統會 Rebuild Raid Set,
  且自動執行 Rebuild Data 的動作,若是 Rebuild Data
  成功的話,Raid State 會顯示 Normal,則完成此次資料的還原。


當然,以上步驟,純粹是當天 ProWare 工程師處理的步驟,若
要進行這個動作,最好跟工程師確認過沒問題,再進行。


最重要的是..

    希望以後不會發生這種「驚悚」的事情才好! ^^"...


題外話:
   過年開工第一天,機房機器開始發生詭異的「不乖」掛點
   狀況,終於首度在機房擺上了「椰子乖乖」。希望今年機
   器一切正常運作啊!


                          Paul
arrow
arrow
    全站熱搜

    paul 發表在 痞客邦 留言(2) 人氣()