Shunze 學園 >電腦資訊學系 >硬底子 > 《分享》硬碟置換後,RAID是否會自動rebuild? 哈囉,還沒有註冊或者登入。請你[註冊|登入]
« 上一篇主題 下一篇主題 » 顯示成列印模式 | 增加到我的最愛
發表新主題 發表回覆
作者
主題
shunze
工友伯伯


註冊日期: 2002 04
來自: 潮汐終止之地
文章: 2322

shunze 離線
《分享》硬碟置換後,RAID是否會自動rebuild?引用回覆 編輯/刪除文章 搜尋由  發表的其他文章 回報給版主 IP 位置 回此頁最上方

上週去處理我老東家-城西的server問題。
這台server的磁碟出現了critical嚴重等級的警告訊息,
再不處理,這張LSI 9260-8i RAID卡的組態即將失敗,引發無法挽回的遺憾事件!


↑VMware上看到的警示訊息。


↑透過IPMI看到的警示訊息。


我主管到現場察看,發現第4個slot的硬碟燈號有較高的閃爍頻率!
但在該slot換了一個全新的硬碟後,VMware及IPMI上critical狀況並未改善。
該server裝的是VMware,並無RAID card管理工具可以查看RAID狀態,
且上面還有一堆執行中的VM,無法重開機進RAID卡的WebBIOS查看,因此無功而返,將新硬碟拆下帶回...
待城西VMware上的VM全部移轉到別台,可以重開機進WebBIOS實際瞭解RAID卡的狀態後,再約時間處理。


過了一週,城西通知該VMware Server上的VM已全部移轉,可以重開機進WebBIOS查看RAID狀態,
這次換我出馬到現場處理這個特殊案件了。

重開機進WebBIOS後,發現RAID組態是RAID 10,
而且一如我主管猜測,是第4顆硬碟有問題!



但也像我主管所說,在置換新硬碟後,該硬碟並未自動rebuild,
新硬碟呈現“Unconfigured Bad”的狀態,無法自動rebuild!?

既然都已進WebBIOS,就試著處理看看。
把新硬碟改成“Unconfigured Good”後,再改成“Offline”狀態,
這時新硬碟已經可以手動做rebuild了,城西的事件暫告一個段落。



回到公司後,我把這個狀況詢問原廠代理商登昌恆-言處長,
言處長回覆,這不是RAID 10的問題,而是所有RAID組態在置換新硬碟後,都必需手動做rebuild,
包含RAID 1,5,6都一樣!

在我把這個答案回報給城西及公司後,立刻遭到了公司方面的質疑!
公司同事以前就驗證過RAID 5是可以自動rebuild的,這個說法很有問題喔?


那...具保護機制的RAID 1,5,6,10組態,在置換新硬碟後,究竟能否自動rebuild?

順子拿了5顆新硬碟裝在raid card 9260-4i上做測試,
發現RAID 1,5,6,10在故障slot置換新硬碟後,均能自動觸發rebuild機制,回復RAID的正常狀態!


↑RAID 1會自動rebuild。


↑RAID 1會自動rebuild。


↑RAID 5會自動rebuild。


↑RAID 5會自動rebuild。


↑RAID 6會自動rebuild。


↑RAID 6會自動rebuild。


↑RAID 10會自動rebuild。


↑RAID 10會自動rebuild。



那麼是什麼原因造成城西的失敗事件呢?

經過一個晚上的思考,順子認為其實第一次主管到現場置換硬碟時,系統就已經自動在rebuild了!

但還在rebuild階段的RAID不論在VMware,或是IPMI中,一律都只會顯示為critical狀態,
除非rebuild完成,否則在VMware或IPMI中,critical狀態是不會消失的。
這部分在第二次順子到現場處理及之後的LAB測試都可以得到驗證。

所以,主管做的處置完全正確!
只是沒有時間給它跑完rebuild,同時也沒有工具可以查看RAID狀態,所以誤以為置換硬碟沒有效果而拆回新硬碟,
在不知不覺中,中斷了進行中的rebuild工作。
(第二次順子在現場做rebuild,花了兩個多小時,完成後,VMware及IPMI上的critical狀態都自動消失!)


而因rebuild工作觸發,這顆全新的硬碟被寫入了RAID的資訊,
但又因為rebuild未完成就被抽出帶回,所以硬碟堿O失敗的RAID組態資訊,呈現“Unconfigured Bad”狀態。

因此,順子再次拿此有失敗訊息的硬碟於現場置換時,是無法自動rebuild的。
順子必需手動把它改為“Unconfigured Good”,這樣才可以順利進行rebuild工作∼

到此,城西的謎團算是解開了!


結論
Rebuild期間,若沒有工具可以檢視rebuild進度,也不能重開機,
那麼請給它一點時間做rebuild。
若硬碟是全新的,上面沒有任何RAID組態資訊,理論上,它是會自動rebuild的∼



♥順子老婆的網拍,請多關照∼

If you don't like something, change it.
If you can't change it, change your attitude.
Don't complain!




2016-06-14, 07:13 shunze 的個人資料 把 shunze 加入好友列表 發送Email給 shunze 瀏覽 shunze 的網站 MSN : shunze@gmail.com
shunze
工友伯伯


註冊日期: 2002 04
來自: 潮汐終止之地
文章: 2322

shunze 離線
《分享》ESXi下的Avago RAID組態查看工具引用回覆 編輯/刪除文章 搜尋由  發表的其他文章 回報給版主 IP 位置 回此頁最上方

話說上文提到LSI RAID只有提供Windows及Linux下的管理工具,
其實不然,ESXi下也有提供簡單的管理工具喔,只是功能上沒有那麼齊全...

在Avago網站上,查詢RAID Controller的Management Software and Tools
(由於LSI已被Avago買走,所以LSI的相關資源已全移到Avago官網。)



然後可以找到最新的SMIS Provider。


↑順子的ESXi是6.0的,00.59.V0.02這個版本己可以支援!


下載解壓後,將 vmware-esx-provider-lsiprovider.vib 這個檔案透過SCP上傳到ESXi的/tmp目錄下,
或透過vSphere Clinet的Datastore Browser上傳此檔案,再移到/tmp目錄下。

然後以SSH登入ESXi Server,切換到/usr/bin目錄下,並下達以下指令安裝此工具。

cd /usr/bin
esxcli software vib install -v /tmp/vmware-esx-provider-lsiprovider.vib --no-sig-check



安裝完成後,系統會顯示要重開機才有效果。



下圖是未安裝工具前,看到的storage畫面,完全看不到RAID組態...



重開機後,不僅可以看到RAID組態,還可以Controller的相關資訊與硬碟slot ID。



當RAID組態中的硬碟壞了,我們可以看到是哪一顆壞了!


↑原來是第8個slot,ID為0_16這顆硬碟出了問題。

當置換新硬碟後,我們也可以看到rebuild的工作正在進行。



這樣就可以知道RAID是否有在進行rebuild,不需要用猜的∼



不過不知道是順子的RAID卡有問題(Avago 3008 mezzanine card),還是此工具有bug?
在測試時,順子發現此工具的反映並不是那麼準確!

甚至硬碟被順子刻意抽出,模擬硬碟故障狀態,
但工具上還是沒有偵測到硬碟故障!?
(上圖中,第7顆HD ID 0_8也被順子抽出測試,但此HD卻消失了,也沒有顯示任何問題...)

不過置換新硬碟後的rebuild,工具倒是都有正常顯示。


也許這款工具還有問題,但總比什麼都沒有,只能憑空猜測的來的好,
有需要的朋友,就加減用吧∼


參考資料
如何使用 MegaRAID Storage Manager 監控 VMware 主機的磁碟陣列



♥順子老婆的網拍,請多關照∼

If you don't like something, change it.
If you can't change it, change your attitude.
Don't complain!




2016-06-17, 17:13 shunze 的個人資料 把 shunze 加入好友列表 發送Email給 shunze 瀏覽 shunze 的網站 MSN : shunze@gmail.com
  « 上一篇主題 下一篇主題 »
發表新主題 發表回覆
跳到:

Powered by: Burning Board 1.1.1 2001 WoltLab GbR