摘要:本文簡要闡述RAID磁盤陣列在基層區縣融媒體節目制作部門的使用現狀,結合本部門RAID陣列數據存儲工作實踐,談談我們對如何做好磁盤陣列維護運行、數據存儲方面的一些思考。
關鍵詞:RAID 數據存儲
背景:
當今廣電科技發展日新月異,網絡化、信息化技術在廣播電視融媒體領域的應用也日趨深入普遍,攝、錄、編、播、傳、存、顯各個環節都已經實現了高清化、數字化,這里面“存”這個環節一直在后臺運行,平時不受關注,一旦損壞卻影響巨大。而對存儲的主要設備RAID的運行維護,對基層廣電技術人員而言是個巨大挑戰,據了解從RAID開始進入區縣基層廣電部門,目前大多已進入故障高發期,本文就這一課題展開討論無疑擁有很強的現實意義。
一、RAID基礎知識
1.1 RAID的定義及常見使用方法
RAID 即獨立磁盤冗余陣列,其實就是用多個獨立的磁盤組合在一起形成一個大的磁盤系統,從而實現比單塊磁盤更好的存儲性能和更高的可靠性。按照組成磁盤的不同管理模式提供不同的存儲容量、數據校驗容錯、數據讀寫性能。
常見外置RAID磁盤陣列使用方法有以下兩種:
1、小型桌面應用一般采用6盤位及以下磁盤陣列盒、硬盤陣列盒通過雷電或USB接口直連一臺主機,也可以共享出來供局域網其他機器作為一個大容量存儲使用,組成級別一般選擇RAID 5。
2、再大一些規模的RAID陣列使用,比如20臺非編的在線編輯或中心級別的媒資存儲,要求陣列存儲容量更大,數據安全性更高,一般采用12盤位以上,RAID 6級別的陣列,陣列通過FC光纖直連到非編網絡核心交換機,供所有終端使用。
1.2 RAID的常用組成級別
RAID 0:
亦稱為帶區集,把多塊硬盤連接在一起而組成一個容量更大的存儲設備。處理數據時把數據分塊并且同時讀寫入組成RAID的磁盤,從而大大提高I/O速率。RAID0沒有冗余或錯誤修復能力。
RAID 1 :
也稱為磁盤鏡像,2n塊硬盤只能提供n塊硬盤的存儲容量。每一個磁盤都具有一個對應的鏡像盤。只要不是一組鏡像硬盤同時損壞不影響存儲數據安全。
RAID 3:
使用一個專門的獨立磁盤存放所有的校驗數據,而在剩余的磁盤中以與RAID0相似的方式分割并讀寫數據,即可視為“RAID3=RAID0+校驗盤”。
RAID 5:
在運行機制上,RAID 5和RAID 3完全相同,也是由幾個數據塊共享一個校驗塊。RAID 5和RAID 3的最大區別在于RAID 5不是把所有的校驗塊集中保存在一個專門的校驗盤中,而是分散到所有的數據盤中。硬盤的利用率為n-1。
RAID 6:
與RAID 5相比,RAID 6增加了第二個獨立的奇偶校驗信息塊。兩個獨立的奇偶系統使用不同的算法,即使兩塊磁盤同時失效也不會影響數據的使用。
二、本單位RAID磁盤陣列使用概述
2.1 本單位在線編輯RAID陣列的軟硬件配置
1、3U機架式,冗余電源,單控制器設計,控制器可快速替換,陣列控制器FC光口直連非編核心交換機;
16塊西數ST3000NM0033企業級硬盤(支持熱插拔);
4個RJ451000M以太網口,支持多種網口聚合方式;
RAID0,1,3,5,6,10,50,JBOD(支持全局動態熱備盤);
管理方式支持鏈接擴展柜進行擴容;
支持10臺非編,每臺兩層的GVHQ/HQX(1920x1080)文件的實時在線編輯。
2、系統采用安全的嵌入式Linux內核,可有效防止病毒及木馬攻擊,并具有多網口聚合、斷電保護、QOS網絡帶寬管理,與非編終端組成了資源共享的網絡編輯組群。其靈活的擴展性,便捷的文件交互、嚴格的分級權限管理為中心各制作部門提供了安全、高效的網絡協同工作平臺。
2.2 本單位在線編輯RAID陣列幾年來的的運行情況
1、2015年系統購入時,初始陣列中16號盤位為熱備盤,其他15塊盤組RAID6,實際可用硬盤容量為13*3=39T。
2、2019年國慶假期間陣列告警,值班人員重啟后停止告警,節后登錄系統發現16號盤狀態為在線,2號、8號盤狀態為廢棄,陣列狀態為降級。聯系廠家遠程指導換兩塊同規格企業級硬盤,陣列經過3天的數據重構恢復正常,8號盤狀態變為熱備盤,數據未受任何損失。替換下的硬盤格式化后掛到辦公電腦上正常工作至今。
3、2021年3月,陣列未告警,記者反映登錄不了在線編輯系統,技術人員檢查發現3、11、12號硬盤指示燈亮紅燈,系統進入保護狀態。關機插拔故障盤后3號盤亮綠燈恢復正常,11、12號盤仍然亮紅燈,聯系廠家遠程指導處理故障恢復正常。但這一次故障徹底給我們敲響了警鐘,深刻認識到存儲數據的寶貴,必須引以為戒,查找單位還有哪一些技術系統存在隱患,哪一些技術系統我們還不了解掌握。要先摸出個底來,分門別類采取相應措施堵塞漏洞,讓單位技術保障能力上一個新臺階。
三、陣列使用實踐心得:
綜合兩次陣列故障處理過程,我們經過學習分析,得出以下觀點:
1、磁盤陣列對組成陣列的磁盤要求嚴苛,一有不符合標準的硬盤出現,就會踢出陣列,啟用熱備盤進行硬盤重構,再出現壞盤而又沒有及時換盤,陣列就會降級,數據安全性大為降低。直至出現陣列崩潰數據丟失的災難性后果。
2、故障及時發現對解決問題極為重要,除了注意系統報警外,還要定期登錄巡查,觀察陣列狀態,以防告警部分被關閉或故障出現的不告警。
3、保證同規格或高規格企業級硬盤的常態冷備,及時替換保證陣列中熱備盤正常工作。
4、陣列工作3、4年后或陣列中出現過壞盤,就要引起技術維護人員的高度重視。
5、數據流磁帶、光盤、離線硬盤等模式作為重要數據的異地異態勤備份,將大大提高存儲數據的安全性。
四、結束語
據了解,目前很多基層廣電部門的技術維護大都由傳統廣電的老技術人員承擔,高水平的專業計算機人才很少能充實到區縣基層一線,對磁盤陣列這類高價值設備,學習維護又有一定風險的領域確實有較高門檻,存在本領恐慌,但現實情況又要求我們正確面對,加強學習,勇于承擔起這份挑戰。希望此文能對行內同事們有所幫助,筆者水平有限文中不當之處敬請大家指正為謝。
作者簡介:
李世鵬(1972,11——),男,漢,籍貫:山東省濟南市萊蕪區,工程師,學歷:大專,研究方向:廣播電視工程。