鄭小燕
摘 要 分布式文件系統在海量數據存儲領域已經有了廣泛的應用,目前大多分布式系統使用的是文件數據及元數據解耦架構。其中元數據管理對于文件系統的性能有著直接的影響。本文對此主要探究分布式文件系統中元數據的管理策略,基于幾種經典的管理策略,分析其優勢和不足,并在此基礎上提出了一種基于標簽的管理策略。
【關鍵詞】分布式文件系統 元數據 管理策略
在經濟發展的今天,各個行業的數據規模也越來越大,各行各業也有更多的重要文件以及重要數據要保存。這對于分布式文件系統來說,是一個大的挑戰。元數據管理作為系統中最為重要的一個部分,對于系統的整個性能的影響也是極大的。目前來講,現有的元數據管理是受傳統元數據分割技術限制的,還無法有效解決當前的問題?;跇撕灥脑獢祿芾聿呗哉遣胚@樣的情況下提出,這種新的策略中,簽是元數據的分割粒度,這種分割粒度對于元數據的處理有很大的影響,比如負載均衡、并發控制及系統可擴展性等等。正是因為這種基于標簽的元數據管理策略有一定的優勢和有效性,因此值得在分布式文件系統中推廣應用。
1 分布式文件系統
分布式文件系統是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點相連。判斷此系統是否優秀由三個因素決定。
1.1 存儲方式
比如,在2000萬個數據文件當中,能夠在一個節點存儲全部的數據文件,在其他的n個節點上的每一個節點能夠2000/N萬個數據文件作為備份,不管是哪一種存儲方式,都是以保障數據的安全性和便捷獲取性為主。
1.2 讀取的速率
也就是用戶讀取數據文件時的響應速度,定位文件節點以及讀取數據時間和節點數據傳輸等等。這些都直接影響了用戶對系統的體驗。
1.3 安全性
因為數據分散在系統中的各個節點,因此,要通過冗余、備份等方法來確保節點如果出現了故障,這種情況下也可以恢復數據,保障數據的安全。
2 元數據管理策略
無分割策略:用戶請求元數據的時候,會將請求發送到有命名空間的MDS上,MDS根據文件路徑的名稱遍歷目錄的層次,然后驗證文件的權限。在獲得許可的情況下,MDS把請求的元數據返回用戶。這種策略的優勢在于:命名的空間同元數據都是保存在一個計算機上,因此有完全的存儲局部性;緩存利用率和命中率高,能夠減少了硬盤 I/O 次數;修改父目錄的名稱或者權限等屬性時對包含的文件不會有影響。不足:無分割,粒度太粗;因為元數據的訪問需要遍歷目錄的層次,因此,所花費的代價更高;不能增加服務器進行擴展。
靜態哈希策略:這種策略有兩種元數據,一個是目錄元數據,一個是文件元數據。靜態哈希策略主要是通過計算機中的文件名稱、路徑等標志中的hash值把元數據分布到不同MDS中去。這種策略的優勢有:工作負載均衡;速度快;并發度高;網絡負載花費低。不足:因為權限的認證要遍歷目錄層次,因此,花費的代價較高;遷移代價太大,不易擴展;不易維護元數據的一致性。
基于目錄路徑的元數據管理策略:除以上兩種經典的策略外,還有其他的策略這里就不一一介紹。在這些策略基礎上進行改善且加入了新的技術的策略這里介紹下這種基于目錄路徑的管理策略。這種管理策略中的目錄路徑的屬性同目錄對象是相分離的。因而,能避免因修改目錄屬性時對目錄中的子目錄或者文件產生的影響,另外,在系統中設立了單路的目錄路徑索引服務器。可以根據用戶的請求文件路徑來找對應的父目錄屬性,最終根據父目錄定位目標MDS。這種管理策略有靜態哈希策略的優勢,但也難以擺脫部分不足,存在一定的局限性。
基于標簽的新的管理策略:這種策略是基于經典以及一些改善策略基礎上提出的策略。不同元數據分割粒度對于系統的性能的影響是不同的。比如,緩存利用率、并發度以及可擴展性等等。從以上幾種經典管理策略以及經過改善的管理策略分析來看,將目錄作為元數據分割粒度會出現系統性能問題。但,如果把分割粒度減少程文件的時候,能夠解決部分因粗粒度導致的問題,不過也有挑戰。因而,要提供系統的性能,就應該在目錄粒度和文件粒度之間做好權衡,以介于這兩者之間的粒度來處理。對此,可以通過對目錄分割來使沒一個目錄子集包含部分文件,這些子集就稱之為標簽。分割粒度為標簽的時候,因為每個標簽只包含了目錄中的部分文件,規模一般為數萬個,標簽的元數據以及包含的文件元數據就只要占幾百個kb的空間。相比較子數分割粒度來講,在緩存當中就可以存儲更多的標簽元數據。但是比較文件分割粒度來說,就可以降低元數據的前綴。這樣,就可以在一定程度上就能夠提高緩存的利用率和命中率,減少硬盤的I/O次數,最終提升系統的性能。另外,MDS機群如果需要動態均衡負載的時候,需要遷移標簽元數據,因為元數據的規模小,因此,網絡負載就不會太重;而且,分割目錄為標簽的時候,鎖的粒度也會減小,系統的并發度就會得到提升。
3 結語
從以上提出幾種元數據管理策略分析來看,不同的管理策略有優勢也有不足,沒有絕對的好壞。因此,在選擇的時候要具體問題具體分析,完善不足,提升分布式文件系統的擴展性、高性能等特點。基于標簽的新的管理策略只是相對于其他經典的管理策略來說有一定的優勢,但選型時也要依據具體的情況來選擇。
參考文獻
[1]程付超,苗放,陳墾.自適應的分布式文件系統元數據管理模型[J].計算機工程與設計,2014,35(03):867-874.
[2]解曉偉.分布式文件系統元數據擴展管理研究與實現[D].北京郵電大學,2014.
[3]馮幼樂.分布式文件系統元數據管理技術研究與實現[D].中國科學技術大學,2010.
[4]肖培棕.分布式文件系統元數據負載均衡技術研究與實現[D].中國科學技術大學,2009.
作者單位
江西省質量技術監督信息中心 江西省南昌市 330029