文/鄭緯民

數據存儲的意義,用一句話概括就是“記錄當下,相約未來”。
數據存儲完成了數據在時間維度的傳播和跨越,將今天人的智慧、故事、喜怒哀樂、悲歡離愁忠實地記錄下來,供未來的人體驗、學習、借鑒和欣賞。
在計算機產生之前,人們記載這些故事和智慧的手段是紙和筆,能夠承載和傳遞的信息量十分有限,在現代電子計算機誕生這半個多世紀以來,存儲介質發生了天翻地覆的變化,從早期的打孔紙帶、磁帶到磁盤、固態盤,再到近些年新涌現的非易失存儲等,負載特征和訪問模式也早已今非昔比,唯一不變的是計算機存儲系統研究在整個計算機領域中的基礎地位和重要意義。
從學科建設的角度來看,幾乎沒有一個應用和數據訪問完全沒有關系的,所以對于任何一個應用來說,在給定訪問模式的前提下,如果希望能夠在現有的硬件上充分發揮數據的讀寫性能,就離不開高效的存儲系統。
從時代特點來看,我們已經進入一個大數據時代,全球的數據量積累速度加快,數據來源和種類多樣、可信度低、價值密度低,所以在這樣一個時代,研究設計新的存儲系統大有可為。
從國家需求和戰略發展來看,數據是影響國計民生的戰略資源,我國在“十三五”期間集中建設數字中國、網絡強國,經過近五年的開拓創新和銳意進取,我國數字產業、網絡產業蓬勃發展,數字經濟、共享經濟、人工智能、大數據、云計算等已經飛入尋常百姓家。
例如在這次抗擊新冠肺炎疫情的過程中,基于大數據的密切接觸者追蹤、篩查技術就為迅速控制住疫情作出重大貢獻。但從另一方面來說,這也意味著我國經濟社會對于數據的依存度在不斷上升,盡管我們在計算機領域已經取得長足發展,但是在一些關鍵技術上依舊和發達國家差距較大,其中就包括大數據存儲系統,不斷上升的數據依存度意味著這些技術短板帶來潛在國家信息安全隱患和發生系統性重大風險挑戰的可能性也在不斷上升。站在風口浪尖之上,推動我國存儲技術的持續發展,成為這一代計算機人責無旁貸的使命與擔當。
結合大數據存儲的新特點和新挑戰,我認為研究工作應主要圍繞存儲系統擴展性、可靠性和集約性三個方面展開。
存儲的可擴展性的主要問題在于,存儲系統的建設往往無法一步建設到位,特別是在大數據時代,數據的增長速度往往遠遠超過預期,因此必須要實現存儲容量隨著數據量的增加能夠逐步動態擴展。
這個問題主要的挑戰有兩個,一個是設備和網絡選擇方面,往往擴展時必須選擇原來類型的磁盤,新型號的磁盤不行,不同的廠家更不行;二是在線擴展的效率較低,在給一個系統增加了空的磁盤之后,需要在新舊磁盤之間重新分布數據,從而提高整個系統的讀寫性能,但是在線擴展過程非常慢。
針對第一個問題,我們團隊設計了一種可擴展的網絡存儲系統結構,實現了系統和存儲設備的解耦,可以把異構的存儲設備、IO網絡集成到一個系統中。針對第二個問題,我們團隊通過觀察發現一種可重排序窗口特性,基于這一特性采用數據批量并行遷移、元數據懶惰更新、數據遷移量最小化等方法,顯著提高了擴展的執行速度。
存儲的可靠性的主要問題在于,在大數據存儲系統中,存儲設備類多量大,設備出錯成為一種常態,可靠性不足造成的損失越來越大。IBM對400家公司的調研表明,由于數據損失和宕機給這些企業帶來的損失高達7000億美元。
存儲的可靠性保證方法有兩種類型,一種是容災,基本思路是做跨數據中心的異地備份,主要用于避免各種因為災害、戰爭、恐怖襲擊導致的系統總體毀損;另一種是容錯,基本思路是通過增加設備冗余、數據恢復等手段,主要用于避免因為存儲部件失效造成的部分數據丟失。
針對容災框架一致性保證困難,數據依賴關系復雜的挑戰,我們團隊提出了一種結構無關的容災框架,實現了進程狀態和用戶數據一起備份的全系統保護思想,設計了并行流水的恢復機制。針對容錯問題,我們提出了一種輕量編碼方法,設計了一整套防止數據丟失、無需管理員維護的自維護系統,能夠用較少的存儲空間使得數據不會丟失,系統在生命周期內免人工維護。
存儲的集約性的主要問題在于,面對數據產生的速度遠快于磁盤生產速度造成的數據產生和存儲容量之間的缺口,如何能夠去除系統中的重復文件和冗余數據塊,盡量降低存儲開銷。例如通過調研,我們發現在蘭州大學、清華大學校園網絡存儲的數據中,相同的文件存儲副本數平均達20個,單個文件存儲備份最高達1萬個,因此利用不同用戶之間存在很多內容相同的文件這一特點,我們可以通過用戶共享來去掉這些重復的文件,從而節省存儲空間。
在此基礎之上,我們團隊在云存儲系統中引入實體化社區,采用面向共享的存儲資源自適應組織和數據共享管控等關鍵技術,實現了數十倍的數據共享率,大幅節省了存儲空間和主干網的流量費用。此外,針對現有主存儲中存有大量相似數據塊的問題,我們提出通過位置敏感哈希識別數據段的主存儲內嵌刪冗方法,刪冗率達到30-70%,基于該方法,我們設計實現了高效刪冗的存儲系統。
我們的研究工作就是研究并設計可以高效擴展、高可靠、既能夠抵御一般性錯誤也能夠抵御各類災難、同時還高度集約,能夠高效存儲大量數據的大數據存儲系統。近年來,我們的研究成果用于影響國計民生和社會發展的近數千家單位,惠及數千萬用戶,取得顯著經濟和社會效益。未來,我們還將繼續厚植大數據存儲系統的科學研究,爭取做出更多有價值、有分量的成果,經得起時代、歷史和人民的檢驗。