陳偉



隨著信息、數據產生的加速發展,人們已經生活在一個“數據大爆炸”的時代。在這樣的背景下,海量數據占據了越來越多的存儲系統,存儲規模也逐漸增大。如何保障計算機系統在人為損壞或自然災害等突發情況下的可靠性,已經成為國家數據安全的戰略目標。
華中科技大學計算機科學與技術學院胡燏翀教授,長期深耕于計算機系統數據可靠性領域,主要研究通過利用容錯技術如網絡編碼,糾刪碼等,設計與實現“高可靠、高性能、高安全”的計算機存儲系統,包括云存儲、大數據存儲、內存數據庫、重刪備份、異構存儲等。他創新開發的大比例編碼存儲可靠性技術,為我國多個民族骨干企業提供解決“卡脖子”的關鍵技術,降低存儲成本并提升存儲性能,為保障我國數據存儲更可靠、高效、安全做出了重大貢獻。
追風逐電 扎根數據存儲
荊楚之風,歷久彌新;荊楚人才,層出不窮。胡燏翀,1983年1月出生于湖北武漢,他天賦好學,從小就表現出對計算機的濃厚興趣。2001年,以優異的成績被中國科學技術大學少年班錄取,成為其中的“零零班”(教學改革試點班)學子,攻讀計算機科學與技術。
2005年,本科畢業后,胡燏翀又憑借突出的表現,獲得直博資格,在導師許胤龍教授的指導下繼續留在華中科技大學深造,從此時起,他就開展了面向計算機存儲領域的可靠性編碼理論研究。當時分布式存儲新型編碼研究方興未艾,胡燏翀敏銳地看到了分布式存儲與網絡編碼技術將會在未來極具發展潛力,他的博士畢業論文就是關于分布式存儲容錯的修復機制的研究,發表在計算機通信領域頂級期刊IEEE-JSAC,這也是早期網絡編碼和分布式存儲結合的重要論文之一。
博學而篤志 切問而近思
2010年,胡燏翀博士畢業后,先后在香港中文大學的網絡編碼研究所和計算機科學與工程系開展博士后研究,成為第一批將可靠性編碼應用到云存儲系統中的博士后研究員,其間,他取得了一系列優秀的研究成果,受到了學界的廣泛認可。2015年博士后工作結束,胡燏翀以副教授身份加入到華中科技大學計算機科學與技術學院的馮丹教授團隊。
此后,胡燏翀長期扎根計算機系統可靠性領域,針對大規模分布式存儲系統所面臨的“成本高、故障多、擴展慢”三大挑戰,圍繞極致存儲開銷、高效故障修復、高效存儲擴展三個核心科學問題取得系列性成果,實現了高效可靠性存儲編碼在“理論-算法-系統”的完整技術鏈路。他將自己的研究總結為“三快”:“讓編碼速度更快、讓修復速度更快、讓擴容速度更快”。追風逐電,向更快進發,讓數據存儲更可靠、高效、安全,是他研究工作的主要任務。
迄今為止,胡燏翀已經主持國家重點研發計劃青年科學家項目、國家自然科學基金、湖北省科技廳重點研發計劃項目,以及其他省部級項目和企業合作項目10余項。近5年來,共發表論文58篇,其中第一/通訊作者發表于計算機學會A類會議/期刊FAST、SC、INFOCOM和TOS、TIT、TPDS、TON、JSAC、TIFS以及云計算頂級學術會議SoCC、系統結構權威會議ICDCS、ICPP等。同時,他還擔任多個國內外會議包括ICPE 2022、中國計算機學會芯片大會(2022)等宣傳/網站主席。胡燏翀的研究工作受到了國際學術界廣泛關注和引用,谷歌學術顯示被引用1826次,谷歌學術h指數21,引者包括IEEE學會Fellow,國際著名期刊主編、MIT和Berkeley等著名高校教授數十人。
創新編碼 服務民族企業
隨著信息技術的飛速發展,新技術帶來海量數據的爆炸式增長,這也導致存儲成本不斷上升,如何利用編碼技術降低存儲成本,一直都是胡燏翀想要破解的難題。海康威視作為華中科技大學的緊密合作企業,共建了“海量信息存儲聯合實驗室”,2018年海康威視提出了需求,希望能利用大比例編碼降低存儲成本。
當時,國際在此方面只有理論,相關的技術實踐只有一家國外公司在做,但具體細節并未公開。對此,胡燏翀排除萬難深入探索,他從網絡編碼技術的原始論文入手設計大比例編碼,帶領團隊在國際上率先提出了大比例(條帶)糾刪碼(Wide-stripe Erasure Coding,WEC)系列技術成果。論文再次發表于“文件和存儲技術會議”(FAST),并由于在計算機領域的應用,相關成果還發表于計算機超算領域頂會“全球超級計算大會”(SC)。海康威視應用其相關成果后,不僅節省了20%的存儲成本,還超過了微軟云和亞馬遜云的存儲成本降幅。研究工作取得31項專利,授權19項。此后,胡燏翀還將大比例糾刪碼技術超低成本的優勢分別應用于高性能計算、大數據中心、全閃集群等不同領域之中,解決了各種不同的需求。
一直以來,在傳統大規模存儲系統的主要存儲介質——機械硬盤(Hard Disk Drive,HDD)都被美國和日本三大廠商西部數據、希捷及東芝所壟斷,為大力發展中國存儲產業,必須掌握數字經濟競爭主動權。隨著我國國產整機和閃存生產能力的逐步提升,研究“去HDD”大規模存儲系統下相關核心技術,將會是未來國家戰略和企業發展的重大需求之一,而當前阻礙其大規模應用的主要原因在于其成本高昂,是HDD成本的三至五倍。因此,胡燏翀在2022年申請獲批了“面向低冗余成本的大規模全閃集群下大比例糾刪碼技術研究”的面上項目,將此前提出的大比例編碼技術應用到固態硬盤(Solid State Disk,SSD)上,大大降低了SSD成本,為國內大規模閃存集群提供了重要的技術支撐。
在當今大數據時代,研制新一代高性能計算系統,將大幅提升我國算力,滿足國家發展的戰略需求。但是,隨著并行計算系統規模擴展到千萬核級別,處理器、內存故障頻頻發生,同時網絡連通度也會因頻發故障而大大降低,因而系統的計算、存儲、傳輸三大性能將因“故障頻發”而受到嚴重影響。為應對頻發的故障,保障千萬核并行計算系統的可靠性,必須解決“大規模并行計算系統故障頻發下性能保障關鍵”科學問題。因此,胡燏翀申請并獲批主持了國家重點研發計劃“大規模并行計算系統的可靠性編碼理論和技術研究”青年科學家項目。
針對“故障頻發下性能保障”關鍵科學問題,胡燏翀將通過研究,重點解決3項關鍵技術:面對大規模并行計算系統節點故障的低開銷容錯技術,降低處理節點故障給系統所帶來的性能負擔;面對大規模并行計算系統低連通度網絡的高效傳輸技術,提升低連通度網絡下的傳輸效率;基于大規模并行計算系統故障特征的容錯優化加速技術,進一步提升系統容錯性能。最后,基于相關成果,構建起可驗證的并行計算系統函數庫、仿真軟件和原型系統,轉化落地,解決實際問題。
基于優秀的科研成果和突出的貢獻,近年來,胡燏翀先后榮獲:2018年獲湖北省科技進步一等獎;2021年獲國家重點研發計劃青年科學家項目;2022年入選國家“萬人計劃”青年拔尖人才等。他的個人事跡被央視新聞聯播、學習強國、央視新聞、湖北衛視等多家媒體報道。截至目前,已經獲得19項專利授權(8項第一),其技術應用于海康威視、華為、浪潮、阿里、中興、深信服等單位,大大降低了其產品存儲成本并提升了存儲性能。
數據存儲可靠性的科研之路任重道遠,隨著人工智能時代的到來,未來,數據存儲不僅要安全,還要響應更快,與人的互動更高效。胡燏翀將立足國家需求出發,繼續堅持創新、突破瓶頸,并致力于產學研結合,研發更多成果并實現轉化應用,服務于民族企業,為社會經濟發展創造價值,為國家數據安全保駕護航。