□ 劉婉茹
當今,人類社會正在經歷著信息革命和數字化浪潮,這是繼農業革命、工業革命之后的又一次歷史性巨變。誰能更好地認識和把握信息化大勢,誰就能贏得新的全方位綜合國力競爭。習近平總書記曾強調:“我們不斷推進理論創新和實踐創新,不僅走出一條中國特色治網之道,而且提出一系列新思想新觀點新論斷,形成了網絡強國戰略思想。”尤其是隨著網絡規模的不斷擴大,網絡流量成了最高速的數據流,稱為網絡大數據。如何感知、測量、利用這些網絡大數據就成為眾多行業面臨的難題,成為學者們探索科技前沿的研究熱點。
北京大學(以下簡稱“北大”)就有一位80后學者,他年紀不大卻已在網絡大數據研究領域頗有建樹:他在計算機網絡排名第一的國際會議SIGCOMM 2014上發表了一篇路由表查找論文,該論文是當時“近10年來大陸科研機構作為第一完成單位在該頂級會議上唯一發表的學術論文”。他在計算機網絡排名第一的會議SIGCOMM、數據庫方向排名第一的會議SIGMOD、大數據方向排名第一的會議SIGKDD這3個會議發表第一作者或通信作者論文共5篇。大陸單位尚沒有其他研究人員同時在SIGCOMM和SIGMOD這兩個會議上同時發表論文……他就是楊仝,北大信息科學技術學院網絡與信息系統研究所副教授。
顧名思義,網絡大數據即是指“人、機、物”三者在網絡空間中通過交互產生的,能夠通過網絡技術進行查詢和進一步使用的大量數據。IDC報告發布,據近年來大數據增長形式來看,到2020年,網絡大數據集合規模將實現35ZB。
飛速發展的網絡大數據好似一柄雙刃劍,既為人們深度挖掘
大數據功能和價值帶來了機遇,也對現有的網絡框架及處理方式帶來了新的挑戰,尤其是體現在網絡大數據的核心問題上,即實時轉發和網絡測量。其一實時轉發問題不難理解。如同大量車流會引發交通堵塞一樣,網絡流速度太快時,也易導致網絡擁塞、中斷,繼而使互聯網應用譬如微信、網頁等出現掉線、卡頓的現象。其二是測量統計。為了維護網絡質量,需要及時準確地了解整個網絡的運行狀況,如是否存在擁塞、受到攻擊等現象。但網絡流量太快就給準確測量帶來巨大挑戰。

楊仝(左)參加國際會議
明知山有虎,偏向虎山行。不斷挑戰、敢于突破正是科技取得進步的先決條件。作為該領域的探索學者之一,進入北大信息科學技術學院網絡與信息系統研究所后,楊仝就向網絡大數據的這兩個核心問題吹響了沖鋒號。他向記者解釋道:“大數據應用對現有存儲系統在性能、容量、可擴展性和可靠性等方面提出了重大技術挑戰。新型非易失性存儲器件(Non-Volatile Memory,NVM),如3D-Xpoint、憶阻器RRAM等,具有高性能、大容量和非易失等特性,彌補了現有存儲體系架構中內外存特性差異。基于NVM構建大數據存儲軟硬件系統,可以較好地滿足大數據存儲對容量、性能與功耗等方面的需求。”
2016年以來,他先后主持了兩項國家重點研發計劃的子課題研究,即“新型大數據存儲技術與平臺”的子課題與“高時效、可擴展的大數據計算模型、優化技術與系統”的子課題。能夠肩負這樣的重任,對于高校老師來說是一個挑戰更是一種鼓勵,是落實網絡強國戰略的光榮使命。
對于基于新型存儲器件研制自主可控的大數據存儲軟硬件系統,楊仝詳細地介紹道:“將重點圍繞基于新型存儲器件的大數據存儲體系結構、大數據異構融合存儲的高效系統軟件、大數據存儲可靠性理論與方法,以及大數據存儲評估理論與方法4個關鍵問題方面開展研究與實現,并研制出包括自主知識產權的新型存儲器件NVM的控制器芯片等在內的大數據軟硬件存儲系統。”
而在大數據存儲體系結構方面,楊仝將重點研究基于新型存儲器件的高性能和高可擴展性的存儲體系結構,研究新型NVM的控制訪問方法和協議,設計實現基于ARM64架構的NVM控制器芯片和基于x86 slave的NVM控制器等問題,以便實現支持系統的可擴展性。
實踐應用是對科研成果的最好檢驗。如今,楊仝的部分科研成果已取得了可喜成果。2018年,其發表于ACM SIGKDD 2018論文的Heavy Guardian算法在“今日頭條”數據中心得到應用,預計可節省軟硬件資源成本達1000萬元人民幣以上,具有良好的經濟效益。
“不積跬步,無以至千里”,對于楊仝來說,成功申請國家重點研發計劃項目、屢獲行業重要榮譽,這些都是有根可循的。早在博士3年期間,楊仝已經在這一領域顯示出自己的天賦,發表了多篇論文,獲得了國家獎學金、綜合一等獎學金、光華一等獎學金等。而他本人也被評為清華大學計算機系優秀畢業生。
在多年的科研歷程中,這份優秀一直跟隨著楊仝,并讓他一次又一次斬獲重要成果。在中國科學院計算技術研究所謝高崗課題組進行客座訪問期間,楊仝對路由器最核心的技術——路由查找發起挑戰。他和團隊其他成員在Intel x86 CPU等主流軟硬件平臺上實現了基于二維劃分思想的路由表查找框架,即SAIL算法。該算法框架的片內存儲空間最大只需要4MB。測試結果表明,該算法的查找速度比常用路由表查找算法提高了7~60倍。該算法后來部署到了華為公司的某項網絡產品中,華為的應用證明顯示:部署后,查找速度提高了一個數量級。
在計算機網絡領域最高水平的學術會議——ACM SIGCOMM 2014上,基于上述研究成果,楊仝發表了題為“Guarantee IP Lookup Performance with FIB Explosion(針對路由表爆炸增長,確保路由表查找性能)”的學術論文,成為“近10年來大陸科研機構作為第一完成單位在該頂級會議上唯一發表的學術論文”的第一作者,轟動業界。SIGCOMM對論文的質量和數量要求極高,質量方面要求具有基礎性貢獻、領導性影響和堅實系統背景,每年只錄用30篇左右的正式會議論文,錄取率只有百分之十幾。由于SIGCOMM錄用的論文大多數都會被廣泛引用、具有非常大的影響力,因此能在SIGCOMM年會上發表論文是所有通信、網絡研究者的無上榮譽。這一榮譽的獲得是對楊仝科研成績的肯定,也成為他科研進程中一座重要的里程碑。
春種一粒粟,秋收萬顆子。多年來,一直在網絡大數據領域默默耕耘的楊仝,如今也迎來了豐收的喜悅:成為中國大陸地區以第一身份單位發表ACM SIGCOMM論文最多(2篇)的作者,獲得了2018年度ACM SIGCOMM China新星獎,全國僅3人獲此殊榮。“是北大寬松的科研氛圍,研究所李曉明、代亞非、崔斌老師的大力支持,才使我有機會做出成績。”楊仝滿懷感激地說。初到北大時的那些往事,在他心中記憶猶新……
萬事開頭難。剛進北大時,楊仝沒有項目,也沒有學生,但辦公室、實驗室都需要繳納費用,李老師和代老師就主動幫他承擔了這筆費用,免去了他的后顧之憂。
與此同時,北大寬松的學術氛圍也讓他能夠在自己最感興趣的領域心無旁騖地搞研究。進入北大的這幾年中,楊仝90%的晚上、80%的周末都是在學校度過,寫代碼、做實驗幾乎成為他生活的全部。一分付出一分收獲,多篇頂級學術論文的發表就是楊仝對自己、對網絡所的最好回報。
興趣是最好的老師。熱愛學生的楊仝一直從學生的角度思考,希望能夠真正激發出學生們的興趣,從而取得更好的教學效果。“學生們都很聰明,我常常和學生們一起討論,如果有分歧,就用實驗來證明誰的想法更好,這種頭腦風暴更能激發學生思考。尤其是當你發現你的算法比以往的都要好特別多的時候,那簡直比發表論文還開心。”出色的科研能力、對學生們的悉心教導,不僅使楊仝連續兩年在北大信息科學技術學院年終考核中被評為優秀,而且他指導的兩名本科生畢業設計論文也被評為了“信科十佳本科畢設論文”。
“科技興則民族興,科技強則國家強”。在國家對科技創新高度重視的大背景下,在信息科學技術學院所有老師的共同努力下,如今北大計算機科學與信息系統學科已在2019 QS世界大學學科排名中躋身前20,在中國大陸高校中名列前茅。未來,楊仝還將奮力求索,用科研創新助力網絡強國的崛起。