李 剛

王鵬在巴黎
在復旦大學計算機科學技術學院,有一個人每天早晨不到7點,就早早來到辦公室忙碌,有時是查閱科研資料,有時是處理未完成的工作,有時只是靜靜思考一些科研中沒有解決的難點,他就是復旦大學計算機科學技術學院教授王鵬。
辦公室可以說是王鵬最常“打卡”的地方,他每天都要處理大大小小多達幾十件事情,弦繃得緊緊的,有時候忙起來經常不知早晚。盡管做的工作很費腦筋,神經時常處于高度緊張狀態,但對王鵬來說,能夠做有意義的事情,就是自身價值的最好體現。
多年來,王鵬一直在工業物聯網大數據、智能運維等研究方向上潛心鉆研。他帶領團隊對數據進行高效的收集、存儲、處理和應用,充分發揮出數據應有的作用。“我們所做的研究一來是要對工業大數據進行管理,包括如何存儲、查詢數據;二來就是要對收集到的數據進行分析,比如工業生產中遇到故障需檢測時,這就需要通過對數據進行分析來發現和診斷故障。”簡短幾句話,看似王鵬已經將自己的科研工作介紹完畢,但背后往往是常人難以想象的付出與堅持。尤其近年來,“大數據”一詞“火”遍國內外,其影響力之大,已經滲透到各行各業。在各種數據呈爆炸性增長的同時,傳感器網絡、物聯網、云數據中心、移動互聯網等多種新技術的發展也相應推動了監測型應用的快速發展,并迅速積累了海量的監測型時間序列歷史數據,這對如何高效查詢和分析處理這些數據提出了更高要求。“如何快速查詢處理數據和有效分析數據,是我們正在做也一直會做的事情。”王鵬堅定地表示。
采訪過程中,“數據管理”是王鵬提到次數最多的詞。要知道,過去計算機一般都以計算為中心,而近年來,眾多領域的專家學者都逐漸認識到了數據的重要性。在新的科學時代面前,傳感器網絡和物聯網、工業4.0、云數據中心、移動互聯網等一大批新技術得到了快速發展,也造成了機器產生的時序數據的爆發式增長。面對大規模的監測型時間序列歷史數據,科學家意識到數據的應用早已超過傳統計算的范圍,從這些海量數據中尋找科學規律,并對數據進行高效的查詢和分析處理變得越來越重要,這也正是王鵬團隊亟須解決的問題。
王鵬表示,機器產生的數據和互聯網上的主要由人產生的數據存在很多的不同。對海量機器數據的加工和處理存在著諸多困難。之前大多數做法僅是將數據收集到數據庫里,收集之后卻不知該如何處理。這些數據不僅不能發揮作用,反而會成為新的負擔。并且,機器數據有其獨特之處。在監測型應用中被監測的對象不僅結構復雜多樣,其數據還具有海量、異構、低質等特性,這些特點無疑對數據的管理、查詢和分析都提出了更大的挑戰。
科研中遇到的困難和挑戰并不可怕,王鵬從2016年開始,就帶領團隊展開對國家自然科學基金“大規模監測型時間序列歷史數據的查詢和分析關鍵技術研究”這一項目的探索,希望能在監測型時序數據的處理和大數據查詢分析等方面尋找到新的突破。
談起與數據打交道,王鵬回憶:那是源于進入21世紀后,以物聯網、云計算、移動互聯網為代表的新一代信息技術快速發展,他發現研究數據對未來多種行業的發展很有必要。恰巧那時“智慧城市”興起,它同樣是一種運用新一代信息集成技術促進城市規劃、建設、管理和服務智慧化的新理論和新模式。大數據在“智慧城市”建設中扮演很重要的角色,王鵬介紹,他所做的項目研究與“智慧城市”有異曲同工之處。例如,團隊以橋梁為研究對象,他們基于橋梁健康監測等實際應用需求出發,分別從統一的數據表示模型、數據組織方式、查詢處理和分析處理4個方面展開研究。幾年來團隊所做的努力對監測型數據處理和大數據查詢分析研究產生了重要的推動作用,并應用到多個大型橋梁上,為橋梁的健康養護提供了快速的數據支持。

王鵬在德國參加達堡論壇時與參會人員的合影
數據作為重要且寶貴的資源與財富,不僅是科研的戰略高地,也正在一點點改變科研工作者的研究方式,通過對大數據的深入挖掘,取得新的科學發現已經成為數據研究領域的主流研究手段,諸如人類基因組計劃、全球變化研究等,浩瀚的數據量正不斷產生著重要的科學發現。
近幾年來,王鵬團隊取得的重要科學發現集中于針對時序數據的查詢和分析,他們所研究的時間序列數據是在一系列的時間點上所觀測到的數值序列,其廣泛存在于商業、金融及科學研究等多個領域。而監測型時間序列數據,可簡單看做是通過外部的表征現象來觀測被監測對象的內部機理,這種觀測最主要的目的是要在時間序列數據、被監測對象內部狀態和外部影響因素三者之間建立起一座查詢與分析的橋梁,進而了解被監測對象的內部狀態和外部影響因素。
為了搭建好觀測數據之橋,研究過程中,王鵬團隊一一克服了被監測對象規模龐大、結構復雜、狀態多樣等多種難題。“其中監測型時間序列數據的復雜性為我們對數據的查詢與分析帶來極大的挑戰。”回想起那段集體奮戰的日子,王鵬仍歷歷在目。他提到,監測型時間序列數據的復雜性主要表現為海量、異構、低質3方面,想要在實際應用中對海量的監測型時間序列進行處理,就需要針對這3方面復雜性表現,建立一種集內部狀態、外部影響因素于一體的數據統一表示模型,并在此基礎上進一步研究高效的分布式數據組織技術、查詢處理技術和分析技術,從而建立相應的原型系統,來實現對海量監測型時間序列的處理需求。
為此,在王鵬團隊的努力下,他們在時間序列數據處理方面取得了多項研究成果。團隊在時間序列相似性查詢方面提出的DSTree、KV-match等方法,受到國際同行的認可,在數據庫頂級會議VLDB上,團隊發表的綜述論文提出的DSTree索引被推薦為相似性查詢的最佳算法。并且,因為在該領域的貢獻,王鵬被邀請參加了2019年在德國舉辦的以“Data Series Management(序列數據管理)”為主題的達堡論壇(Dagstuhl Seminar)。達堡論壇是世界頂級的計算機領域研討論壇。王鵬團隊提出的pHMM時間序列狀態切分發表在數據庫領域頂級會議SIGMOD上,并在后續的多個領域Tutorial(教程指南)上被介紹。
新技術的研發是為了什么?在王鵬心中,沒有什么比研究成果落地更重要的了。團隊提出的分類算法、相似查詢算法、狀態切分算法等,相繼應用到高鐵、船舶、衛星、橋梁等多個重要制造領域和基礎設施領域。例如,在高鐵軌道的異常檢測中,被用于軌道多波不平順、路基拱起等多種異常情況;在衛星測試中,被用于進行衛星工況的自動識別和閾值動態調整。
為了讓大數據分析的理論和算法的珍貴科研果實有更廣泛的實用價值,王鵬近年來也在思考如何形成面向個性化、服務化和智能化等模式的企業制造大數據分析算法庫及開發系統,以及系統開發成功后又該怎么與企業特點相結合,以此來解決企業在實際應用過程中出現的問題。
從2020年開始,王鵬帶領團隊展開新項目“制造大數據分析關鍵技術與算法”的研究,目前已經取得一系列階段性成果。例如,團隊針對制造業領域和數據的特點,就制造業大數據中存在的多階段跨時空尺度等問題進行開拓創新,包括以數據耦合的形態定義為基礎,梳理和研究制造領域數據耦合關聯的整體分類和方法等,相關方法可以為離散和流程制造領域中的預測性維護、異常診斷溯源等提供一種新的解決方法。團隊還創新性地將機理和數據模型兩者融合在一起,為制造業中裝備的缺陷檢測、故障溯源、性能預測評估等提供了一種有針對性的精準服務模式。
在王鵬看來,科研團隊的成長與進步離不了“創新”二字。在團隊培養方面,王鵬也時常強調要用創新的思維展開研究,同時,創新也要務實,要能切實解決實際問題。這種思想也被帶進了王鵬的教學中,形成了一套清晰的教學邏輯。“培養學生就要讓學生明白自己在做哪些研究,需要解決哪些問題,這樣才能有針對性地去創新,去思考,明白該從哪些角度研發新技術來解決問題。”王鵬表示。
從事數據管理與分析的這些年,數據時時刻刻都在王鵬的頭腦中盤旋,他也一直想要在數據管理與分析的研究中找到更多的突破口。馬克思曾說過:“在科學上沒有平坦的大道,只有不畏勞苦沿著陡峭山路攀登的人,才有希望達到光輝的頂點。”時光匆匆,盡管已經研究數據多年,但王鵬追尋數據光亮的赤忱始終未變,他也會帶著最寶貴的科研初心,繼續沿著數據之光前行。