吳應清

石川
當人們點擊購物網站上搜索框的那一刻,一個個與搜索人相關的推薦詞就會立刻出現。這些推薦詞精準定位了人們的喜好和需求,不僅促進了購買欲望,同時也為電商平臺創造了大量的經濟價值。
這些神奇而便捷的功能是怎么實現的?它其實得益于一批又一批深耕數據分析科研工作者的努力,北京郵電大學教授石川是其中一員。據石川介紹,異質圖是一種具有多種節點類型或多種邊類型的圖數據結構,用于刻畫復雜異質對象及其交互,具有豐富的語義信息,為圖數據挖掘提供了一種有效的建模工具和分析方法。推薦詞的產生,正是由于用戶、商品和查詢詞之間存在著交互關系而產生了異質交互圖,基于用戶的訪問信息、使用習慣等,可以進行更準確的關鍵詞推薦。
如今,關于異質圖的研究不僅在工業界中得到了廣泛的認可和應用,也深入到我們日常生活的方方面面。它就像一棵枝繁葉茂的大樹,充滿生命力??蛇@樣一棵大樹,曾經也是一粒默默無聞的小小種子。
異質圖的分析一開始并不是熱門的研究方向。石川接觸到這方面研究的時候,它正處于低谷期,在國際上也鮮有人關注,沒有人知道這項研究的未來在哪里,就這樣,石川成了當時國際上少數幾個堅持研究的人。“我很看好這個方向,它提供了更好的建模方式,分析方法也很新穎,在一些應用中也得到了不錯的效果。我一直在等待一個時機?!本瓦@樣,在最初的時光里,石川一直默默地堅持在這個方向的研究中,就像一顆沉默的種子,等待遇到適合自己生根發芽的環境。
對于石川來說,堅持并不是一件意外的事。1997年,石川就讀于吉林大學計算機專業。那個年代,電腦是稀罕物,互聯網也剛興起。“在大學時我們做了一個組裝機,希望通過自己拆裝,了解電腦的內部結構。我在裝機時機器冒煙了,把我嚇壞了,還好是數據線的問題不是核心部件壞了……還記得第一次接觸互聯網,電腦城為了吸引大家,允許免費上網10分鐘。排了半天隊,終于輪到我的時候,我發現自己根本不知道該怎么用,這些事情都讓我印象很深刻……”這些小故事也許只是日常生活的小片段,但也正是這一件件難忘的小事,讓石川真正走進了計算機的世界。
大學畢業后,石川沒有直接工作,而是決定考研。當時,畢業后選擇繼續讀研的人并不多,這是一個“冷門”的決定。但石川卻選擇了去武漢大學繼續深造,正是這個選擇讓他真正喜歡上了做研究。在讀研期間,石川成為康立山教授的學生??盗⑸浇淌诙嗄陥猿肿鲅芯俊6δ咳鞠?,石川漸漸產生了想從事科學研究的念頭。當時,學校每周都有討論班,討論班崇尚自由平等的氛圍,石川在那里接觸了各種新思想,還發表了論文。碩士畢業后,他到中國科學院計算技術研究所讀博士?!白x博剛開始我經歷了一些挫折……是史忠植研究員給我了繼續學習的機會。也正是在這段時間里,我真正理解了勤奮和時間的重要性。”求學的經歷幫助石川不斷進步,成了一個勤奮自律的人。
終于,改變人生的事情發生了。2010年秋天,石川前往美國伊利諾伊大學芝加哥分校進行博士后研究。在那里,他成為數據挖掘領域泰斗俞士綸教授的第一個中國內地訪問學者。也是在那里,他意識到了國內外研究的差距,更加如饑似渴地學習。那時,異質圖分析在國際上剛出現,石川就這樣開始了這項并不熱門的研究。異質圖的研究在起步時,在國際上一直處于低谷,直到2016年、2017年,網絡表示學習的方式才漸漸開始在工業界使用。到了2018年,異質圖神經網絡研究更是迎來了爆發期,在工業界大規模應用。石川等人多年默默堅持終于待到山花爛漫。
雖然異質圖神經網絡的研究在工業界是熱門,但石川和團隊要面臨的挑戰卻變得更多了。他們之前一直從事理論研究,并未真正接觸過工業界中的實際問題。擺在他們眼前的首個難題是到底該如何建模。作為國內最早開始這方面研究的學者之一,石川沒有成熟的經驗可以借鑒,只能依靠自己。他花費大量時間和精力與企業深入交流,逐漸了解業務。在經歷了艱難而長期的摸索后,異質圖神經網絡得以真正在工業界得到應用。時至今日,石川所建立的異質圖建模方法已經在頭部互聯網企業成功應用了十幾個案例。
“在異質圖神經網絡方面的研究,我們是國際上最早開始的。在理論上我們一直處于引領地位,在實踐上也是最早把異質圖神經網絡運用到工業界當中的。”除了在國際上最早取得理論與實踐的成就,石川團隊所建立的異質圖建模和表示理論還解決了圖數據的復雜異質結構處理難題,不僅奠定了異質圖建模的理論體系,還推動了復雜交互系統建模從同質圖到異質圖的轉變。
在學習模型方面,石川的研究也有突破性的成果。他提出了可信圖神經網絡模型,緩解了圖結構知識的可信學習難題,突破了圖神經網絡模型的可信性瓶頸,探索了可信人工智能的實現途徑。除此之外,在技術平臺方面,石川設計了面向典型應用的圖學習技術,研發了開源圖學習平臺,攻克了實際工業應用中的結構知識利用難題,降低了圖學習的工業應用門檻,極大地促進了圖智能技術的廣泛應用。不僅如此,石川還率先將圖建模與分析技術應用到重要領域,除了上文提到的推薦系統以外,還有網絡安全領域。比如,異質圖神經網絡幫助支付寶中的花唄進行了風險管理,從用戶、商家和手持設備三者之間構成的異質圖中分析出用戶的行為模式,以此來判斷用戶是否存在用花唄套現的風險等。
曾經小小的種子等到了屬于自己發芽的機會,它克服困難,破土而出,最終長成參天大樹,結出了碩大的果實。
從2018年至今,石川已將圖學習技術廣泛應用到電商推薦、金融風控、客戶營銷等業務場景中,產生了顯著的經濟效益和社會效益。2022年,由石川作為項目第一完成人研發的“大規模復雜異質圖數據智能分析技術與規?;瘧谩表椖揩@得了中國電子學會科學技術科技進步獎一等獎。能夠取得如此優異的成績,除了石川本人的努力之外,自然也離不開其優秀的研究團隊。關于自己團隊的優勢,石川認為最重要的是圈內耳熟能詳的一句話——研究頂天,技術立地。
在研究上,團隊保持專注。正因為專注,團隊關于異質圖的研究才在國際上保持領先。團隊始終秉持技術一定要有實用性的理念。研究不僅是為了發表論文,更重要的是要思考研究可以應用在哪里,要落地。石川和他的學生會深入企業一線,和企業的業務人員進行深入地溝通交流,真正幫助他們解決實際中遇到的痛點問題。多年來,他們與諸多企業一直保持著良好的合作,研究取得的成果也真實地應用在很多業務場景中。
從2011年石川走上研究異質圖的道路開始,至今已有十幾個年頭。從最初的孤軍奮戰,缺少經費和人才,發展到現在能夠創建實驗室,組建一支穩定的團隊,石川一路走來實屬不易。他希望自己的實驗室能成為國際上同領域里知名的實驗室,做國際領先的研究。在實驗室老師和學生的建議下,實驗室最終起了一個響亮的名字——圖形數據挖掘與機器學習實驗室(GAMMA Lab)。同時,實驗室也創立了自己的公眾號,一方面推廣實驗室的研究成果,另一方面為宣傳圖計算領域的研究進展貢獻自己的力量。至今,公眾號已經發表了原創文章130多篇,粉絲上萬,成為同領域老師、學生,以及企業界人士主要關注的內容。
對未來,石川有著清晰的規劃:“在研究上,我還是專注于圖機器學習,希望在這個方向的研究上能夠在國際上擁有一席之地;在局部上,希望我們能夠起到引領作用;在產業界,我希望建立起國產圖學習的生態系統,讓圖學習得到廣泛的普及和應用?!弊鳛轭I域里“一棵茁壯成長的綠樹”,石川和團隊愿意追尋希望的光芒,枝葉生根,深入土壤,生生不息,創造出一片更具生命力的“圖學習”森林。