王靜娟
數據井噴時代來臨,誰能巧用數據,誰就掌握了智能發(fā)展的先機。

劉杰
網絡數據挖掘、自然語言處理、人工智能,簡單來說,這3個詞匯串聯起南開大學人工智能學院教授劉杰的絕大部分研究。那么,這三者是什么?又究竟有怎樣的關系?在劉杰的娓娓道來中,答案逐漸明了。
網絡數據挖掘,簡單來說是從海量的數據中抽取出潛在的、有價值的知識(模型或規(guī)則)的過程。如果說互聯網數據猶如星辰密布,那么拋開那些雜亂的群星,還有一些被稱為“星座”的特殊輪廓。在數據的世界,“星座”是具有復雜結構性的數據,譬如序列型、網絡型數據。
劉杰說,傳統(tǒng)的機器學習大多是以單個數據為單元進行數據集上的模型學習,考慮的信息相對孤立?!白匀徽Z言等序列型數據則不同,它看重序列歷史信息,關注承上啟下,將樣本在序列上下文中進行判斷;社交網絡等網絡型數據,需要搜集個體社交、交互情況,依據成型的網狀環(huán)境綜合判斷得到結論?!眱烧呤羌瓤紤]樣本自身特點,又注重結構情境影響的典型代表。而這也給研究增加了不少挑戰(zhàn)。不僅如此,諾大的數據汪洋中,精準搜集、定點捕撈相當于大海撈針。此外,劉杰還指出,文本作為互聯網上的主要信息載體有著一個明顯的特征,那就是寫法隨意,不受語言表達方式的限制,與正規(guī)的文章之間橫亙著一條顯著的界限。這也直接造成了語言語義的識別困難。
那么險阻重重,迎難而上的價值究竟是什么?“綜合網絡結構和文本信息,能夠更好地理解語義,準確完成知識發(fā)現、人機對話、智能問答、輿情分析等諸多人工智能任務”,劉杰提出了最直接的研究價值。
他坦言,自己近幾年將主要精力放在網絡數據中的自然語言處理方面,尤為關注的是網絡數據挖掘與自然語言處理相結合。這樣做,歸根還得說到網絡信息的主要媒介——文字。“語句由單字構成,對它進行判斷建模才能進一步識別句子中的特定內容?!崩?,其中包含的關鍵人名、地名等。在自然語言處理的角度下進行網絡數據挖掘,相關機構能夠迅速了解互聯網的熱門話題,甚至搞清楚大眾對某一事件的普遍看法。“這可以幫助企業(yè)了解自身產品的特點,摸清楚輿情?!?/p>
作為具備悠久歷史的研究方向,自然語言處理研究還不斷開發(fā)“新技能”。隨著人工智能的誕生進化,算法、算力、大數據研究日趨成熟,自然語言處理方向也迎來了新浪潮,對話機器人便是典型的范例。在劉杰的介紹中,其廣泛應用于電商客服、個人助理等服務領域,有效節(jié)省了人力和經濟支出?!皩υ挼韧谧寵C器人運用自然語言算法去閱讀理解和交互,除了準確理解語義,還得生成自然語言答案?!彼枰诶斫馊祟愓Z言的基礎上給出合理答復。
不管是理解還是反饋,劉杰說皆不是易事。區(qū)別于許多動物普遍具有的視覺、嗅覺等基本感知能力,語言是人類特殊的關鍵認知能力?!盎靖兄芰Λ@取自然界中的信息。而語言經過創(chuàng)造和傳承,則包含更深刻的邏輯性、常識性、文化性,是更高層次和難度的智能體現?!边@種獨特的智慧形式,也促使自然語言處理成為人工智能發(fā)展的重要一環(huán)。
從業(yè)多年,對劉杰來說,在環(huán)環(huán)相扣的人生各階段,兩次訪學經歷令他印象深刻。他在一群優(yōu)秀的科研學者身上學到了科研方法、治學態(tài)度,還擴寬了研究思路。在校內,他勤懇地開展科研工作;走出校門,在工業(yè)界研究機構,劉杰還接觸到不同的科研風格。他說,高校與企業(yè)的環(huán)境相輔相成,自己正是在兩者的熏陶下夯實基礎。
憑借在國內外的經驗積累,劉杰于南開大學任教后打響了獨立科研征途的第一槍。他主持了自己首個國家自然科學基金項目“基于深度學習的結構化預測模型研究”。當時,深度學習的研究熱潮剛剛興起,劉杰作為第一批“吃螃蟹”的人,以深度學習為手段去研究序列型數據建模。該項目也為他后續(xù)工作拉開序幕,密切聯系了視頻內容的動作識別、自然語言的關鍵信息識別等任務。
“近期,我們又開展了一個新的自然科學基金項目,叫作‘基于跨模態(tài)的網絡表征學習’。”劉杰說,跨模態(tài)是項目關鍵詞,即網絡數據從單模態(tài)轉變?yōu)槎嗄B(tài)。而所謂模態(tài),如圖像、文本、聲音等具備結構或屬性的信息,每一種代表一種模態(tài)。“在互聯網,描述同一事件的模態(tài)可能是文字、聲音,甚至還包括圖像。不同模態(tài)信息之間并不是獨立的,而是存在語義上的互補。為了有效提升表達的質量,我們希望采用合理的手段來融合多模態(tài)信息,將它們綜合體現在一個模型里。”不過,這是一個難題,讓劉杰的研究工作面臨挑戰(zhàn)。
“研究長時間沒有突破口,直到有一天,從另外的一件事情反而得到了啟發(fā)?!彼忉屨f,如果將網絡數據轉換為不同模態(tài)下的網絡,將模態(tài)轉化視作語言的翻譯,就能夠利用機器翻譯的思路,從而設計一種自我翻譯的網絡表示學習模型來解決問題。紙上得來終覺淺,經實踐證明,劉杰采取的思路和辦法十分有效,相關成果匯總成的論文被頂級會議和期刊發(fā)表?!斑@件事情也讓我看待問題、事情,嘗試多轉換角度。你怎樣去審視問題,實際就決定了有哪些可選的思路或者方案。只有換了視角,才能跳出原有的局限?!?/p>
即便肯定了“靈感”的重要作用,但劉杰同時也強調,這一切是建立在良好的學科基礎、豐富的知識積累之上。不論是在KDD、AAAI、IJCAI、IEEE TKDE等國際頂級會議和期刊發(fā)表論文,還是獲得天津市科技進步獎二等獎、2017CCF大數據與計算智能大賽特等獎及一等獎等榮譽,都和劉杰自身的長期積淀有緊密聯系。“一個想法的閃現,其實是知識體系和思考方式等共同作用的結果。前期在理論、算法上持續(xù)地研究是必備的基礎。”
在談及工作壓力的來源時,劉杰認為,學者除了關注前沿研究進展,還理應重視理論與產業(yè)融合。“如何將企業(yè)實際問題轉化成一個可以用模型、算法來解決的理論問題,這其中不止涉及一個問題,而是很多問題?!币皇且鞔_企業(yè)應用問題,深入到各個部門了解情況,“這不光是走流程,還得站在理論研究的背景和基礎條件上聽意見,發(fā)掘工作特點,找到問題癥結”;二是問題的轉化與建模,將發(fā)現的應用問題轉化為計算機算法所對應的問題,進一步實現算法、程序的搭建。
摸底、布局把好關,劉杰將工作做好、做細、做實的另一法門,便是專注。他結合自身的求學、從業(yè)經歷特別指出,學術和應用上保持寬廣視野的同時,要注意避免過于發(fā)散的思維?!皩Υ恳患虑椋仨毮軌蜢o下心來思考并進一步挖掘更深層次的內容。也要往前看,想一想現在做的事情對未來會產生怎樣的影響。”劉杰表示,迄今仍會兼顧理論、應用兩個層面,但不會過分寬泛地涉獵。“我通常在一個點或者若干個關鍵點上研究理論和前沿應用。基礎理論幫助我快速理解前沿的應用,更好地解決問題。反過來,應用也是一種導向,讓我知道社會的需求在哪,我該朝著怎樣的理論方向去研究。”前沿應用是基礎研究的出發(fā)點,理論基礎是實際應用的落腳點。對劉杰來講,理論和應用兩條腿走路,可以走得更遠、更穩(wěn)。
團隊發(fā)展方面,劉杰對不同階段、不同訴求的學生采取針對性指導?!爱厴I(yè)要去企業(yè)工作的,就著重培養(yǎng)他們的動手能力;有進一步學術上深造打算的,就會根據發(fā)展路線提供學術能力鍛煉的機會。我們團隊有很多優(yōu)秀的學生,既能兼顧學習,在科研上也做了大量的工作,包括參與論文的發(fā)表、獲得科研競賽獎勵等。這些都很好地鍛煉了他們的能力。”對于人才的培養(yǎng),劉杰提倡依據學業(yè)階段“因時制宜”,還明確了工作認真、保持好奇的重要性。
面向未來,劉杰表示,通過數據分析、挖掘和模型預測來替代人類開展智能化工作是大勢所趨,“不過因為算法、模型等局限性,人類距離完全的智能化階段還有距離”。他的工作契合時代發(fā)展,特別是當大數據挖掘和人工智能逐漸滲透多行業(yè),變革成為正在進行時。