胡玉枝



謝海華及他的研發團隊協同方正IT旗下方正電子、北大醫信、方正阿帕比等企業,在出版、媒體、教育、醫療等領域規劃了一系列技術上可行且有行業應用前景的應用方向。
對面這位溫文爾雅,沉穩靦腆的像在校大學生的男孩,就是謝海華博士。若不是事先有些了解,很難將他與高級技術專家聯系起來,但正是這樣一個大男孩,承擔起北大方正集團數字出版技術國家重點實驗室知識服務方向的科研重任。
正在嚴重感冒的海華博士,很耐心地解答了所有問題。他厚厚的鏡片下,一雙深沉的眼睛,透著學者的嚴謹和誠懇。雖然他的思緒和敘述,不時地被他壓抑的從胸口而出的咳嗽打斷。
說起今天的成就,謝海華謙虛地說是團隊共同努力的結果。
海外求學
謝海華,典型的80后,出生于江西上饒。在清華大學獲得碩士學位后,他進入美國愛荷華州立大學就讀計算機科學博士,并在美國留學深造五年多。
說起五年多的留學感受,謝海華停頓了一下,好像在運用他的理科思維整理那幾年的求學軌跡。他最深切的感受是,開闊了視野,接觸到世界領先的計算機科學與技術,對大數據、人工智能以及自然語言處理等專業技術的認知有了不同維度的提升。國外的學術氛圍、教學模式、管理體系不同于國內,非常自由和開放,并且學術交流十分方便。謝海華非常珍惜這個學習機會,十分刻苦地學習和研究,并且取得了出色的成果。
有關海外求學的經歷,謝海華講了一個有趣的故事。美國的宗教氛圍特別強烈,經常有人直接去住的地方傳教。有一次傳教士來敲門的時候,謝海華讓他的室友跟他們說自己不在,但他在說這句話的時候,被傳教士們聽到了,一時有點尷尬。雖然之后傳教士沒有再來,但是謝海華的心里卻很過意不去。雖然他是由于學習緊張,對別的活動都沒有興趣,但是當謝海華一本正經地說出這些話時,讓你覺得他特別善良。
留學期間,讓謝海華最難忘的是第一次寫論文的經歷。大部分研究生的導師會親自指導學生的論文,不過他的博士導師并沒有。在整個過程中,導師基本沒有過問,只是一個師兄在與謝海華溝通。謝海華很認真地、下了很大功夫地撰寫論文,夜以繼日地寫了十多頁,就在準備投稿的時候,請導師過目把關。沒想到,導師拿過論文來,基本上全部否定了,并且把十多頁的論文刪減到最后只剩下四頁。雖然論文最終發表出來了,但它本來是一篇很有分量的論文,卻最終變成分量很輕的了。浪費很多時間和精力,謝海華感到很郁悶。但是這次的經歷,也給謝海華之后的論文撰寫提供了經驗。他認識到要多跟導師溝通,爭取導師的指導,后來寫出了好幾篇很有分量的專業論文,發表在權威雜志上。
學成歸來
2015年5月,謝海華在愛荷華州立大學完成畢業論文,獲得計算機博士學位。當時有幾家著名的科研單位向他伸出了橄欖枝,但是在留與歸之間,他沒懸念地回到了祖國。因為他的根在中國,家在中國,最重要的是父母早就希望他回來了。其實,當初他剛去美國留學時,父母就很不舍得讓他去。美國太遙遠,來去很不方便,而且與國內有十幾個小時的時差,這樣的時空距離無法逾越,父母和姐姐非常希望他留在身邊。但是作為計算機專業的研究生,謝海華認為很有必要走出去,看看世界先進的計算機技術。
回國后,2015年10月,謝海華進入海淀園博士后工作坊北大方正集團分站,成為與北京大學計算機科學技術研究所合作培養的企業博士后,從事知識服務和自然語言處理技術相關研究。博士后期間,謝海華的研究方向涉及領域知識體系構建、知識庫構建及準確性校驗,媒體&出版行業文本資源分析和處理等。其相關的研發成果應用于方正公司的“中華數字書苑”和“學知搜索系統”等產品和服務,以及紡織出版社的“中華服飾文化云平臺”等項目。基于研究成果,他發表了3篇論文,申請5項專利。博士后期間的工作經歷、經驗和成績,對于謝海華現在及以后的學術研究方向的深入和廣闊,以及學術眼界的開闊和提升,都起到了極為重要的影響。
“中華數字書苑”是方正阿帕比推出的專業優質華文數字內容整合服務平臺,收錄了建國以來大部分的圖書全文資源、全國各級各類報紙及年鑒、工具書、圖片等特色資源產品,旨在為圖書館、學校、企業、政府等客戶及其所屬讀者提供在線閱讀、全文檢索、離線借閱、移動閱讀、下載、打印等數字內容和知識服務。“中華數字書苑”,還多次作為國禮贈送國際友人。
在談及這些項目時,謝海華做了詳細講解,以及他在項目當中擔負的責任。
謝海華在中華數字書苑和中華紡織文化云平臺(華服志)等項目中,負責了知識庫置信度評估這個任務,設計算法評估知識庫中的三元組的置信度,實體的置信度,以及知識庫本身的置信度。并根據置信度的評估結果,選出置信度較低的三元組和實體進行人工校驗,以去除錯誤的三元組和實體,提高知識庫的數據質量。另外,他還負責設計算法計算實體與資源、實體之間、資源之間的關系強度。根據關系強度,可以在檢索階段,返回關系強度較大的相關資源,以提高檢索質量。在由國家新聞出版署指導、中國新聞出版研究院主辦的第八屆中國數字出版博覽會上,“華服志”平臺作為知識服務的旗艦項目,舉辦了專門的平臺發布活動。
2017年,由于方正集團在數字出版和知識服務領域的技術積累和行業優勢,特別是方正旗下的數字出版技術國家重點實驗室的濃厚學術氛圍以及崇尚自由探索的技術精神,謝海華在博士后出站之后選擇留在數字出版技術實驗室,并以技術負責人的身份,帶領研發團隊進行知識服務關鍵技術的研究,深耕數字出版行業的應用技術的研發。實驗室重點研究數字出版領域中普適性文檔技術、自動排版技術、數字出版內容的自適應重組技術等關鍵技術,促進數字出版產業的技術進步,通過產學研合作在數字內容的生產、發行和服務等領域,進行技術創新和產業化應用、推廣,并推動數字出版產業相關標準的制定。他們還將結合人工智能、VR/AR等新興技術,研究對未來數字出版發展具有重要影響的前沿技術、數字出版領域的關鍵應用基礎技術,形成公共技術平臺,并促進成果轉化。
2018年5月30日,根據《依托企業建設國家重點實驗室管理暫行辦法》,科技部組織對99個企業國家重點實驗室進行了評估,依托方正集團建設的數字出版技術國家重點實驗室順利通過科技部組織的評估。
從2017年擔任國家數字出版技術重點實驗室技術負責人以來,謝海華及他的研發團隊已與方正IT旗下方正電子、北大醫信、方正阿帕比等企業開展深入合作,在出版、媒體、教育、醫療等領域規劃了一系列技術上可行且有行業應用前景的應用方向。這個團隊在媒體大數據分析、用戶行為大數據分析、學術知識庫構建等領域已開展專項研究,探索自然語言處理領域各種技術、算法和工具在工業界的應用和改進,以及在“人工智能+”新的技術發展階段,對各個業務領域拓展起到積極的推動作用。
在這些產品和項目中,謝海華團隊研發的成果涉及核心及基礎性技術研究,包括機器寫作、信息抽取、語義分析、智能審校等。這些基礎技術的研究支持了各個企業與出版社、高校和圖書館的合作,以及企業自身的知識服務和大數據分析等方向的技術探索。
學以致用
踐行王選院士“科技頂天,市場立地”的精神,并依照企業國家重點實驗室的產學研結合的模式,謝海華及其團隊在許多研究方向上取得了大量產學研成果,或者規劃了可行而且詳實的研究方案。主要的方向和成果有以下這些方面:
第一,在學術大數據平臺建設方面,他們已經構建了一個學術大數據平臺,包含學術會議庫,學術論文庫,學者信息庫,并含有知識提取和信息挖掘功能。學術大數據平臺可以作為知識挖掘和信息提取研究的基礎數據庫?;趯W術大數據平臺的學者影響力預測、學者科研興趣分析、學者參會信息分析等,可以為公司或者科研機構提供信息咨詢服務,例如:為高校引進人才時提供候選人的科研能力和學術潛力評估。
在2017年8月至10月間,謝海華和他的同事們,代表數字出版技術國家重點實驗室知識服務團隊,參加了“2017開放學術精準畫像大賽”, 并在400支參賽隊伍中取得第一階段第二,第二階段第五的佳績。這次大賽,是基于學術數據挖掘系統提供的原始數據集,設計準確高效的方法提取學者的個人描述信息,分析學者的研究興趣,以及預測學者的論文引用情況,從而更好地面向學術界提供專家信息、評估學者研究成果、介紹科學研究進展、展示學術發展動態。在比賽中,他們運用機器學習和自然語言處理的專業知識,探索并試驗學者信息挖掘和影響力預測的算法和技術,提升了信息檢索、文本信息處理和數據挖掘方面的能力,積累了大規模數據分析和計算方面的經驗,展示了實驗室的技術水平。
第二,在機器寫作方面,他們運用生成式和抽取式相結合的方法,實現新聞文本摘要的生成。包括:單篇文檔自動摘要(100字左右)生成,而且摘要的語句通順;多篇文章的自動標題(20字左右)生成;多篇文章的自動摘要(150字左右)生成。現在,這項成果已在公司內部的新聞部門應用,并得到廣泛好評。
第三,在智能問答方面,他們與集團子公司的具體業務部門溝通討論應用場景,并實施了客服領域的自動問答。另外,他們還積極探索基于知識庫的智能問答、多輪對話等領域的最新技術,努力將問答系統領域的學術成果,轉化為數字出版技術實驗室的工程成果。
第四,在智能審校方面,在出版行業里,待出版的文檔中往往存在很多語法和語義錯誤,需要耗費審校人員大量的時間來進行校對?,F有的自動審校工具,例如黑馬校對,只能找出文檔中的簡單語法錯誤,比如錯別字,拼音錯誤等。然而,目前沒有成熟的技術能夠自動檢查出文檔中的復雜語法和語義錯誤,例如:語句中的主語和謂語等成分殘缺、主謂搭配不當、褒貶顛倒等。而這些錯誤的校對,也恰恰是審校人員工作的重點和難點。因此,審校工作業界對審校的效率和準確率的提升有強烈的需求。而智能審校這項研究,主要針對的就是,待出版文檔中的復雜語法錯誤和語義錯誤,進行自動識別和糾錯,以節省審校人員的工作量,并提高出版物的質量。
智能審校作為知識服務方向今明兩年的重點工作,謝海華傾注了大量的時間和精力推動該項目相關技術的研究。2018年12月27日,謝海華參加了方正電子與中國出版協會編校工作委員會、數字出版技術國家重點實驗室舉辦的智能輔助審校專家研討會,探討在人工智能時代,如何運用自然語言理解等前沿技術為編輯人員減負增效。
當前,我國正在從出版大國向出版強國發展,出版物內容編校質量一直是出版行業關注的重點。人工智能技術、自然語言理解技術、機器深度學習技術的發展,為出版行業提升出版物編校智能化程度、降低人工勞動強度、提高工作效率提供了新的解決方案。在此背景下,方正電子聯合中國出版協會編校工作委員會、數字出版技術國家重點實驗室,邀請出版行業專家和技術專家就人工智能技術如何運用在內容編校領域進行研討。會議當中,謝海華博士介紹了人工智能技術在文檔審校修改中的應用,以及自然語言理解基礎技術、語言模型、機器學習模型、深度學習模型在文檔審校修改方面的應用情況,分享了人工智能技術在單位格式自動校核和標點符號審校修改方面取得的進展。他還介紹了方正電子在圖表公式序號檢查、上下文內容查重、全半角、規范用語等十一項檢查項的產品情況,向與會專家概括了智能輔助審校產品下一步研發的重點工作。
出版社的專家們充分肯定了方正集團致力于新聞出版行業的技術創新的初哀和出發點,需要從行業的角度解決行業的共同需要,認為智能輔助審校的產品方向、目標和定位是正確的,技術路線是清晰的。與會專家建議,方正電子和數字出版實驗室應該充分考慮內容編校的復雜性、艱巨性和難度,進一步明確產品的邊界。明確在內容“審”的方面哪些是機器能解決的問題,哪些是編輯人員人工解決的問題,立足為編輯“減負”,同時與國內專業權威機構建立長期的合作關系。
謝海華認為智能輔助審校專家研討會的召開,為方正電子智能輔助審校產品的研發明確了定位與發展方向,大力推動了方正電子基于新聞出版行業的技術創新。他說,面對出版業的發展和需求,方正電子和數字出版技術國家重點實驗室將繼續致力于出版行業的技術創新,通過運用人工智能等前沿技術,提升出版行業編校水平,為編輯人員減負增效。
第五,在媒體大數據分析方面,他們計劃構建一個媒體大數據分析系統,包含新聞文本的轉載、侵權和同題檢測,新聞線索發掘和新聞影響力分析。該項研究的創新點是基于新聞文本特點和媒體業務場景的知識服務應用研究。中國人民大學新聞學院作為國內新聞傳播學的頂尖研究機構,也和謝海華團隊合作,為這項研究提供專業的媒體傳播理論分析。因此,這項研究的應用前景非常廣闊。
不久的將來,謝海華和他的團隊在已有的技術成果以及行業前沿的探索的基礎上,將致力于不斷發展方正集團在人工智能領域的技術,推動現有產業革新,并努力開拓新的產業發展方向,助力公司在當今人工智能的大潮當中不斷前進,成為國內領先的創新科技企業。對此,謝海華博士充滿了信心。
鏈接
謝海華,1983年生,博士畢業于美國愛荷華州立大學計算機系。2015年進入海淀園北大方正集團企業博士后工作分站(與北京大學聯合培養),出站后留站,現任數字出版技術國家重點實驗室高級算法研究員,知識服務方向技術負責人。博士后期間主持多項數字出版行業關鍵應用技術創新項目,運用人工智能技術探索并實現了專業出版領域的數字資源大數據云平臺,已取得數千萬經濟效益;發表EI論文14篇,申請發明專利14項;2018年入選北京市海聚工程青年項目,獲得“北京市特聘專家”榮譽稱號,并獲評方正集團高級技術專家。