文/張全
讓計算機擁有像人類一樣的語言智能、理解人類的語言,是自然語言理解的宏偉目標,也是當今信息時代面臨的一項重大科學難題。這一目標一旦獲得突破,就相當于掌握了制造語言超人的能力。這個語言超人可以不眠不休,一天24小時,一目萬行閱讀資料,從中提取有用的知識。這將有力推進信息時代的發展,從當前以數據處理為中心的初級階段演進到以知識處理為中心的高級階段,形成巨大的語言知識處理和知識服務產業,并深刻影響計算機科學與技術的發展。
隨著因特網的發展,網絡上電子文本急速增長,高效準確地從因特網的海量信息中獲取有效信息已成為社會生活中的迫切需求。中國科學院聲學研究所研究員黃曾先生響應這一時代的號召,面向整個自然語言處理的一系列問題創立了概念層次網絡(簡稱HNC)理論,并發展形成了深入語義內容計算的HNC語言理解處理技術。HNC是這一理論與技術的統稱。HNC的出發點就是運用局部聯想脈絡和全局聯想脈絡來“幫助”計算機理解自然語言,HNC通過交互引擎的研制來實現計算機對語言的理解過程。

HNC與傳統的自然語言理解處理對比
下面將HNC與傳統的自然語言理解處理作一個簡單對比。
HNC的研究在多個國家級項目的資助下不斷深化,不僅應用于實際的網絡信息處理服務,而且在評測中展示出優越的性能。2009年中文信息學會組織了句法評測(CIPS-Pars Eval-2009),共有來自美國、歐洲、中國大陸和香港地區的24支隊伍參加。HNC參加了漢語事件描述單元識別和漢語功能塊分析兩項目的開放評測,盡管語言理論體系上存在比較大的差異,但是仍然取得了第一名和第二名的成績。
“HNC智能網絡信息檢測系統”的最大特點是能夠深入自然語言的語義內容深層完成語言分析處理,而不是僅僅利用語言的表層信息進行淺層處理,因而能夠準確獲取文字文本所表達的語言內容。盡管涉及同樣的詞語,HNC技術卻能夠區分并準確判斷網絡內容是否是用戶關注的內容。HNC面向整個自然語言處理,不僅可以完成單個語句的分析處理,還可以完成多個語句圍繞一個表達中心形成的句群處理,萃取其中的主題境單元知識,從而具有強大的語義區分能力。
HNC團隊已經取得了多項科研成果,形成了自主知識產權的自然語言理解處理技術體系,為構造各種滿足信息時代需求的信息處理應用技術奠定了堅實的基礎。同時,以HNC為基礎的各種應用技術已經面市,并成功應用于智能網絡信息檢測軟件系統中,正在為保障信息安全、凈化互聯網的網絡內容發揮著重要作用。“HNC智能網絡信息檢測系統”融合了HNC自然語言理解處理技術與先進的網絡技術,主要特點包括:1.根據用戶需求,針對網絡上出現的特定信息文本內容進行檢測(例如色情、反動、低俗等不良信息)報警;2.基于最新的自然語言內容理解技術,不同于以往的基于關鍵字詞的檢測系統,準確率高;3.對不能做出判斷的內容能提出警告,供人工判別,和傳統的檢測系統相比能夠大大地提高網頁的處理數量和減少監管人員人工干預的工作量;4.可為用戶定制語言知識,兼容關鍵詞處理;5.可對特定網站內容進行下載、解析、檢測并自動生成檢測報告;6.支持靜態檢測和動態監測;7.支持多種編碼方式;8.支持多傳輸協議解析;9.支持云計算,快速處理海量文本內容。
處理的困境
根據中國教育和科研計算機網CERNET面向高招網服務的需求,在“HNC智能網絡信息檢測系統”基礎的上建立形成了“不良信息檢測系統”。這一系統已經成為賽爾網絡體檢中心的一項體檢功能,開始為高招網提供不良信息檢測的服務。截止目前已經注冊了一百多個網站,每次掃描檢測的網頁數超過14萬個,檢測系統根據掃描結果自動生成檢測報告,供系統管理員參考。