張昭楠
(陜西職業技術學院 陜西 西安 710000)
基于AJAX技術的中文術語抽取系統的設計與實現
張昭楠
(陜西職業技術學院 陜西 西安 710000)
文中從用戶需求的角度出發確定并設計實現了基于AJAX技術的中文術語抽取技術,在用戶角度層面上將系統飛衛3個相互聯系的子系統,即中文術語抽取、中文定義抽取和基于用戶反饋的自學習系統,并且對3個子系統的功能和任務進行了劃分。本文還采用兩種語料分別對中文術語定義抽取系統和中文術語抽取系統進行了一定的測試,測試結果表明系統的準確性相較于之前的系統提升了40%,達到了63.75%,召回率可以達到78.84%,并且在人性化和人機交互等方面都去了很大的創新和改進。
AJAX技術;中文術語抽取;系統設計;系統測試
隨著信息社會的不斷發展,信息傳遞與交流已經成為現代化工作運作的重要基石[1]。而可讀性文本信息作為一種不可或缺的載體長期以來扮演者非常重要的角色。問題是如何幫助人們快速定位信息,從而更加準確便捷的獲取信息成為了迫切需要解決的問題,所以文本內容的理解和信息抽取技術越來越被關注和認可,其中術語的抽取則變得越來越重要。
AJAX技術室多種技術的集合體,其中囊括了Asynchronous、XHTML、Javascript等部分。與傳統的Web應用不同的是,AJAX技術獨特的異步交互過程可以在用戶和服務器之間形成一個中間媒介。在利用AJAX技術的情況下,能給ISP、開發人員和用戶等端對端角色帶來切實的好處與便捷,有如下4點:
1)服務器減負。AJAX技術的一個運行原則就是按需取數據[2],這就可以大大避免過多的冗余數據請求,真正達到為服務器減負的目的;
2)不需要頻繁刷新就可以實時對頁面進行更新,這就使用戶減少了等待時間,從而大大提升了用戶體驗;
2)除了服務器端存儲的數據,還可以方便的調用外部數據;
3)AJAX技術都是基于標準化的協議進行編寫的程序,是可以被廣泛支持的[3],所以就不需要下載其余插件或者子程序。
1.1 對功能的需求分析
我們設計此款基于AJAX技術的中文術語抽取系統的主要目的有兩點:
1)使用戶能在閱讀相對專業性的文檔或文本信息時可以快速定位文章中提到的術語并且可以快速獲取術語的科學定義,從而優化用戶的閱讀體驗;
2)通過對術語準確的理解和定義,給相關行業的從業者或者科學研究人員提供深層次的技術支持。
1.2 對性能的需求分析
此款基于AJAX技術的中文術語抽取系統的目標就是建立一個較為完整的軟件生態,在滿足用戶日常閱讀體驗和增進閱讀效率的同時還需要根據用戶的反饋進行自學習,這樣做到使系統更加智能,系統功能性更加完善。所以基于以上的考慮,就需要系統滿足以下要求:1)準確性;2)可擴展性;3)友好的用戶界面。
2.1 中文術語抽取子系統的流程設計
根據上述本文提到的系統要實現的功能和原則,將基于AJAX技術的中文術語抽取系統的設計分為5個大的步驟[4],即通過預料獲取的途徑和特征進行模型的強化訓練和記憶,對包括但不限于分詞和詞性標注進行詞法分析,遴選候選術語詞,用訓練好的模型對文本進行術語在詞性層面上的識別,對選擇好的術語詞進行二次過濾,最終呈現給用戶。基于以上設計步驟,就可以得出以下的術語抽取流程圖:

圖1 基于AJAX技術的術語抽取系統設計流程圖
下文將著重介紹每個步驟采用的方法及實現方式。
2.2 訓練語料的構建
基于AJAX技術的抽取方法需要術語數據庫作為支撐,且由于術語的屬性使得其對領域的概念非常敏感[5],不同行業領域可能使術語的語言構成大相徑庭。一般而言,我們會對相關權威的百科網站進行超鏈接關聯,并且采用半人工半自動的方法來獲取術語,這個方法的核心要素是通過一個候選術語隊列來不斷地擴展相關頁面,并從頁面上獲取可能成為術語的詞或者鏈接,并通過系統的自學功能來進行不斷的優化,并判斷其是否加入某個領域的術語候選隊列[6]。
根據上述的指導思想,本文通過此種方法獲得了3K+的相關術語領域詞匯,摘要如表1所示。

表1 相關領域術語分類摘要表
這些詞語基本覆蓋了計算機技術相關的各個領域,符合上文所提出的要求和原則,可以用來進行試驗驗證。
2.3 系統中術語特征的獲取和模型的訓練
由于系統本身受到諸如沒有合適的全文語料等限制[7],我們從術語本身來獲取特征,就需要對術語進行分詞和詞性的標注,也就是說需要將一個具有復合語拆分成很多簡單詞的組合并且標出每一個詞的詞性。在此種情況下,本系統與第三方合作開發具有分詞剖析功能的分詞定義辨別抽取的復合系統,如與哈爾濱工業大學的IRLAS,測試表明該系統的準確率和召回率達到了97.8%和98.2%。
根據大量的實驗和觀察發現,術語大多數都是名詞短語,而名詞短語的構成是有規律可言的,比較常見的有形容詞與名詞結構構成的方式,通常意義上的屬概念就是術語的語義特征,我們將這個概念也應用在系統對術語詞性特征分析上來。大量實踐證明,同一個領域的術語在字面上也有很多相似的地方,如領域名稱+名詞的構成,我們在系統設計上也把這種局部相似的現象看做是領域術語的一個特征。
基于以上的分析和測試,我們可以得到術語的特征向量表如表2所示。

表2 術語特征向量表
為實現上述功能,我們設計了一個特征提取器,專門用來抽取一個詞的特征,這個詞可以使術語也可以是非術語。使用該特征提取器就可以從候選樣本提出模型正例。
訓練模型可以近似簡化為如下結構:

開放測試:導入模型文件進行加載實例測試,就可以完成對模型的訓練和使用。
2.4 術語過濾系統
使用AJAX技術抽取出來的術語基本上可以達到非常高的準確率,但是并不完美,還會存在一定的誤差因素,通過大量的研究實踐表明[8],錯誤識別的術語大多數是人名、地名等,為此,我們又加入了過濾條件進行二次遴選,這樣就可以基本上得出比較準確的術語提取。術語過濾條件表如表3所示。

表3 術語二次過濾遴選條件
在系統完成編寫和基本流程運作后,我們對系統的諸如召回率,錯誤率進行了分析,采用與第三方系統比對的方式來進行,其中閾值F指的是系統計算得出該詞是術語的概率,表4給出了相關計算結果。

表4 實驗結果比對
通過上表顯示的計算結果,閾值的提高使得精確率也為之提高,但是同時使得召回率有了下降,這里面必定存在一個平衡點,從上表可以看出這個平衡點就是閾值為0.87時,此時系統的召回率和準確率都有了很大的提升,超出了第三方將近1個百分點。
在本系統中還存在術語錯誤提取,通過分析可以總結出錯誤主要存在于下面幾個方面的影響:
1)訓練語料的限制,因為機器學習方法是基于樣本的,所以有可能會隨機組合出很多無效的詞匯,這對于抽取結果有很大影響;
2)過分依賴分詞機制的結果,分詞系統雖然相對具有代表性,但對于一些生僻術語詞匯卻并不一定適用,這就導致抽取結果與樣本篩選出現一定比例的錯誤;
3)最大熵與術語過濾本身的缺點,這一點主要是原理上的近似邏輯計算導致的,是不可避免的。
文中在分析了中文術語抽取系統的必要性和功能需求的基礎上,利用AJAX技術設計了一套中文術語抽取的系統,其中,運用到了特征分詞的方式和最大熵的原理。文中對系統的運行流程和判斷依據步驟進行了較為詳細的闡述和論證,取得了一定的成果。利用AJAX技術編寫了一個特征提取器程序,這位系統運行中的準確率和召回率有了很大的提升,在最后的實驗測試表中,得出了閾值對于系統準確率和召回率的影響因素,并尋找到當閾值F=0.87時系統可以達到相對平衡。
中文術語抽取系統的設計對于我們在信息社會快速獲取知識方面起到了重要的作用,為行業的發展起到了進一步有益的推動作用,當然,本系統還存在著一定的錯誤率,在以后的版本改進中將試圖解決這一問題。
[1]李衛.領域知識的獲取[D].北京:北京郵電大學,2008.
[2]吳云芳,穗志方,邱利坤,等.信息科學與技術領域術語部件描述[J].語言文字應用,2004,6(l):174-182.
[3]胡文敏,何婷婷,張勇,等.基于卡方檢驗的漢語術語抽取[J].計算機應用,2007(12):3019-3020,3025.
[4]British Standard Institution.BS EN 50160:2007 Voltage characteristics of electricity supplied by public distribution system[S].2007.
[5]IEEE Standards Coordinating Committee 22 on Power Quality,IEEE Std 1159-1995[C]//IEEE Recommended Practice for Monitoring Electric Power Quality,ISBN-1-55937-549-3,1995.
[6]李勇.基于聚類方法對特定領域術語的自動篩選[J].計算機工程與科學,2008(2):64-66,134.
[7]韓客松,王永成,陳桂林.無詞典高頻字串快速提取和統計算法研究[J].中文信息學報,2001(2):23-30.
[8]張榕.術語定義抽取、聚類與術語識別研究[D].北京語言大學,2011.
[9]王萌,李春貴,唐培和,等.一種主題句發現的中文自動文摘研究[J].計算機工程,2007,33(8):180-181.
[10]Berger A L,Pietra V J D,Pietra S A D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.
[11]姜柄圭,張秦龍,諶貽榮,等.面向機器輔助翻譯的漢語語塊自動抽取研究[J].中文信息學報,2007,21(1):9-16.
[12]何燕,穗志方,段慧明,等.一種結合術語部件庫的術語提取方法[J].計算機工程與應用,2006,42(33):4-7.
[13]趙玉.試論科技漢語詞匯的特點[J].產品安全與召回,2006(3):21-24.
[14]杜波,田懷鳳,王立,等.基于多策略的專業領域術語抽取器的設計[J].計算機工程,2005,31(14):159-160.
[15]張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統[J].計算機應用研究,2005,22(5):72-73.
Design and implementation Chinese term extraction system based on AJAX technology
ZHANG Zhao-nan
(Shaanxi Vocational and Technical College,Xi'an 710000,China)
From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology,the user point level system will Feiwei three interrelated subsystems,namely Chinese term extraction,Chinese custom extraction and based on user feedback the self-learning system,and the functions and tasks were divided into three subsystems.It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing,test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%,can recall It reached 78.84%,and in terms of humanization and humancomputer interaction have gone to great innovation and improvement.
AJAX technology;Chinese term extraction;system design;system test
TM933.4
A
1674-6236(2016)18-0044-03
2016-03-24 稿件編號:201603335
張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國古代文學,語言學及應用語言學。