999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AJAX技術的中文術語抽取系統的設計與實現

2016-11-25 09:00:20張昭楠
電子設計工程 2016年18期
關鍵詞:用戶系統設計

張昭楠

(陜西職業技術學院 陜西 西安 710000)

基于AJAX技術的中文術語抽取系統的設計與實現

張昭楠

(陜西職業技術學院 陜西 西安 710000)

文中從用戶需求的角度出發確定并設計實現了基于AJAX技術的中文術語抽取技術,在用戶角度層面上將系統飛衛3個相互聯系的子系統,即中文術語抽取、中文定義抽取和基于用戶反饋的自學習系統,并且對3個子系統的功能和任務進行了劃分。本文還采用兩種語料分別對中文術語定義抽取系統和中文術語抽取系統進行了一定的測試,測試結果表明系統的準確性相較于之前的系統提升了40%,達到了63.75%,召回率可以達到78.84%,并且在人性化和人機交互等方面都去了很大的創新和改進。

AJAX技術;中文術語抽取;系統設計;系統測試

隨著信息社會的不斷發展,信息傳遞與交流已經成為現代化工作運作的重要基石[1]。而可讀性文本信息作為一種不可或缺的載體長期以來扮演者非常重要的角色。問題是如何幫助人們快速定位信息,從而更加準確便捷的獲取信息成為了迫切需要解決的問題,所以文本內容的理解和信息抽取技術越來越被關注和認可,其中術語的抽取則變得越來越重要。

AJAX技術室多種技術的集合體,其中囊括了Asynchronous、XHTML、Javascript等部分。與傳統的Web應用不同的是,AJAX技術獨特的異步交互過程可以在用戶和服務器之間形成一個中間媒介。在利用AJAX技術的情況下,能給ISP、開發人員和用戶等端對端角色帶來切實的好處與便捷,有如下4點:

1)服務器減負。AJAX技術的一個運行原則就是按需取數據[2],這就可以大大避免過多的冗余數據請求,真正達到為服務器減負的目的;

2)不需要頻繁刷新就可以實時對頁面進行更新,這就使用戶減少了等待時間,從而大大提升了用戶體驗;

2)除了服務器端存儲的數據,還可以方便的調用外部數據;

3)AJAX技術都是基于標準化的協議進行編寫的程序,是可以被廣泛支持的[3],所以就不需要下載其余插件或者子程序。

1 系統的需求分析

1.1 對功能的需求分析

我們設計此款基于AJAX技術的中文術語抽取系統的主要目的有兩點:

1)使用戶能在閱讀相對專業性的文檔或文本信息時可以快速定位文章中提到的術語并且可以快速獲取術語的科學定義,從而優化用戶的閱讀體驗;

2)通過對術語準確的理解和定義,給相關行業的從業者或者科學研究人員提供深層次的技術支持。

1.2 對性能的需求分析

此款基于AJAX技術的中文術語抽取系統的目標就是建立一個較為完整的軟件生態,在滿足用戶日常閱讀體驗和增進閱讀效率的同時還需要根據用戶的反饋進行自學習,這樣做到使系統更加智能,系統功能性更加完善。所以基于以上的考慮,就需要系統滿足以下要求:1)準確性;2)可擴展性;3)友好的用戶界面。

2 中文術語抽取系統設計與實現

2.1 中文術語抽取子系統的流程設計

根據上述本文提到的系統要實現的功能和原則,將基于AJAX技術的中文術語抽取系統的設計分為5個大的步驟[4],即通過預料獲取的途徑和特征進行模型的強化訓練和記憶,對包括但不限于分詞和詞性標注進行詞法分析,遴選候選術語詞,用訓練好的模型對文本進行術語在詞性層面上的識別,對選擇好的術語詞進行二次過濾,最終呈現給用戶。基于以上設計步驟,就可以得出以下的術語抽取流程圖:

圖1 基于AJAX技術的術語抽取系統設計流程圖

下文將著重介紹每個步驟采用的方法及實現方式。

2.2 訓練語料的構建

基于AJAX技術的抽取方法需要術語數據庫作為支撐,且由于術語的屬性使得其對領域的概念非常敏感[5],不同行業領域可能使術語的語言構成大相徑庭。一般而言,我們會對相關權威的百科網站進行超鏈接關聯,并且采用半人工半自動的方法來獲取術語,這個方法的核心要素是通過一個候選術語隊列來不斷地擴展相關頁面,并從頁面上獲取可能成為術語的詞或者鏈接,并通過系統的自學功能來進行不斷的優化,并判斷其是否加入某個領域的術語候選隊列[6]。

根據上述的指導思想,本文通過此種方法獲得了3K+的相關術語領域詞匯,摘要如表1所示。

表1 相關領域術語分類摘要表

這些詞語基本覆蓋了計算機技術相關的各個領域,符合上文所提出的要求和原則,可以用來進行試驗驗證。

2.3 系統中術語特征的獲取和模型的訓練

由于系統本身受到諸如沒有合適的全文語料等限制[7],我們從術語本身來獲取特征,就需要對術語進行分詞和詞性的標注,也就是說需要將一個具有復合語拆分成很多簡單詞的組合并且標出每一個詞的詞性。在此種情況下,本系統與第三方合作開發具有分詞剖析功能的分詞定義辨別抽取的復合系統,如與哈爾濱工業大學的IRLAS,測試表明該系統的準確率和召回率達到了97.8%和98.2%。

根據大量的實驗和觀察發現,術語大多數都是名詞短語,而名詞短語的構成是有規律可言的,比較常見的有形容詞與名詞結構構成的方式,通常意義上的屬概念就是術語的語義特征,我們將這個概念也應用在系統對術語詞性特征分析上來。大量實踐證明,同一個領域的術語在字面上也有很多相似的地方,如領域名稱+名詞的構成,我們在系統設計上也把這種局部相似的現象看做是領域術語的一個特征。

基于以上的分析和測試,我們可以得到術語的特征向量表如表2所示。

表2 術語特征向量表

為實現上述功能,我們設計了一個特征提取器,專門用來抽取一個詞的特征,這個詞可以使術語也可以是非術語。使用該特征提取器就可以從候選樣本提出模型正例。

訓練模型可以近似簡化為如下結構:

開放測試:導入模型文件進行加載實例測試,就可以完成對模型的訓練和使用。

2.4 術語過濾系統

使用AJAX技術抽取出來的術語基本上可以達到非常高的準確率,但是并不完美,還會存在一定的誤差因素,通過大量的研究實踐表明[8],錯誤識別的術語大多數是人名、地名等,為此,我們又加入了過濾條件進行二次遴選,這樣就可以基本上得出比較準確的術語提取。術語過濾條件表如表3所示。

表3 術語二次過濾遴選條件

3 中文術語抽取系統的測試結果

在系統完成編寫和基本流程運作后,我們對系統的諸如召回率,錯誤率進行了分析,采用與第三方系統比對的方式來進行,其中閾值F指的是系統計算得出該詞是術語的概率,表4給出了相關計算結果。

表4 實驗結果比對

通過上表顯示的計算結果,閾值的提高使得精確率也為之提高,但是同時使得召回率有了下降,這里面必定存在一個平衡點,從上表可以看出這個平衡點就是閾值為0.87時,此時系統的召回率和準確率都有了很大的提升,超出了第三方將近1個百分點。

在本系統中還存在術語錯誤提取,通過分析可以總結出錯誤主要存在于下面幾個方面的影響:

1)訓練語料的限制,因為機器學習方法是基于樣本的,所以有可能會隨機組合出很多無效的詞匯,這對于抽取結果有很大影響;

2)過分依賴分詞機制的結果,分詞系統雖然相對具有代表性,但對于一些生僻術語詞匯卻并不一定適用,這就導致抽取結果與樣本篩選出現一定比例的錯誤;

3)最大熵與術語過濾本身的缺點,這一點主要是原理上的近似邏輯計算導致的,是不可避免的。

4 結束語

文中在分析了中文術語抽取系統的必要性和功能需求的基礎上,利用AJAX技術設計了一套中文術語抽取的系統,其中,運用到了特征分詞的方式和最大熵的原理。文中對系統的運行流程和判斷依據步驟進行了較為詳細的闡述和論證,取得了一定的成果。利用AJAX技術編寫了一個特征提取器程序,這位系統運行中的準確率和召回率有了很大的提升,在最后的實驗測試表中,得出了閾值對于系統準確率和召回率的影響因素,并尋找到當閾值F=0.87時系統可以達到相對平衡。

中文術語抽取系統的設計對于我們在信息社會快速獲取知識方面起到了重要的作用,為行業的發展起到了進一步有益的推動作用,當然,本系統還存在著一定的錯誤率,在以后的版本改進中將試圖解決這一問題。

[1]李衛.領域知識的獲取[D].北京:北京郵電大學,2008.

[2]吳云芳,穗志方,邱利坤,等.信息科學與技術領域術語部件描述[J].語言文字應用,2004,6(l):174-182.

[3]胡文敏,何婷婷,張勇,等.基于卡方檢驗的漢語術語抽取[J].計算機應用,2007(12):3019-3020,3025.

[4]British Standard Institution.BS EN 50160:2007 Voltage characteristics of electricity supplied by public distribution system[S].2007.

[5]IEEE Standards Coordinating Committee 22 on Power Quality,IEEE Std 1159-1995[C]//IEEE Recommended Practice for Monitoring Electric Power Quality,ISBN-1-55937-549-3,1995.

[6]李勇.基于聚類方法對特定領域術語的自動篩選[J].計算機工程與科學,2008(2):64-66,134.

[7]韓客松,王永成,陳桂林.無詞典高頻字串快速提取和統計算法研究[J].中文信息學報,2001(2):23-30.

[8]張榕.術語定義抽取、聚類與術語識別研究[D].北京語言大學,2011.

[9]王萌,李春貴,唐培和,等.一種主題句發現的中文自動文摘研究[J].計算機工程,2007,33(8):180-181.

[10]Berger A L,Pietra V J D,Pietra S A D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.

[11]姜柄圭,張秦龍,諶貽榮,等.面向機器輔助翻譯的漢語語塊自動抽取研究[J].中文信息學報,2007,21(1):9-16.

[12]何燕,穗志方,段慧明,等.一種結合術語部件庫的術語提取方法[J].計算機工程與應用,2006,42(33):4-7.

[13]趙玉.試論科技漢語詞匯的特點[J].產品安全與召回,2006(3):21-24.

[14]杜波,田懷鳳,王立,等.基于多策略的專業領域術語抽取器的設計[J].計算機工程,2005,31(14):159-160.

[15]張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統[J].計算機應用研究,2005,22(5):72-73.

Design and implementation Chinese term extraction system based on AJAX technology

ZHANG Zhao-nan
(Shaanxi Vocational and Technical College,Xi'an 710000,China)

From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology,the user point level system will Feiwei three interrelated subsystems,namely Chinese term extraction,Chinese custom extraction and based on user feedback the self-learning system,and the functions and tasks were divided into three subsystems.It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing,test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%,can recall It reached 78.84%,and in terms of humanization and humancomputer interaction have gone to great innovation and improvement.

AJAX technology;Chinese term extraction;system design;system test

TM933.4

A

1674-6236(2016)18-0044-03

2016-03-24 稿件編號:201603335

張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國古代文學,語言學及應用語言學。

猜你喜歡
用戶系統設計
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产成人亚洲无吗淙合青草| 国产女人在线视频| 亚洲AV无码久久天堂| 免费福利视频网站| 国产女人综合久久精品视| 日韩在线视频网| 婷婷伊人久久| 国产高潮视频在线观看| 国产呦精品一区二区三区下载| 国产91无码福利在线| 日韩福利在线观看| 欧美翘臀一区二区三区| 2021最新国产精品网站| 97精品伊人久久大香线蕉| 5555国产在线观看| Jizz国产色系免费| 2022国产无码在线| 国产麻豆另类AV| 免费看一级毛片波多结衣| 亚洲va在线∨a天堂va欧美va| 欧美一道本| 在线日韩日本国产亚洲| 亚洲欧美不卡视频| 91免费精品国偷自产在线在线| 在线看片中文字幕| 国产99免费视频| 99国产精品免费观看视频| 波多野结衣一区二区三区四区| 精品国产乱码久久久久久一区二区| 日韩毛片在线播放| 国产高清在线观看91精品| 亚洲成网站| 日本国产在线| 影音先锋亚洲无码| 国产精品亚欧美一区二区| 国产一在线观看| 久久伊人色| av手机版在线播放| 欧美a在线| 欧美人人干| 91国内在线视频| 国产麻豆另类AV| 国产乱人视频免费观看| 亚洲一区色| 免费看av在线网站网址| 久精品色妇丰满人妻| 91在线高清视频| 国产成人亚洲毛片| 国产亚洲高清视频| 动漫精品啪啪一区二区三区| 人妻一区二区三区无码精品一区 | 国产午夜精品鲁丝片| 国产日韩欧美精品区性色| 国产对白刺激真实精品91| 国产成人艳妇AA视频在线| 国产在线专区| 国产乱人伦精品一区二区| 日韩色图在线观看| 精品一区国产精品| 精品视频在线观看你懂的一区| 日韩精品亚洲一区中文字幕| 一级片免费网站| 色网站在线免费观看| 精品国产99久久| 欧美三級片黃色三級片黃色1| a级毛片在线免费观看| 久久狠狠色噜噜狠狠狠狠97视色 | 国内精品视频| 国产人人乐人人爱| 中文字幕无码制服中字| 国产爽歪歪免费视频在线观看 | 欧美日韩北条麻妃一区二区| 亚洲精品卡2卡3卡4卡5卡区| 一区二区影院| 亚洲欧美不卡视频| 国产精品午夜电影| 亚洲性一区| 动漫精品中文字幕无码| 午夜色综合| 91热爆在线| 精品免费在线视频| 色综合天天娱乐综合网|