999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于軟構件描述文本信息抽取的檢索方法

2013-11-24 02:17:52韓忠愿
網絡安全與數據管理 2013年2期
關鍵詞:語義概念特征

韓忠愿,謝 丹

(南京財經大學 信息工程學院,江蘇 南京210046)

隨著軟件開發規模的增大,軟件構件技術被認為是解決軟件危機的有效途徑,基于構件的軟件開發CBSD(Component Based Software Development)[1]成為有效提高軟件生產率、縮短軟件產品交付時間和提高軟件質量的新方法。

傳統的軟構件的檢索方法[2]主要有三種:基于外部索引的檢索、基于內部靜態索引的檢索和基于內部動態索引的檢索。其中以構件的刻面表示以及在此基礎上的構件檢索技術已得到軟件復用界的重視和應用[3]。著名的REBOOT構件庫[4]提出了可重用軟件構件基于刻面的分類檢索方案。國內的青鳥構件庫[5]采用以刻面分類為主、多種分類模式相結合的方法對構件進行分類描述。

傳統的基于關鍵字或刻面描述的軟件構件的檢索由于缺少特定領域語義信息,使得用戶在查詢所需要的構件時,有時很難對構件的各個刻面作出準確的描述,因此在查準率和查全率上存在不足。準確地理解用戶的查詢請求是構件檢索的一個重要問題,本文針對與軟構件如影隨形的自然語言描述,提出一種基于軟構件描述文本信息抽取的檢索方法。該方法采用自然語言描述軟構件的實現,并由系統利用自然語言處理技術抽取軟構件特征信息和需求的特征信息,然后利用特征匹配和《知網》詞匯語義相似度計算獲得候選的結果。

1 軟構件檢索系統體系結構

有效的構件檢索機制能夠降低構件查找和理解的成本,檢索方式對構件描述和用戶查詢的依賴是本文研究的主體部分。本文設計了基于文本描述的軟構件檢索系統體系結構,如圖1所示。其各部分功能如下:

(1)軟構件文本描述主要是將系統數據庫中有關軟構件的文本描述信息提取出來進行自然語言處理,并將處理返回的結果存儲起來;主要負責與用戶交互,為用戶提供查詢接口,通過用戶輸入生成查詢條件,并將滿足條件的軟構件信息返回給用戶。

(2)自然語言處理模塊主要是將數據庫的軟構件文本描述信息集合在一起,通過ICTCLAS分詞技術獲得帶標注的分詞結果,并根據VSM中TFIDF的計算方法為每個軟構件描述文本提取特征項并存儲;

(3)檢索模塊分為兩種方式:一種是將用戶查詢的特征與抽取出的軟構件特征項通過《知網》詞匯語義相似度計算來獲取查詢結果,此種方法主要實現了軟構件的語義檢索,是本文研究的重點;另一種是用戶查詢的特征與軟構件特征項之間的匹配檢索。

這種層次結構的體系模式將各模塊的功能相互獨立,有利于系統的維護與擴展,確保了系統的穩定性和可維護性。

2 軟構件檢索實現分析

檢索實現是本文研究的重點,尤其是實現軟構件的語義檢索。通過上面軟構件檢索系統的體系結構圖可以看出,自然語言處理部分是實現語義檢索的基礎,自然語言處理的準確度直接影響到檢索結果的查全率和查準率。

下面簡單介紹ICTCLAS漢語分詞系統和VSM的研究現狀,并詳細介紹語義檢索的實現過程。

2.1 ICTCLAS漢語分詞簡介

分詞系統[6]ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)是由中科院計算所的張華平、劉群所開發的一套獲得廣泛好評的分詞系統。它先通過層疊形馬爾可夫模型CHMM(Hierarchical Hidden Markov Model)進行分詞,通過分層,既增加了分詞的準確性,又保證了分詞的效率。ICTCLAS分詞速度單機500 KB/s,分詞精度98.45%,是世界上最好的漢語詞法分析器,并且在國內973專家組組織的評測中獲得了第一名。

2.2 向量空間模型

向量空間模型 VSM(Vector Space Model)由 Salton等人于上世紀60年代末提出,并成功應用于著名的SMART系統,是目前最為成熟且應用最為廣泛的文本表示模型之一[7]。它把對文本內容的處理簡化為向量空間中的向量,用“詞頻與倒文檔頻度”TFIDF(Term-Frequency Inverse-Document-Frequency)[8]進行特征項賦權值,來表征某個特征項對該文本內容的重要程度。其中TFIDF將一個特征項在某個文檔中的重要性和在整個文檔數據全集中的重要性結合起來,成為一個統一的度量值。它說明一個在單個文檔中頻度很高,而在整個數據全集中頻度很低的詞是更加重要的詞。

砂堤堆好后,在秋冬季節,選擇抗旱、耐瘠薄、根系發達的鄉土樹種刺槐、柳樁進行栽植,栽植密度0.5m×0.5m,定植后要及時灌水,確保成活。次年開春,即使上部干枯,下部仍能發芽抽梢。

本文在自然語言處理過程中對文本關鍵詞的抽取正是提取VSM中TFIDF值較高的特征項,將通過此方法獲得的所有特征項按權值大小排序,提取滿足閾值或一定數目的最優特征作為最終表達該文本特征的特征項集。

2.3 《知網》詞匯語義相似度計算

《知網》(HowNet)[9]是一部比較詳盡的語義知識詞典,是一個以漢語和英語詞義所代表的概念為描述對象,以揭示概念間及概念所具有的屬性間關系為基本內容的常識知識庫。概念與義原是《知網》中的兩個主要概念。每一個詞可以表達為幾個概念,每個概念又可由若干個義原來描述。

對于兩個漢語詞語W1和W2,如果W1有n個概念,S11,S12,…,S1n;W2有 m 個概念,S21,S22,…,S2m,則《知網》規定,W1和W2的相似度是各個概念的相似度之最大值,即:

如此,就將兩個詞語之間的相似度問題歸結到了兩個概念之間的相似度問題。由于義原是描述一個概念的最小意義單位,所以義原的相似度計算是概念相似度計算的基礎,概念相似度是由提取到的義原的相似度加權平均得到的。

假設兩個義原在同一個層次體系中的路徑距離為d,可以得到這兩個義原之間的語義距離:

其中,p1和 p2表示兩個義原;d是 p1和 p2在義原層次體系中的路徑長度,是一個正整數;α是一個可調節參數,一般取值1.6。

以上是《知網》詞匯語義相似度的計算方法,是本文的一個重要部分,精確的詞匯匹配度是下一步檢索的基礎工作。

2.4 檢索模塊

通過抽取軟構件文本描述特征項來實現基于語義的檢索是本文研究的重點。通過對相似度計算模塊得到的數據進行處理分析,是實現檢索的關鍵步驟,其主要處理流程如圖2所示。

一般將兩個集合中的特征項兩兩比較得到的相似度的平均值作為它們的相似度,如此一個集合任意兩個特征項之間的相似度都為1,集合才能與它本身100%相似。本文采用以下算法為這兩個集合進行相似度計算:

(1)利用《知網》詞匯語義相似度,將Q中每個關鍵字與Di中每個特征項進行相似度計算,如圖3所示。得到 Term_Sim{Sim(K1,T1),Sim(K1,T2),… ,Sim(Ki,Tj),… ,Sim(Km,Tn)}為相似度值集合,共m×n個數據。

圖3 詞匯相似度對比

(2)將相似度值中最大的值所對應的Ki和Tj建立對應關系。

(3)將包含Ki和Tj的相似度值從Term_Sim中刪除。

(4)重復(2)和(3),直到所有的相似度值都被刪除。

(5)沒有建立起對應關系的關鍵字或特征項與空對應。

(6)將包含Ki的相似度值取算術平均值。

把上面得到的平均值作為用戶查詢與軟構件之間的相似度度量值,將滿足閾值的軟構件信息按照相似度值的遞減順序輸出。

3 實驗結果

根據以上描述,實現了在ERP領域軟構件的檢索,檢索結果如圖4所示。

實驗從ERP軟構件描述數據庫中抽取出相似度較高的軟構件作為候選結果輸出。其中,“成本管理”經過ICTCLAS分詞、VSM處理得到的關鍵詞是:“成本”、“產品”、“計算”等,與用戶檢索關鍵詞“成本”、“分析”比較,相似度值是72.22%。在查詢結果中點擊相應的項目,會詳細顯示對構件的描述,可以幫助用戶更清晰地了解該構件的信息,從而從候選結果中選擇符合要求的軟構件。

本文提出了一種基于文本信息抽取的軟構件檢索方法,并對軟構件檢索系統的體系結構、功能模塊進行了詳細介紹,優化了關鍵字集合相似度計算;并且針對傳統軟構件檢索中語義缺失的缺點,實現了對軟構件的語義檢索的目的,有利于進行基于軟構件的軟件開發。另外,本系統還有尚待改進的地方,例如:擴充分詞詞典,保證領域術語的完整性;增加軟構件的圖形描述,實現多功能檢索等,這些問題也是下一步研究工作的重點。

[1]BROWN A W,WALLNAU K C.The current state of CBSE[J].IEEE Software,1998,15(5):37-46.

[2]劉韜,范菁,熊麗榮.構件的檢索技術研究及其在信用領域構件庫中的應用[D].杭州:浙江工業大學,2008.

[3]舒遠仲,陳志勇,彭曉紅,等.基于刻面分類描述的構件檢索方法研究[J].計算機工程與科學,2010,32(11):156-160.

[4]MOREL J M,FAGET J.The REBOOT environment[C].In:Prieto-Diaz R,Frakes WB eds.Processdings of the 2nd International Workshop on Software Reusability Advances in Software,Lucca:IEEE Computer Society Press,1993:80-88.

[5]CHANG J C,LI K Q,GUO L F,et al.Representing and retrieving reusable software components in JB(Jadebird)System[J].Electronica Journal,2000,28(8):20-24.

[6]ICTCLAS分詞系統研究[EB/OL].(2010-08-24).http://wenku.baidu.com/view/2eeb4afff705cc175527093f.html.

[7]楊小平,丁浩,黃都培.基于向量空間模型的中文信息檢索技術研究[J].計算機工程與應用,2003(15):109-111.

[8]王曉龍,關毅.計算機自然語言處理[M].北京:清華大學出版社,2005.

[9]劉群,李素建.基于《知網》的詞匯語義相似度計算[C].臺北:第三屆漢語詞匯語義學研討會論文集,2002:59-76.

猜你喜歡
語義概念特征
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習集合概念『四步走』
聚焦集合的概念及應用
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 在线观看国产小视频| 欧美日韩综合网| 亚洲国产精品不卡在线| 午夜毛片免费观看视频 | 国产一级做美女做受视频| 久久精品人人做人人爽电影蜜月| 99久久精品国产麻豆婷婷| 色偷偷一区二区三区| 精品伊人久久久大香线蕉欧美| 国产精品久久久久久久伊一| 中文字幕乱妇无码AV在线| 亚洲国产亚洲综合在线尤物| 国产精品永久在线| 丁香婷婷久久| 久草青青在线视频| A级毛片高清免费视频就| 国产精品午夜福利麻豆| 国产黄色爱视频| 天堂岛国av无码免费无禁网站 | 国产一区二区三区精品久久呦| 在线免费观看a视频| 国产午夜在线观看视频| 亚洲女同一区二区| 亚洲国产成人综合精品2020 | 欧美第九页| 国产精品免费入口视频| 国产成人综合网在线观看| 欧美亚洲第一页| 免费观看男人免费桶女人视频| 97国产在线观看| 日韩激情成人| 女高中生自慰污污网站| 亚洲h视频在线| 免费精品一区二区h| 国产成人91精品| 97视频免费在线观看| 亚洲色中色| 干中文字幕| 日韩区欧美区| 一区二区自拍| 国产精品久久久久久久久| 国产一级无码不卡视频| 91精品国产一区| 国产中文一区a级毛片视频| 91av成人日本不卡三区| 成人av专区精品无码国产| 亚瑟天堂久久一区二区影院| 亚洲无线视频| 91青青视频| 九九视频免费看| 怡红院美国分院一区二区| 亚洲天堂视频在线免费观看| 色亚洲激情综合精品无码视频| 国产美女精品在线| 亚洲三级色| 中文字幕在线观看日本| 成人精品在线观看| a级毛片一区二区免费视频| 亚洲成在线观看| 国产成人无码综合亚洲日韩不卡| 免费看久久精品99| 中文字幕永久视频| 日本不卡在线| 日日拍夜夜操| 亚洲最大福利视频网| 日韩123欧美字幕| 高h视频在线| 全免费a级毛片免费看不卡| 婷婷色狠狠干| 日韩中文字幕亚洲无线码| 国产色爱av资源综合区| 国产毛片基地| 国产丝袜第一页| 成人蜜桃网| 谁有在线观看日韩亚洲最新视频| 久久人体视频| 免费一级毛片在线播放傲雪网| 波多野结衣中文字幕久久| 日韩无码视频网站| 91久久偷偷做嫩草影院精品| 精品国产美女福到在线不卡f| 午夜福利免费视频|