999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義相似度的關聯詞柔性簇模型

2007-12-31 00:00:00徐凌宇黃文濤吳早亮
計算機應用研究 2007年12期

摘要:通過設計基于語義相似度的關聯詞柔性簇模型,為概念檢索提供了一種關鍵詞語義匹配的實現方法,并且可以根據需要動態(tài)地調節(jié)匹配范圍。最后給出了該簇模型在數字海洋共享平臺中的示范應用。

關鍵詞:搜索引擎; 智能信息檢索; 概念檢索; 語義相似度; 知識庫;聯想

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2007)12-0207-03

隨著Internet的發(fā)展,網絡已成為全球最大的分布式信息庫,為信息共享、資源共享提供了一個良好的平臺。但是由于海量信息不斷涌入網絡,加之自然語言的豐富性和多樣性,使得信息的查找和獲取變得越來越困難,出現了信息迷航、信息過載等問題[1,2]。作為Web的信息檢索工具——搜索引擎也面臨嚴峻的挑戰(zhàn),通過搜索引擎搜索出來的信息不是太多而無法利用,就是搜索不到相關信息。關鍵詞檢索是網絡搜索引擎的兩大基本檢索功能之一。在對關鍵詞進行匹配時,傳統(tǒng)的精確匹配檢索到的信息漏檢率很高,而且無法區(qū)分同形異義。因此人們不斷探索關鍵詞匹配的改進技術[3,4],如模糊串匹配。但由于它是部分匹配,會產生大量無關信息,其信息量遠遠超出人工可以處理的范圍。另外,傳統(tǒng)的關鍵詞匹配對同義/近似詞的匹配也無能為力[5],如不能由關鍵詞“電腦”檢索出關鍵詞為“計算機”的相關信息。在軍用戰(zhàn)略領域,查全率[6]就顯得尤為重要。因為哪怕多出1%的信息量都可能會產生舉足輕重的影響。關鍵詞檢索的這些不足,究其原因在于參與匹配的是字符的外形, 而不是它們所表達的概念,因而經常出現檢索不全、答非所問的結果。搜索引擎以孤立的關鍵詞來標引文檔,將其從語義背景中脫離出來,割裂了文檔的邏輯語義。而且不同的詞可以用來表達同一概念,同一個詞在不同的語義環(huán)境中表達語義也不盡相同。因此,把信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面是解決問題的關鍵[7~9]。本文給出概念檢索的一種實現機制,以期望對關鍵詞進行有效的擴展,即由給定的關鍵詞得到其關聯詞簇(所謂關聯詞簇,是指在問題研究領域與給定關鍵詞相關的、有一定聯系的詞匯集合,其中包括同義/近義詞),從而實現一定程度的智能匹配,以提高搜索的命中率。

本文立足于概念檢索,探索彌補關鍵詞檢索不足的方法。對于相同概念可以由不同詞語描述所造成的漏檢,要想匹配完全,需要領域知識,而人工方式卻難免疏漏。因此建立專用領域同義/近似詞庫可以有效地解決這個問題[10]。本文考慮問題的角度,受人類思維方式的啟發(fā),人類能夠關聯相關事物,究其原因:a)人類腦袋里有知識;b)人類具有聯想的能力。為此考慮語義關聯,結合詞匯表達的概念,利用人類的知識建立專業(yè)領域詞庫,并通過基于距離的語義相似度來表示知識之間的關聯程度。據此本文構建了基于語義相似度的關聯詞柔性簇模型。該模型能夠依據語義相似度,柔性調節(jié)關鍵詞的匹配范圍,以滿足軍用、民用等不同信息量的需求。該簇模型的使用,使得信息檢索具有知識處理能力和理解能力,有效地減少了漏查,提高了檢索的召回率和查準率。

1簇模型原理與結構

該簇模型借助于人類的知識和聯想能力,由用戶的經驗知識得到一組關聯詞匯,本文把它們稱為關聯詞簇。分析它們的關聯屬性,并將這些屬性描述在一個坐標系中。簇中的每一個詞匯在對各屬性進行度量后,對應于該坐標系中的一個位置。這樣坐標系中各詞匯的距離就描述了它們關聯程度的大小。所要查找的符合一定要求的關聯詞就是以給定中心詞為核心的聚簇,如距離最近的聚簇就是其同義/近義詞。這種描述的優(yōu)勢在于,用戶可以按照個性化的需要,定義詞匯之間的相關性及其關聯程度。這樣不僅可以找到同義/近義詞,而且根據用戶特定的關聯關系和關聯程度找到所需的其他性質的關聯詞匯。通過良好的用戶交互界面實現關聯詞匯的動態(tài)調節(jié),不同的距離范圍可以得到不同關聯程度的詞簇。

基于以上原理,本文設計了如圖1所示(實線部分)的簇模型結構。它由詞簇的構建、關聯詞匯搜索和沖突處理,以及態(tài)勢評估和柔性調節(jié)三部分組成。

關聯詞簇的構建是該簇模型應用的基礎,由用戶根據已有的領域知識和經驗來構建。經過詞源選擇、特征提取和特征度量三步,就可將關聯詞匯的信息定義在特定的關聯關系表中。

關聯詞匯的搜索和沖突處理是該簇模型實現的核心,而詞匯相似關系的度量策略決定了搜索的策略。基于距離的相似性度量策略,使得搜索策略簡單有效,易于實現。

態(tài)勢評估和柔性調節(jié)是該簇模型的優(yōu)勢所在,用戶可以通過評估結果的好壞,動態(tài)地、可視化地調整搜索條件,以達到比較滿意的結果。另外柔性調節(jié)可以很好地適應軍事/民用等不同搜索要求的需要,提高了搜索效率。

3搜索算法和沖突處理

一個n維關聯詞簇對應于一個n維坐標系,將該坐標系存儲在一張n+1列的關聯關系表中。其中:第1列為詞匯名稱;第2~n+1列的列名依次為該詞簇的n維特征屬性名,依次存儲其n維坐標值。查找詞匯a的關聯詞匯時,首先,遍歷所有關聯關系表,找到詞匯a所處的關聯關系表——即對詞匯a進行簇定位;然后查找得到詞匯a的位置坐標(a1,a2,…,an)——即對詞匯a進行詞定位;之后根據詞匯之間的語義距離式(1)計算詞匯a(a1,a2,…,an)與該表中所有詞匯的語義距離,并將這些詞匯按照距離值由小到大的順序排列;最后根據用戶具體的需求得到相似度最高的若干個關聯詞匯。

沖突主要存在于用戶所需的關聯詞匯的個數和搜索到的個數有差異時。由于在臨界位置可能會存在相似度相同的多個詞匯,這時需要通過與用戶的交互進行取舍,或者根據系統(tǒng)默認的算法來得到用戶需要的個數。若查找出的關聯詞匯的個數小于用戶所需的個數,則告知用戶暫時沒有那么多關聯詞匯,并引導用戶對基本關聯關系表進行必要的擴充。

另外,同一個關鍵詞,從不同的角度可能定位于不同的關聯詞簇中,如電腦在計算工具一類中關聯詞匯為小型機、大型機等,在播放設備一類中的關聯詞匯為電視機、家庭影院等。在查找電腦的關聯詞匯時,就會遇到沖突,這時也需要通過與用戶交互,讓用戶多提供一個詞匯來輔助進行簇定位。

4簇模型性能分析與優(yōu)化

4.1查詢擴展

如果對關鍵詞頻繁地進行基于基本關聯關系表的查找,如在進行文獻匹配時,這種查找與比對的數量很多,勢必導致頻繁的數據庫操作,那么整個系統(tǒng)的效率會很低,而效率問題直接關系到系統(tǒng)的實際可用性。為了提高系統(tǒng)查找關聯詞匯的效率,對前文提出的基本簇模型結構進行了擴展,如圖1所示(虛線部分為擴展結構)。主要從以下三個方面考慮,擴展了簇模型的查找功能:

a)基于先驗知識庫的先驗查找

對于一些詞匯,用戶可以根據先驗知識和常識事先給出它的兩三個關聯詞匯。這也是用戶一般情況下進行普通查找時最希望能夠匹配上的關聯詞匯。可以將其組織在一張先驗表中,這樣對于一般用途的查找可以直接使用先驗表查找,效率也比較高。為此,本文定義先驗知識庫,其中包含一張先驗表。在定義表結構時,固定定義n列(n≤4)。并要求用戶以各詞匯的使用頻率高低的順序錄入,即先錄入使用頻率較高的詞匯;然后再錄入使用頻率相對較低的詞匯,從而提高匹配效率。

b)基于歷史經驗庫的快速查找

在系統(tǒng)使用過程中,用戶使用基本關聯關系表查找到所需的最佳結果后,對于同一用戶,很可能在不久的將來還會頻繁地進行查找。如果每次都使用基本關聯關系表查找,勢必會浪費大量的資源和時間。因此,將滿意的查詢結果當做經驗存儲在一張歷史表中。當下次再對該關鍵詞進行查詢時,可以直接使用歷史表中存儲的結果。這使得系統(tǒng)在不斷的使用過程中可以自我優(yōu)化。

c)高頻詞索引

對于使用頻率高的詞匯,建立索引。由于用戶建立了大量的基本關聯關系表,如果每次查找一個詞匯都要遍歷所有的關聯關系表,勢必要增加系統(tǒng)的開銷。建立一張索引表,將詞匯與所處關系表關聯起來,那么對于一些使用頻率高的詞匯就可以從索引表中直接得到其所處的表名,即實現簇定位,以此來提高查找的速度。索引表中除了包括詞匯、表名以外,還可以包含該詞匯對應的坐標值。

4.2決策準則和搜索策略優(yōu)化

決策準則依據用戶分級的原則,對不同級別的用戶,采用不同的搜索策略。對于低級別的一般用戶,可以進行基于先驗知識庫的先驗查找,滿足基本信息量的需求;對于軍事戰(zhàn)略領域的高級用戶,可以進行詳細的基本關聯關系表的查找;對于中間級別的用戶,結合查詢效率的考慮,選擇如下優(yōu)化了的搜索策略:將先驗知識庫、歷史經驗庫和基本關聯關系表構成的信息庫結合起來使用。對于某個詞匯,首先在歷史經驗庫中查找。若先前進行過該詞匯的查找,并將查找結果存入歷史經驗庫,則可以直接在歷史經驗庫中得到其關聯詞匯。若歷史經驗庫中沒有該詞匯的相關記錄,則再在先驗知識庫中查找。若用戶事先根據經驗知識和常識將其關聯詞匯存儲在先驗知識庫中,則可得到查詢結果;否則,只有進行基本關聯關系表的查找。這時先查看索引表,試圖從中得到該詞匯所處的表名。若該詞匯不存在索引項,則需要遍歷關聯關系表,從而確定該詞匯所處的關聯關系表。

總之,隨著系統(tǒng)的不斷使用,對于特定的用戶,常用詞匯的比較滿意的關聯詞匯查找結果大都存在于歷史經驗庫中,所以系統(tǒng)的效率會不斷提高。初期可以用先驗知識庫來輔助查找。

5簇模型在數字海洋共享平臺中的示范應用

本文方法用于中國數字海洋規(guī)劃項目共享平臺海表面溫度信息透明查詢示范系統(tǒng)。隨著海洋數字化進程的推進,數字海洋的建設也逐步進入信息搜索、獲取使用的階段,但是科研人員在搜索相關信息時發(fā)現,搜索到的信息卻非常有限,還遠遠不能滿足需要。特別是在海洋軍事戰(zhàn)略研究領域中,這種高漏檢率急需得到克服。為此,將該簇模型應用于數字海洋海表面溫度的研究中,以減少漏檢率,提高查全率,充分獲取相關信息,為戰(zhàn)略決策提供支持。該模型的柔性調節(jié)功能,可以動態(tài)調整匹配范圍,適應軍用/民用的不同需求,實現了一定程度的智能匹配。

5.1SST溫度簇構建

根據海表面溫度研究領域專家的經驗,得到一系列關聯詞匯,如溫度、海溫、水溫、SST(sea surface tempreture)、海表面溫度、海水溫度、海水表面溫度、水表面溫度。為簡化問題,筆者在此考慮二維坐標系的情況,即提取兩個特征屬性描述這些詞匯。首先用戶要提供表名,在確保該表名未被使用的前提下,由領域專家分析該組詞匯的特征屬性,給出兩個坐標軸代表的意義,如X軸表示豎直覆蓋面大小;Y軸表示概念泛化程度大小。最后對特征屬性進行度量,給出各個詞匯的屬性值。在這里每一個詞的屬性值的度量要充分考慮實際的需要和各詞匯相對的關系。如圖2所示,構建SST溫度簇,該圖形象地描述了溫度簇中各詞匯的關聯關系。

5.2“海表面溫度”簇查詢

5.2.1按個數需求查找

如圖3所示,輸入要查找的詞匯“海表面溫度”,再輸入所需的關聯詞匯個數就可以得到“海表面溫度”的關聯詞匯。這些關聯詞匯是按照語義距離由小到大的順序給出的。

該示例中,用戶要求得到五個與“海表面溫度”相關的詞匯,系統(tǒng)按相似度由大到小的順序給出了六個關聯詞匯。這是因為在臨界位置,最后出現了相似度相同的詞匯,即“水表面溫度”和“海溫”與“海表面溫度”比較,相似程度一樣。那么系統(tǒng)將提示用戶進行二次選擇,在“水表面溫度”和“海溫”中選擇一個更加合適的詞匯,或者根據系統(tǒng)默認的算法選擇一個。如果用戶對該結果比較滿意,希望以后還可以使用該結果,可以選擇入庫操作,將該次查詢結果存入歷史經驗庫。

5.2.2可視化半徑查找與柔性調節(jié)

在圖4中輸入要查找的詞匯“SST”,確定后可以得到其所處基本關聯關系表中所有詞匯在坐標系中的位置示意圖。

用戶通過在坐標系中畫圓,可以很方便地將中心詞附近一定距離內的詞匯圈出。由于半徑的實際數值不易于把握,該方法便于用戶直觀地作出選取。并且用戶還可以根據具體的需求將不需要的詞匯拖出圓圈范圍,或將所需詞匯拖入。由于詞匯的坐標值是相對取值,只要保持相對關系不變,其數值大小可以作適當的調整。

另外,當查找某詞匯的同義/近義詞時,它們就會集中在該詞匯附近位置,這種可視化的形式將更加直觀,且方便用戶利用緊致性原理優(yōu)化選擇所需詞匯,提高了系統(tǒng)的易用性。

6結束語

傳統(tǒng)的關鍵詞匹配技術脫離語義背景,有很大的局限性。本文設計了基于語義相似度的關聯詞柔性簇模型,構建了具有知識和聯想能力的詞庫系統(tǒng),結合知識的語義和關聯,能夠有效地擴展所提供關鍵詞,從而實現了一定程度的智能匹配,提高了信息檢索的查全率與查準率。這在特殊領域具有實際意義。本系統(tǒng)實現簡單、運行效率較高,有效地提高了關鍵詞的覆蓋面。該模型具有代表性,適用面廣,值得進一步深入研究。

參考文獻:

[1]李欣.基于概念檢索的智能信息檢索技術研究[D].武漢:華中師范大學,2004:9-14.

[2]傅賽香.基于Internet的智能信息檢索技術研究[D].桂林:廣西師范大學,2002:2-4.

[3]李育嫦. 搜索引擎中完善關鍵詞檢索功能的探索[J].圖書與情報,2003(5):48-50.

[4]張琪玉.網絡信息檢索工具增強關鍵詞檢索功能的措施[J].圖書館雜志,2001,20(1):7-10.

[5]潘景昌,許中衛(wèi).結合同義詞的Web 搜索匹配算法初探[J].安徽大學學報,2003,27(9):26-29.

[6]KOWALSKI G. Information retrieval systems: theory and implementation[M].[S.l.]:Kluwer Academic Publishers, 1998:345-348.

[7]王靖,肖明君,蔡慶生.一種基于Web的智能搜索方法[J].計算機應用研究,2001,18(11):22-23.

[8]鄧偉,張志偉,譚慶平.一種新型的智能搜索引擎[J].計算機工程,2000,26(3):8-10.

[9]張衛(wèi)豐,徐寶文. Web搜索引擎框架研究[J].計算機研究與發(fā)展,2000,37(3):376-378.

[10]SODERLAND S, FISHER D, ASELTIME J, et al. Cristal: inducing a conceptual dictionary[C]//Proc of IJCAI. 1995:1314-1321.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 丝袜久久剧情精品国产| 亚洲国产成人自拍| 亚洲精品色AV无码看| 免费全部高H视频无码无遮掩| 999精品在线视频| 欧美日一级片| 午夜欧美理论2019理论| 无码有码中文字幕| 国产精品午夜福利麻豆| 午夜福利网址| 素人激情视频福利| 亚洲精品视频免费| 亚洲国产清纯| 亚洲性网站| 亚洲成人在线免费| 成年人国产网站| 国产aaaaa一级毛片| 久久久久国产一级毛片高清板| 欧美色综合网站| 久久成人国产精品免费软件| 在线视频一区二区三区不卡| 欧美国产三级| 国产成人精品亚洲77美色| 九色国产在线| 欧美中文字幕在线播放| 久久国产免费观看| 久久综合亚洲鲁鲁九月天| 久久99精品久久久久久不卡| 无码人中文字幕| 日韩无码视频播放| 久久精品人人做人人| 婷婷亚洲视频| 国产后式a一视频| 日本a∨在线观看| 欧美特黄一级大黄录像| 国产精品专区第1页| 丝袜亚洲综合| 日本人又色又爽的视频| 亚洲无码熟妇人妻AV在线| 91国语视频| 亚洲经典在线中文字幕| 亚洲日本中文字幕天堂网| 777国产精品永久免费观看| 亚洲精品第五页| 欧美日本在线观看| 亚洲色成人www在线观看| 欧美精品成人一区二区在线观看| 国产h视频免费观看| 黄色在线不卡| 国产高清在线观看| 大陆精大陆国产国语精品1024| 国产成a人片在线播放| 国产男人天堂| 香蕉久久国产精品免| 激情午夜婷婷| 日本五区在线不卡精品| 欧洲高清无码在线| 欧美一级色视频| 色综合中文综合网| 99无码中文字幕视频| 日韩欧美网址| 992Tv视频国产精品| 亚洲色欲色欲www在线观看| 毛片免费观看视频| 国产乱子伦一区二区=| 亚洲欧美成人在线视频| 欧美19综合中文字幕| 亚洲最大情网站在线观看| 女人18毛片水真多国产| 亚洲性视频网站| 在线国产综合一区二区三区 | 久久天天躁狠狠躁夜夜2020一| 日韩精品资源| 欧美国产在线看| 亚洲精品麻豆| 欧美日韩激情在线| 91毛片网| 天天色综网| 亚洲视屏在线观看| 亚洲精品人成网线在线 | 国产成人一区免费观看| 成人综合在线观看|