基于相似度計算的信息化項目與專家匹配方法

2013-07-06 02:02:06荊于勤

重慶理工大學學報(自然科學) 2013年4期

陳莊，荊于勤

(重慶理工大學計算機科學與工程學院，重慶 400054)

信息化咨詢［1］也稱為IT咨詢，是管理咨詢的一種。信息化咨詢是管理咨詢和信息化技術相結合的產物［2-3］。在信息化咨詢過程中，咨詢專家需要對企業進行充分的調研和需求分析，甚至要對管理流程重新設計，將企業的核心問題歸納出來，分析企業需要怎樣的管理方和管理軟件。在企業信息化過程中，咨詢專家的作用不可低估，而且在信息系統交付使用后，專家還要定期進行系統運行效率評估。專家的參與保障了項目的順利進行和項目效益的最大化。因此，面對存儲在專家庫中各個領域眾多的專家信息，如何選取合適的專家對項目進行咨詢，選取怎樣的專家組合才能保證咨詢工作的公正性、科學性和合理性，從而達到最佳的匹配效果是非常重要的。現階段，對于專家的選擇一般是通過簡單的隨機抽取，或者應用均衡隨機抽取模型。這種匹配方式屬于簡單的基于關鍵字的匹配，不能較好地利用專家的動態信息(如專家的領域成就、經驗經歷等信息)，不能保障項目與專家匹配的科學性。

針對這一問題，本文引入本體的概念，通過分析項目描述與專家信息，計算其語義相似度，按照相似度的大小確定項目與專家匹配與否，從而提高了項目與專家的匹配度和咨詢評審的科學性［4-9］。

1 相關方法

1.1 基于點和基于邊的語義相似度計算方法

基于本體的語義相似度計算主要有2個比較經典的方法:基于點的計算方法(node-based approach)和基于邊的計算方法(edge-based approach)。基于點的相似度計算方法也叫作信息容量法［4］。信息容量通過量化概念及其實例對象的權重或者出現的概率，反映出概念和其實例對象的語義的內容大小。在本體樹形結構中，一個點表示一個概念，即表示了相關的語義內容。概念的抽象程度隨著所在層次的提高而提高，因此反映出的信息內容隨著抽象程度的提高而減少;相反，信息內容隨著具體程度的提高反映得越多，則層次越往下走，概念所表示的含義越細化、具體。即如果概念c1的結構層次高于概念c2的結構層次，則用公式表示為

因此，存在信息內容IC(c1)＞IC(c2)。

對于任意概念節點c的信息內容IC(c)可通過式(2)計算。

其中:freq(c)表示其出現頻率;N取所有頻率的最大值。基于以上的定義和公式，可以計算概念c1和c2的相似度，如式(3)所示。

其中Sup(c1，c2)表示概念c1和c2所有的共同的父概念的集合。同樣，對于所有的概念 c，都有Concept(c).child(i)={c1，c2}。在將文檔中的詞語概念化的過程中，會發現一個詞語通常對應了幾個概念，即存在一詞多義的問題，導致在構建的概念樹上雖然是同一結點，但位于樹的不同分支上。針對這一問題，在計算2個詞語之間相似度時，先找出詞語的所有概念形式，計算所有概念形式的相似度，并選擇最大值作為計算結果。

基于邊的相似度計算方法的基本思想是通過分析2個概念在本體樹中路徑的長度來計算它們之間的語義距離。2個詞語之間的相似度隨著語義距離的增加而降低，隨著語義距離的減少而增加。由于2個結點之間可能存在多條路徑且邊數不唯一，可以利用最短路徑來表示概念間的相似度，公式為

其中:sen(w)表示詞語w的所有概念的表示形式;len(c1，c2)表示2個概念之間的距離;dmax表示2個概念的層次的最大值。

1.2 改進的混合語義相似度計算方法

通過分析基于點和基于邊的2種經典的語義相似度計算方法，并且針對信息化咨詢項目與領域專家匹配的問題，提出了需要改進的幾點:

1)雖然基于點的方法充分運用了概率統計和信息論的一些相關知識，而且實施起來也比較簡單，但是在計算的過程中對2點之間的距離對相似度的影響缺乏考慮。

2)對于基于邊的方法只是單純地考慮了樹結構中結點之間的距離，即最短路徑，沒有結合一詞多義現象中概念出現頻率所傳達出的信息(出現的頻率越高，表示它的重要性越大)，因此相應的相似度計算結果也會不同。

3)基于點和基于邊的方法都只是局限于對一棵數中結點的計算，而未考慮到不同樹中的2點和樹與樹之間相似度的計算。而本文要解決的匹配問題是計算項目信息和專家信息的相似度，即樹與樹之間相似度的計算。

混合語義相似度計算方法通過設置權重來表示概念點的重要性，并聯系到概念詞于本體樹中所處的區域的密集度和所在深度，將2個概念點的最短路徑邊上的權重值相加，代替簡單累計2個概念點間所擁有的邊數量，從而得到2個概念點的距離。同時，不僅計算同一棵樹中2結點的語義相似度和不同樹中2結點的語義相似度，還計算不同樹之間的語義相似度。為了便于計算相似度，先將描述項目和專家信息的非結構文檔進行結構化處理，即將文本文檔轉化成了概念樹的形式。每個文本文檔用一維概念向量來表示概念樹，用一維權重向量來表示相應的權重。

例如文檔D1描述的是信息化項目的信息，D2描述的是信息化領域專家的信息，則形式化后的概念向量為分別為:D1={c11，c22，…，c1m}，D2={c21，c22，…，c2n}，其相應的權重向量分別為:W1={w11，w12，…，w1m}，W2={w21，w22，…，w2n}。對于2個概念點c1i和c2j的父概念點C可以表示為C={ci|ci.child(x)=c1∧ci.child(y)=c2}，同時滿足c={ci|ci∈C∧min［len(ci，c1)+len(ci，c2)］}，那么，概念c1i和c2j的相似度計算公式為

其中w'1i和w'2j為2個概念點歸一化計算后的權重。進而，兩文檔的相似度計算公式為

2 項目與專家匹配過程分析

在信息化咨詢項目和領域專家的匹配中，需要處理2類信息:一類是項目信息，從項目需求、說明等材料中獲取，其基本信息包括項目名稱、研究屬性、申請日期等;另一類是專家信息，可通過專家所發表的論文、經歷、榮譽等方面獲取，其基本信息包括姓名、性別、出生日期、聯系方式和單位等，還包括專家的學術研究領域、成果和經歷等。

首先指定一個需要匹配的項目，并選擇若干個候選專家計算相似度，根據計算的結果排序。項目與專家匹配主要包括4個步驟:構建本體模型、標注本體、計算相似度、確定匹配專家。

1)構建本體模型。本文選定科學研究領域為本體的構建領域，其概念源于學術研究中比較常用的詞匯和短語。選用 protégé3.4.4 版本建立本體概念模型，再將概念數據存入數據庫中。

2)標注本體。一些通過Web方式輸入的信息生成的是結構化的信息，而也有一些是導入的非結構化的包含專家和項目信息的文檔。首先，將這些非結構化的信息用本體中包含的概念和表達的層次關系來描述，每一個概念結點對應于文檔信息中的一個知識要點，然后利用語法結構對文檔進行標注。

3)計算相似度。形式化后得到的是一個樹型知識結構，通過本文介紹的混合語義相似度計算方法，將知識結構轉換為知識向量，先計算項目和專家之間每一個概念之間的相似度，再計算項目概念樹和專家概念樹的相似度。

4)確定匹配專家。待選專家按所計算的相似度結果從大到小排序。例如該項目需要5位專家，就選擇排序后的前5位專家作為該項目的匹配專家。

3 實例分析

為了驗證上述方法的有效性，選取若干項目和專家組作為實驗對象。首先，由本領域專家先根據個人判斷給出每個項目與候選專家的相似度S2，即對它們的相似度作一個主觀判斷評價。然后利用混合語義相似度計算方法進行相似度計算，得到S1。為了方便對比分析，將S1與S2的值相比得到擬合度F，如表1所示。

表1 相似度計算結果比較

這里需要說明的是，由于通過計算得出的值和專家給定的值不是一個數量級，所以，表里給出的是經過歸一化后的計算結果。項目A和項目B的平均擬合度分別為82.18%和79.80%，這說明利用本文提出的方法進行項目與專家的匹配是比較合理、科學的。

4 結束語

為了保障專家咨詢工作的公正性、科學性和合理性，選取匹配的項目專家組合，本研究規避了現階段存在的簡單隨機抽取或者均衡隨機抽取方法的弊端，解決了基于關鍵字的專家選擇缺乏語義理解的問題。引入了本體的概念，通過分析項目描述與專家信息，計算其語義相似度，按照相似度的大小確定項目與專家匹配與否，從而為項目找到最合適的專家，提高了咨詢評審的科學性。實例分析結果表明，本文提出的計算2顆概念樹的相似度計算方法較全面地考慮了應用特點，相比傳統的方法，結果更精確合理。并且，將本體的應用引入這一領域，為以后專家抽取的研究提供了新思路。

［1］丁秋林.企業信息化咨詢［M］.北京：華夏出版社，2003.

［2］劉紅.中小企業的信息化問題與對策［J］.經濟論壇，2004，22：23-25.

［3］Van Leeuwen J.Approaches in machine learning［M］.［S.l.］：ALGORITHMS IN AMBIENT INTELLIGENCE，2004：151-166.

［4］吳江寧，楊光飛.基于本體的項目和領域專家匹配原型系統［J］.計算機應用研究，2009，26(10)：3787-3790.

［5］姜華.一種基于本體的概念語義相似度計算研究［J］.計算機應用與軟件，2009，26(7)：143-145.

［6］劉宏哲，須德.基于本體的語義相似度和相關度計算研究綜述［J］.計算機科學，2012，39(2)：8-13.

［7］康文寧，楊志強.相似度計算在智能答疑系統中的研究及應用［J］.計算機技術與發展，2010，20(2)：71-74.

［8］L i S J，Zhang J，Huang X，et al.Semantic computation in Chinese question-answering system［J］.Comput Sci Tech，2002，17(6)：933-939.

［9］Ristad E S，Yianilos P N.Learning string-edit distance［J］.IEEE PAM I，1998，20(5)：522-532.