張建華,徐佳璐,曹子傲,劉藝琳,王愛領
(鄭州大學 管理工程學院,河南 鄭州 450001)
業內通常基于CBR(case based reasoning)技術將隱性知識轉化為隱性知識外顯案例,從而有效克服因其明晰化程度低而導致的知識應用障礙。在隱性知識外顯案例與用戶知識需求的匹配過程中,案例視圖的計算是重要一環。馬鈺等、Joshi等在構建直覺模糊信息系統的基礎上,利用直覺模糊熵確定了直覺模糊信息系統中的屬性權重[1,2]。尹勝等針對傳統模糊熵忽視猶豫度的弊端,通過定義考慮隸屬度、非隸屬度和猶豫度的區間直覺模糊熵來計算各個屬性的權重[3]。張宇等為高效評估作戰裝備的適用性,提出了以“意見一致性最大化”為目標函數的群決策優化模型,以此完成權重確定[4]。李霞等以方案之間離差最大化為目標構建線性規劃模型求得屬性權重[5]。Liu Sen等提出了一種基于相關系數的加權方法來獲得專家權重[6]。段傳慶等將用直覺模糊數表述的屬性值轉化為雙區間數,利用離差最大化法建立新的模型確定屬性權重[7]。以上研究雖然為屬性指標權重的確定奠定了堅實的理論基礎,但都是基于“屬性之間相互獨立”的假設展開的,并未考慮屬性之間存在關聯度的情況;然而,在實際應用場景中由于客觀世界的模糊性和主觀判斷的不確定性,屬性之間難免會存在千絲萬縷的聯系。
對于隱性知識外顯案例視圖相似度的計算,常用的距離有曼哈頓距離、歐式距離、明可夫斯基距離等。在此基礎上,汪汝根等、羅驍等基于直覺模糊距離測度的公理化定義,探討并給出了測度公式一般化的構造形式[8,9];譚春橋等將猶豫度納入考慮范圍,提出了同時考慮隸屬度、非隸屬度和猶豫度的新的距離測度方法[10];付超等提出了考慮概率的猶豫直覺模糊距離測度公式[11];李春成等在猶豫模糊集的基礎上提出一種新的距離測度的方法[12]。
以上有關距離測度的研究雖各有特點,然仍有以下不足:①大多數研究都沒有將直覺模糊數自有信息量對距離測度的影響考慮在內,從而束縛了距離測度的精確性。②考慮了用戶知識需求與既有知識之間的相似度,但沒有考慮彼此之間的關聯程度,顯然既相似又相關的知識才更符合用戶需求。
針對以上不足,本文提出了以下改進思路:①在屬性權重計算方面,提出了一種既考慮屬性之間關聯度又考慮知識用戶主觀偏好的計算權重的方法,通過定義λ模糊測度、期望矩陣,引入Choquet積分作為集結算子,建立了非線性規劃模型來求解權重,實現對案例視圖的計算改進。②在用戶知識需求與既有知識之間的相似度計算方面,通過定義直覺模糊數自有信息量,消除直覺模糊數自身因素對距離測度的影響,使視圖相似度的計算更加準確和客觀;同時引入灰色關聯度測度兩者之間的關聯度,以避免相似但不相關的情況發生。
經典聚類算法通常屬于一種硬劃分,將事物嚴格劃分到某一類別中,具有“非此即彼”的特點。然而,在實際應用場景中,某些待檢測對象則“亦此亦彼”、難以被確定劃分。基于此,模糊C-均值(fuzzy C-means,FCM)聚類算法應運而生。FCM算法引入隸屬度來衡量某個待分類對象屬于某個聚類的程度,并基于“目標函數最優化”的原則,可以保留和分析更多的原始信息,使聚類結果更適用于實際場景。

(1)
直覺模糊數Q1,Q2得分函數之間的距離是
(2)
Choquet積分可以通過模糊測度來衡量條件屬性的重要程度。

(1)kλ(Y)=1;
(2)若Y1,Y2∈A(Y),Y1?Y2, 則kλ(Y1)≤kλ(Y2);
(3)若Y1,Y2∈A(Y), 則有kλ(Y1∪Y2)=kλ(Y1)+kλ(Y2)+λkλ(Y1)kλ(Y2), 則稱kλ為Y上的λ-模糊測度。
設Y={y1,y2,y3,…,ym},j=1,2,3,…m, λ值的確定如下
(3)
若Y是某個多屬性決策問題的條件屬性集,Y1,Y2∈A(Y),kλ(Y1),kλ(Y2) 可以分別作為條件子集Y1,Y2的權重,則有:
(1)當λ=0時,kλ(Y1∪Y2)=kλ(Y1)+kλ(Y2),Y1,Y2互相獨立;
(2)當-1<λ<0時,kλ(Y1∪Y2) (3)當λ>0時,kλ(Y1∪Y2)>kλ(Y1)+kλ(Y2),Y1,Y2存在互補關系; 定義2 設P是一個給定集合,函數g:P→R+,kλ為定義在P上的模糊測度,則定義在集合P上的函數g關于kλ的離散Choquet模糊積分算子表示為 (4) 其中 (1),(2),(3)…(m) 為 (1,2,3…m) 的排列,且滿足g(p(m))≥g(p(m-1))≥…≥g(p(1)),P(j)={p(j),p(j+1),p(j+2),…,p(m)}, 且P(m+1)=?。 隱性知識的形式多種多樣,結構各異,對隱性知識實施外顯化,并且為知識用戶匹配與其需求最相適的外顯案例是本文主要研究目標。當知識用戶提交新的問題或任務時,通過執行隱性知識外顯案例匹配算法在案例庫中獲取與用戶知識最相似的案例并提交,且相似度越高,說明其與用戶需求匹配度越高。 為了進一步提高隱性知識外顯案例與用戶知識需求之間匹配的效率,在匹配計算前應先剔除與決策無關的冗余屬性,從而實現對案例空間的縱向壓縮。粗糙集(rough set,RS)理論是進行屬性約簡的經典方法之一,但其僅適用于對小規模案例集的處理,隨著案例庫規模增大其運行效率會隨之降低。屬性約簡是一個尋找最優組合的過程,本文引入粒子群算法(particle swarm optimization,PSO)來改進粗糙集約簡算法[13]。粒子群算法是一種啟發式的尋優搜索算法,它源于對鳥群捕食行為的研究,是通過群體中個體之間的相互協作和信息共享來尋找最優解,具有并行計算、全局搜索能力強的特點。改進后的案例知識匹配縱向壓縮計算步驟如下: (5) (2)根據RS理論計算決策屬性集(D)對條件屬性集(T)的依賴度rst(sD) 以及去除屬性后Ci的屬性依賴度rst-ci(sD) (6) (7) 其中,card(U) 為集合的基數,posst(sD) 指在條件屬性集T中包含決策屬性集D的起始位置; (3)將條件屬性集C={c1,c2,c3,…,cm} 進行二進制編碼得到字符Y={y1,y2,y3,…,ym}, 假設其為初始化粒子群體,包括隨機的位置和速度; (4)每個粒子已知自己現在的位置和個體歷史最佳位置(pbest)以及全局最佳位置(gbest),同時均有一個由目標函數決定的適應值,用g(y) 表示,并將上述屬性依賴度融入其中 (8) (5)每個粒子將當前的適應值與pbest對應的適應度值比較,選取較高者更新為pbest;每個粒子將當前的適應值與gbest對應的適應度值比較,選取較高者更新為gbest; (6)根據以下公式調整粒子的位置xi和速度vi vi=vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi) (9) xi=xi+vi (10) 其中,rand() 代表隨機函數; (7)判斷粒子是否滿足收斂條件,如果滿足則輸出最優結果,否則返回第(4)步。 在傳統知識匹配過程中,為了尋找與用戶需求匹配度最高的隱性知識外顯案例需要遍歷案例庫全庫,導致當案例庫規模較大時匹配效率低下。FCM算法是經典的基于劃分的聚類算法,其基本思想是使得被劃分到同一簇的對象之間相似度最大,而不同簇之間的相似度最小,可用于確定與用戶需求匹配度最高的案例子集,從而有效降低時間成本。 FCM算法需要提前設定聚類數目和初始聚類中心。在實際應用過程中,算法執行者往往根據其歷史經驗和主觀判斷確定聚類數目和初始聚類中心,理論依據和科學解釋性不足。對此,本文用聚合距離參數改進FCM算法[14],通過計算各案例之間的歐氏距離確定聚合度,選取符合條件的案例作為初始聚類中心并確定聚類數目,從而避免了主觀決斷的不足,提升了聚類的精確度,具體步驟如下: 假設案例Ci特征向量為ci={e1,e2,e3,…em},則案例Ci和Cj之間的歐氏距離為 (11) 進一步地,所有案例的平均歐氏距離為 (12) 案例Ci聚合度表示為deg(Ci), 即與案例Ci的距離小于半徑r的案例數目,則有 (13) 基于聚合度可以進一步得到Ci所在集合與其它集合的平均距離 (14) 聚合度距離p(Ci) 表征案例Ci與其它聚合度較高的案例之間的距離,計算如下 (15) 知識案例集的聚合距離參數η(Ci) 為 (16) 計算案例庫中所有案例的聚合距離參數η(Ci),通過比較案例之間歐氏距離和鄰域半徑劃定聚類的范圍,選取聚合距離最大的案例作為聚類中心,迭代輸出聚類數目k。如此,將案例庫中所有的知識劃分為k類,采用FCM算法進行聚類分析,其目標函數為 (17) 迭代計算至目標函數取得最小值,對案例庫中的案例完成了聚類劃分,然后進一步計算用戶知識需求與各初始聚類中心之間的距離,選取距離最小的聚類作為與用戶知識需求進行匹配計算的目標子集,從而實現對案例匹配空間的橫向壓縮。 隱性知識外顯案例與用戶知識需求間的視圖相似度的計算是后續匹配的核心,計算案例條件屬性集對應的權重向量則是基礎性工作。在實際應用場景中,由于主觀判斷的不確定性和客觀世界的模糊性,通常很難明晰地給出條件屬性對應的權重;并且,案例各屬性之間有時還具有某種程度的關聯關系;另一方面,作為知識應用主體,知識用戶的主觀偏好顯然不容忽視。鑒于此,本文引入一種同時考慮屬性間關聯程度和知識用戶主觀偏好的屬性權重確定方法[15]。 (1)計算各條件屬性的隸屬度和非隸屬度[16,17] (18) (19) (20) 屬性權重kλ(ti) 的確定應使決策者的主觀偏好期望值與客觀屬性綜合期望值的總偏差平方和最小。為此,建立帶約束條件的非線性規劃模型 (21) 利用遺傳算法求解非線性規劃模型,求得各個屬性的權重,計算λ值并據其判斷各屬性之間的關聯度。 傳統模糊粗糙集只能通過“非此即彼”的形式來刻畫模糊信息,而直覺模糊集則更加貼合決策者對被評估主體所具有的贊同、否定以及猶豫的思維模式,因此,本文利用直覺模糊距離測度用戶知識需求與案例庫中案例的距離,同時基于上述屬性之間存在關聯的情況,即存在互補或者冗余的關系,屬性值自有信息量對于距離測度的影響亦不容忽視;然而,既有研究鮮少有人將其自有信息量考慮在內。于此,本文建立了一種考慮自有信息量的直覺模糊距離測度方法。隱性知識存在顯著的個體差異性,可能會出現“相似度高但是關聯度不高”,或者“相似度不高但是關聯度高”的情況,顯然對于知識用戶而言,既相似又相關的知識更具價值。鑒于此,本文引入一種基于灰色關聯系數的直覺模糊相似度測度方法[18],以確保計算的準確性和客觀性。 (1)假設C00=〈0,0〉 代表猶豫度最高的直覺模糊數,則Cij=(μα,να) 的自有信息量可用C00和Cij間的距離來表示 (22) (2)在考慮直覺模糊數自有信息量的情況下,計算案例集中案例Ci與用戶知識需求C0在條件屬性j方面的距離 (23) (3)假設用戶知識需求C0的直接模糊數為P={p1,p2,p3,…,pm},Ci的直覺模糊數為Q={q1,q2,q3,…,qm}, 其中pi=(μi,νi),qj=(μj,νj),i,j=1,2,3,…,m, 同時考慮條件屬性權重wk的影響,可以求得用戶知識需求C0與案例Ci之間的相似程度,即視圖相似度 (24) (4)知識用戶C0與案例Ci之間的灰色關聯系數為 (25) (5)將直覺模糊相似度測度與灰色關聯系數分析相結合,構建模糊知識關聯匹配模型,得到最終用戶知識需求與既有隱性知識外顯案例之間的相似度 S(C0,Ci)=τ·sim(C0,Ci)+(1-τ)·σ(j) (26) 式中:S(C0,Ci) 為匹配度,sim(C0,Ci) 為直覺模糊相似度,σ(j) 為灰色關聯系數,τ∈(0,1) 為調節因子。 綜上所述,基于已有研究成果,本文提出了一套隱性知識外顯案例供需匹配算法,以期更高效地滿足用戶知識需求。該算法的具體過程如下:①構建知識表達系統,基于粒子群算法全局尋優能力強的特點,將其與RS理論相結合,依據最小屬性數、最大依賴度原則對知識表達系統條件屬性集進行選擇,尋找最優的條件屬性組合,從而實現對案例匹配空間的縱向壓縮。②引入聚合距離參數并據其確定FCM算法合理聚類數,然后基于FCM算法對全庫實施聚類劃分,得到與用戶知識需求最相關的知識匹配子集,從而實現對案例匹配空間的橫向壓縮。③將屬性值用直覺模糊數表示,構成直覺模糊決策矩陣,基于客觀屬性綜合期望值與個人主觀偏好最小化的原則,引入Choquet模糊積分作為集結算子,建立非線性規劃模型求解權重。④基于考慮自有信息量的直覺模糊距離測度和前述屬性權重,計算視圖相似度;同時以灰色關聯系數衡量用戶知識需求與既有案例知識之間的相關性,得到最終匹配度。⑤將最終匹配度與預設匹配閾值進行比較,如果所有的匹配度均小于匹配閾值,則匹配失敗;否則將匹配度大于匹配閾值的隱性知識外顯案例按匹配度降序排列,提交知識用戶。 本文實驗環境為Intel core i5處理器、16 GB內存,windows11(64 bit)操作系統,利用MATLAB R2016a軟件進行實驗操作,同時選取UCI數據庫中“winequality-red”數據集進行實證分析。winequality-red數據集根據葡萄酒質量評分來預測其質量的優劣,共包括1600條數據,11個條件屬性和1個決策屬性,用T={t1,t2,t3,…,t11} 表示條件屬性集{非揮發性酸,揮發性酸,檸檬酸,殘留糖,氯化物,游離二氧化硫,二氧化硫總量,濃度,酸堿度,硫酸鹽,酒精}。 首先對winequality-red數據集進行標準化,即對于任意tij∈T進行處理;基于PSO-RS算法尋找最優的屬性組合,從而對案例空間進行縱向壓縮。通過生成位置和速度均為隨機的初始粒子群體,不斷比較粒子的適應度得到最優的條件屬性集合T={t1,t6,t7,t8,t9,t11}, 亦即T={非揮發性酸,游離二氧化硫,二氧化硫總量,濃度,酸堿度,酒精}; 而后根據聚合距離參數改進的FCM算法,通過用Matlab R2016a進行聚類分析,得到最佳聚類數目K=10,輸出各個區域的聚類中心見表1。假設對應的用戶知識需求是C0=(0.4779,0.0704,0.0177,0.4244,0.3858,0.5538)。 后續將通過本文算法為用戶提供滿足匹配閾值最相關的知識。 表1 最終聚類中心 計算用戶知識需求與各聚類中心的距離,結果見表2。 表2 用戶知識需求與各聚類中心的距離 在表2中,聚類4與用戶知識需求最相近,后續僅考慮該聚類中78個案例知識(如表3所示)與用戶需求的相似程度。通過對案例匹配空間的橫向壓縮,提高了案例檢索的效率。 表3 聚類4案例子集(部分) 將上述案例知識用直覺模糊數的形式表示,建立直覺模糊決策矩陣,結果見表4。 表4 直覺模糊決策矩陣(部分) 將直覺模糊決策矩陣轉化為其期望矩陣,已知知識用戶對案例庫中案例主觀偏好以及其對應的期望值見表5。 表5 主觀偏好及期望值 基于式(21)建立非線性規劃模型,利用遺傳算法解得條件屬性集的權重是Tj=(0.2568,0.1365,0.1654,0.1532,0.2214,0.3276), 同時求得λ=-0.1864<0, 說明條件屬性之間存在冗余關聯。 為了兼顧相似度和關聯度,令τ=0.5, 根據式(24)到式(26)計算用戶知識需求C0和案例Ci的視圖相似度、灰色關聯系數和匹配度,結果見表6。 表6 最終匹配度 設定匹配閾值為0.9382,將匹配度高于閾值的案例依匹配度降序提交給用戶,如表7所示。 表7 匹配度(TOP12) 為驗證本文算法先進性,將其與不考慮自有信息量的基于灰色關聯的直覺模糊相似度算法和基于歐氏距離的匹配算法作比較,結果見表8。 表8 兩種方法下的視圖相似度 可以看出,本文算法得到的匹配精度達到了0.9688,可以基本滿足用戶的知識需求,同時其匹配精度也明顯優于上述兩種算法,具有比較優勢。其原因如下:與第(1)種算法相比較,本文的相似度計算方法考慮了直覺模糊數的自有信息量對距離測度的影響,更具科學性和客觀性;與第(2)種算法相比較,本文將案例知識用直覺模糊數來表示,避免了傳統算法對數據進行離散化處理造成的知識損失。 綜上所述,相較于既有算法,本文提出的隱性知識外顯案例匹配算法具有以下改進: (1)傳統匹配算法在計算屬性權重時大多基于屬性之間相互獨立設定并忽略知識用戶對案例主觀偏好,鮮有人既考慮條件屬性之間的關聯度又兼顧知識用戶主觀需求。本文首先基于數據完備性的考慮用直覺模糊數表示案例屬性值,進而定義λ-模糊測度衡量屬性之間關聯程度,并引入Choquet模糊積分作為集結算子,依據客觀屬性綜合期望值與用戶主觀偏好值最小的原則建立非線性規劃模型,求解屬性權重和λ值。這種求解權重的方法最大限度發揮了客觀模糊信息的作用,并充分考慮了知識用戶的主觀意志。 (2)在相似度計算方面,與傳統算法相比較,本文提出了考慮自有信息量的直覺模糊相似度計算方法,同時兼顧案例知識屬性之間的關聯度,用灰色關聯系數改進直覺模糊相似度,使得隱性知識外顯案例供需匹配算法更加科學,從而更好地滿足用戶需求。 隨著科技進步與社會發展,知識尤其是隱性知識的存量迅猛增加,基于既有隱性知識外顯案例集對用戶知識需求給予高效匹配,成為知識服務相關主體關注的焦點。本文在前人研究的基礎之上,設計并提出了一套隱性知識外顯案例供需匹配算法,并通過算例驗證了該算法的有效性和比較優勢。面向用戶知識需求,基于該算法得到的匹配案例集,進一步實施有效的隱性知識外顯案例適配,將是后續的研究工作。2 隱性知識外顯案例供需匹配算法
2.1 案例知識匹配空間縱向壓縮

2.2 案例知識匹配空間橫向壓縮

2.3 權重確定



2.4 基于灰色關聯系數的直覺模糊相似度計算


3 案例分析








4 結束語