隱性知識外顯案例匹配雙維改進

2023-10-12 01:27:10張建華徐佳璐曹子傲劉藝琳王愛領(lǐng)

計算機工程與設(shè)計 2023年9期

關(guān)鍵詞：案例用戶

張建華，徐佳璐，曹子傲，劉藝琳，王愛領(lǐng)

(鄭州大學管理工程學院，河南鄭州 450001)

0 引言

業(yè)內(nèi)通常基于CBR(case based reasoning)技術(shù)將隱性知識轉(zhuǎn)化為隱性知識外顯案例，從而有效克服因其明晰化程度低而導(dǎo)致的知識應(yīng)用障礙。在隱性知識外顯案例與用戶知識需求的匹配過程中，案例視圖的計算是重要一環(huán)。馬鈺等、Joshi等在構(gòu)建直覺模糊信息系統(tǒng)的基礎(chǔ)上，利用直覺模糊熵確定了直覺模糊信息系統(tǒng)中的屬性權(quán)重[1，2]。尹勝等針對傳統(tǒng)模糊熵忽視猶豫度的弊端，通過定義考慮隸屬度、非隸屬度和猶豫度的區(qū)間直覺模糊熵來計算各個屬性的權(quán)重[3]。張宇等為高效評估作戰(zhàn)裝備的適用性，提出了以“意見一致性最大化”為目標函數(shù)的群決策優(yōu)化模型，以此完成權(quán)重確定[4]。李霞等以方案之間離差最大化為目標構(gòu)建線性規(guī)劃模型求得屬性權(quán)重[5]。Liu Sen等提出了一種基于相關(guān)系數(shù)的加權(quán)方法來獲得專家權(quán)重[6]。段傳慶等將用直覺模糊數(shù)表述的屬性值轉(zhuǎn)化為雙區(qū)間數(shù)，利用離差最大化法建立新的模型確定屬性權(quán)重[7]。以上研究雖然為屬性指標權(quán)重的確定奠定了堅實的理論基礎(chǔ)，但都是基于“屬性之間相互獨立”的假設(shè)展開的，并未考慮屬性之間存在關(guān)聯(lián)度的情況；然而，在實際應(yīng)用場景中由于客觀世界的模糊性和主觀判斷的不確定性，屬性之間難免會存在千絲萬縷的聯(lián)系。

對于隱性知識外顯案例視圖相似度的計算，常用的距離有曼哈頓距離、歐式距離、明可夫斯基距離等。在此基礎(chǔ)上，汪汝根等、羅驍?shù)然谥庇X模糊距離測度的公理化定義，探討并給出了測度公式一般化的構(gòu)造形式[8，9]；譚春橋等將猶豫度納入考慮范圍，提出了同時考慮隸屬度、非隸屬度和猶豫度的新的距離測度方法[10]；付超等提出了考慮概率的猶豫直覺模糊距離測度公式[11]；李春成等在猶豫模糊集的基礎(chǔ)上提出一種新的距離測度的方法[12]。

以上有關(guān)距離測度的研究雖各有特點，然仍有以下不足：①大多數(shù)研究都沒有將直覺模糊數(shù)自有信息量對距離測度的影響考慮在內(nèi)，從而束縛了距離測度的精確性。②考慮了用戶知識需求與既有知識之間的相似度，但沒有考慮彼此之間的關(guān)聯(lián)程度，顯然既相似又相關(guān)的知識才更符合用戶需求。

針對以上不足，本文提出了以下改進思路：①在屬性權(quán)重計算方面，提出了一種既考慮屬性之間關(guān)聯(lián)度又考慮知識用戶主觀偏好的計算權(quán)重的方法，通過定義λ模糊測度、期望矩陣，引入Choquet積分作為集結(jié)算子，建立了非線性規(guī)劃模型來求解權(quán)重，實現(xiàn)對案例視圖的計算改進。②在用戶知識需求與既有知識之間的相似度計算方面，通過定義直覺模糊數(shù)自有信息量，消除直覺模糊數(shù)自身因素對距離測度的影響，使視圖相似度的計算更加準確和客觀；同時引入灰色關(guān)聯(lián)度測度兩者之間的關(guān)聯(lián)度，以避免相似但不相關(guān)的情況發(fā)生。

1 相關(guān)知識

1.1 FCM聚類算法

經(jīng)典聚類算法通常屬于一種硬劃分，將事物嚴格劃分到某一類別中，具有“非此即彼”的特點。然而，在實際應(yīng)用場景中，某些待檢測對象則“亦此亦彼”、難以被確定劃分?；诖?，模糊C-均值(fuzzy C-means，F(xiàn)CM)聚類算法應(yīng)運而生。FCM算法引入隸屬度來衡量某個待分類對象屬于某個聚類的程度，并基于“目標函數(shù)最優(yōu)化”的原則，可以保留和分析更多的原始信息，使聚類結(jié)果更適用于實際場景。

1.2 直覺模糊集

(1)

直覺模糊數(shù)Q1，Q2得分函數(shù)之間的距離是

(2)

1.3 模糊測度和Choquet模糊積分

Choquet積分可以通過模糊測度來衡量條件屬性的重要程度。

(1)kλ(Y)=1；

(2)若Y1，Y2∈A(Y)，Y1?Y2，則kλ(Y1)≤kλ(Y2)；

(3)若Y1，Y2∈A(Y)，則有kλ(Y1∪Y2)=kλ(Y1)+kλ(Y2)+λkλ(Y1)kλ(Y2)，則稱kλ為Y上的λ-模糊測度。

設(shè)Y={y1，y2，y3，…，ym}，j=1，2，3，…m， λ值的確定如下

(3)

若Y是某個多屬性決策問題的條件屬性集，Y1，Y2∈A(Y)，kλ(Y1)，kλ(Y2) 可以分別作為條件子集Y1，Y2的權(quán)重，則有：

(1)當λ=0時，kλ(Y1∪Y2)=kλ(Y1)+kλ(Y2)，Y1，Y2互相獨立；

(2)當-1<λ<0時，kλ(Y1∪Y2)

(3)當λ>0時，kλ(Y1∪Y2)>kλ(Y1)+kλ(Y2)，Y1，Y2存在互補關(guān)系；

定義2 設(shè)P是一個給定集合，函數(shù)g：P→R+，kλ為定義在P上的模糊測度，則定義在集合P上的函數(shù)g關(guān)于kλ的離散Choquet模糊積分算子表示為

(4)

其中 (1)，(2)，(3)…(m) 為 (1，2，3…m) 的排列，且滿足g(p(m))≥g(p(m-1))≥…≥g(p(1))，P(j)={p(j)，p(j+1)，p(j+2)，…，p(m)}，且P(m+1)=?。

2 隱性知識外顯案例供需匹配算法

隱性知識的形式多種多樣，結(jié)構(gòu)各異，對隱性知識實施外顯化，并且為知識用戶匹配與其需求最相適的外顯案例是本文主要研究目標。當知識用戶提交新的問題或任務(wù)時，通過執(zhí)行隱性知識外顯案例匹配算法在案例庫中獲取與用戶知識最相似的案例并提交，且相似度越高，說明其與用戶需求匹配度越高。

2.1 案例知識匹配空間縱向壓縮

為了進一步提高隱性知識外顯案例與用戶知識需求之間匹配的效率，在匹配計算前應(yīng)先剔除與決策無關(guān)的冗余屬性，從而實現(xiàn)對案例空間的縱向壓縮。粗糙集(rough set，RS)理論是進行屬性約簡的經(jīng)典方法之一，但其僅適用于對小規(guī)模案例集的處理，隨著案例庫規(guī)模增大其運行效率會隨之降低。屬性約簡是一個尋找最優(yōu)組合的過程，本文引入粒子群算法(particle swarm optimization，PSO)來改進粗糙集約簡算法[13]。粒子群算法是一種啟發(fā)式的尋優(yōu)搜索算法，它源于對鳥群捕食行為的研究，是通過群體中個體之間的相互協(xié)作和信息共享來尋找最優(yōu)解，具有并行計算、全局搜索能力強的特點。改進后的案例知識匹配縱向壓縮計算步驟如下：

(5)

(2)根據(jù)RS理論計算決策屬性集(D)對條件屬性集(T)的依賴度rst(sD) 以及去除屬性后Ci的屬性依賴度rst-ci(sD)

(6)

(7)

其中，card(U) 為集合的基數(shù)，posst(sD) 指在條件屬性集T中包含決策屬性集D的起始位置；

(3)將條件屬性集C={c1，c2，c3，…，cm} 進行二進制編碼得到字符Y={y1，y2，y3，…，ym}，假設(shè)其為初始化粒子群體，包括隨機的位置和速度；

(4)每個粒子已知自己現(xiàn)在的位置和個體歷史最佳位置(pbest)以及全局最佳位置(gbest)，同時均有一個由目標函數(shù)決定的適應(yīng)值，用g(y) 表示，并將上述屬性依賴度融入其中

(8)

(5)每個粒子將當前的適應(yīng)值與pbest對應(yīng)的適應(yīng)度值比較，選取較高者更新為pbest；每個粒子將當前的適應(yīng)值與gbest對應(yīng)的適應(yīng)度值比較，選取較高者更新為gbest；

(6)根據(jù)以下公式調(diào)整粒子的位置xi和速度vi

vi=vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)

(9)

xi=xi+vi

(10)

其中，rand() 代表隨機函數(shù)；

(7)判斷粒子是否滿足收斂條件，如果滿足則輸出最優(yōu)結(jié)果，否則返回第(4)步。

2.2 案例知識匹配空間橫向壓縮

在傳統(tǒng)知識匹配過程中，為了尋找與用戶需求匹配度最高的隱性知識外顯案例需要遍歷案例庫全庫，導(dǎo)致當案例庫規(guī)模較大時匹配效率低下。FCM算法是經(jīng)典的基于劃分的聚類算法，其基本思想是使得被劃分到同一簇的對象之間相似度最大，而不同簇之間的相似度最小，可用于確定與用戶需求匹配度最高的案例子集，從而有效降低時間成本。

FCM算法需要提前設(shè)定聚類數(shù)目和初始聚類中心。在實際應(yīng)用過程中，算法執(zhí)行者往往根據(jù)其歷史經(jīng)驗和主觀判斷確定聚類數(shù)目和初始聚類中心，理論依據(jù)和科學解釋性不足。對此，本文用聚合距離參數(shù)改進FCM算法[14]，通過計算各案例之間的歐氏距離確定聚合度，選取符合條件的案例作為初始聚類中心并確定聚類數(shù)目，從而避免了主觀決斷的不足，提升了聚類的精確度，具體步驟如下：

假設(shè)案例Ci特征向量為ci={e1，e2，e3，…em}，則案例Ci和Cj之間的歐氏距離為

(11)

進一步地，所有案例的平均歐氏距離為

(12)

案例Ci聚合度表示為deg(Ci)，即與案例Ci的距離小于半徑r的案例數(shù)目，則有

(13)

基于聚合度可以進一步得到Ci所在集合與其它集合的平均距離

(14)

聚合度距離p(Ci) 表征案例Ci與其它聚合度較高的案例之間的距離，計算如下

(15)

知識案例集的聚合距離參數(shù)η(Ci) 為

(16)

計算案例庫中所有案例的聚合距離參數(shù)η(Ci)，通過比較案例之間歐氏距離和鄰域半徑劃定聚類的范圍，選取聚合距離最大的案例作為聚類中心，迭代輸出聚類數(shù)目k。如此，將案例庫中所有的知識劃分為k類，采用FCM算法進行聚類分析，其目標函數(shù)為

(17)

迭代計算至目標函數(shù)取得最小值，對案例庫中的案例完成了聚類劃分，然后進一步計算用戶知識需求與各初始聚類中心之間的距離，選取距離最小的聚類作為與用戶知識需求進行匹配計算的目標子集，從而實現(xiàn)對案例匹配空間的橫向壓縮。

2.3 權(quán)重確定

隱性知識外顯案例與用戶知識需求間的視圖相似度的計算是后續(xù)匹配的核心，計算案例條件屬性集對應(yīng)的權(quán)重向量則是基礎(chǔ)性工作。在實際應(yīng)用場景中，由于主觀判斷的不確定性和客觀世界的模糊性，通常很難明晰地給出條件屬性對應(yīng)的權(quán)重；并且，案例各屬性之間有時還具有某種程度的關(guān)聯(lián)關(guān)系；另一方面，作為知識應(yīng)用主體，知識用戶的主觀偏好顯然不容忽視。鑒于此，本文引入一種同時考慮屬性間關(guān)聯(lián)程度和知識用戶主觀偏好的屬性權(quán)重確定方法[15]。

(1)計算各條件屬性的隸屬度和非隸屬度[16，17]

(18)

(19)

(20)

屬性權(quán)重kλ(ti) 的確定應(yīng)使決策者的主觀偏好期望值與客觀屬性綜合期望值的總偏差平方和最小。為此，建立帶約束條件的非線性規(guī)劃模型

(21)

利用遺傳算法求解非線性規(guī)劃模型，求得各個屬性的權(quán)重，計算λ值并據(jù)其判斷各屬性之間的關(guān)聯(lián)度。

2.4 基于灰色關(guān)聯(lián)系數(shù)的直覺模糊相似度計算

傳統(tǒng)模糊粗糙集只能通過“非此即彼”的形式來刻畫模糊信息，而直覺模糊集則更加貼合決策者對被評估主體所具有的贊同、否定以及猶豫的思維模式，因此，本文利用直覺模糊距離測度用戶知識需求與案例庫中案例的距離，同時基于上述屬性之間存在關(guān)聯(lián)的情況，即存在互補或者冗余的關(guān)系，屬性值自有信息量對于距離測度的影響亦不容忽視；然而，既有研究鮮少有人將其自有信息量考慮在內(nèi)。于此，本文建立了一種考慮自有信息量的直覺模糊距離測度方法。隱性知識存在顯著的個體差異性，可能會出現(xiàn)“相似度高但是關(guān)聯(lián)度不高”，或者“相似度不高但是關(guān)聯(lián)度高”的情況，顯然對于知識用戶而言，既相似又相關(guān)的知識更具價值。鑒于此，本文引入一種基于灰色關(guān)聯(lián)系數(shù)的直覺模糊相似度測度方法[18]，以確保計算的準確性和客觀性。

(1)假設(shè)C00=〈0，0〉代表猶豫度最高的直覺模糊數(shù)，則Cij=(μα，να) 的自有信息量可用C00和Cij間的距離來表示

(22)

(2)在考慮直覺模糊數(shù)自有信息量的情況下，計算案例集中案例Ci與用戶知識需求C0在條件屬性j方面的距離

(23)

(3)假設(shè)用戶知識需求C0的直接模糊數(shù)為P={p1，p2，p3，…，pm}，Ci的直覺模糊數(shù)為Q={q1，q2，q3，…，qm}，其中pi=(μi，νi)，qj=(μj，νj)，i，j=1，2，3，…，m，同時考慮條件屬性權(quán)重wk的影響，可以求得用戶知識需求C0與案例Ci之間的相似程度，即視圖相似度

(24)

(4)知識用戶C0與案例Ci之間的灰色關(guān)聯(lián)系數(shù)為

(25)

(5)將直覺模糊相似度測度與灰色關(guān)聯(lián)系數(shù)分析相結(jié)合，構(gòu)建模糊知識關(guān)聯(lián)匹配模型，得到最終用戶知識需求與既有隱性知識外顯案例之間的相似度

S(C0，Ci)=τ·sim(C0，Ci)+(1-τ)·σ(j)

(26)

式中：S(C0，Ci) 為匹配度，sim(C0，Ci) 為直覺模糊相似度，σ(j) 為灰色關(guān)聯(lián)系數(shù)，τ∈(0，1) 為調(diào)節(jié)因子。

綜上所述，基于已有研究成果，本文提出了一套隱性知識外顯案例供需匹配算法，以期更高效地滿足用戶知識需求。該算法的具體過程如下：①構(gòu)建知識表達系統(tǒng)，基于粒子群算法全局尋優(yōu)能力強的特點，將其與RS理論相結(jié)合，依據(jù)最小屬性數(shù)、最大依賴度原則對知識表達系統(tǒng)條件屬性集進行選擇，尋找最優(yōu)的條件屬性組合，從而實現(xiàn)對案例匹配空間的縱向壓縮。②引入聚合距離參數(shù)并據(jù)其確定FCM算法合理聚類數(shù)，然后基于FCM算法對全庫實施聚類劃分，得到與用戶知識需求最相關(guān)的知識匹配子集，從而實現(xiàn)對案例匹配空間的橫向壓縮。③將屬性值用直覺模糊數(shù)表示，構(gòu)成直覺模糊決策矩陣，基于客觀屬性綜合期望值與個人主觀偏好最小化的原則，引入Choquet模糊積分作為集結(jié)算子，建立非線性規(guī)劃模型求解權(quán)重。④基于考慮自有信息量的直覺模糊距離測度和前述屬性權(quán)重，計算視圖相似度；同時以灰色關(guān)聯(lián)系數(shù)衡量用戶知識需求與既有案例知識之間的相關(guān)性，得到最終匹配度。⑤將最終匹配度與預(yù)設(shè)匹配閾值進行比較，如果所有的匹配度均小于匹配閾值，則匹配失敗；否則將匹配度大于匹配閾值的隱性知識外顯案例按匹配度降序排列，提交知識用戶。

3 案例分析

本文實驗環(huán)境為Intel core i5處理器、16 GB內(nèi)存，windows11(64 bit)操作系統(tǒng)，利用MATLAB R2016a軟件進行實驗操作，同時選取UCI數(shù)據(jù)庫中“winequality-red”數(shù)據(jù)集進行實證分析。winequality-red數(shù)據(jù)集根據(jù)葡萄酒質(zhì)量評分來預(yù)測其質(zhì)量的優(yōu)劣，共包括1600條數(shù)據(jù)，11個條件屬性和1個決策屬性，用T={t1，t2，t3，…，t11} 表示條件屬性集{非揮發(fā)性酸，揮發(fā)性酸，檸檬酸，殘留糖，氯化物，游離二氧化硫，二氧化硫總量，濃度，酸堿度，硫酸鹽，酒精}。

首先對winequality-red數(shù)據(jù)集進行標準化，即對于任意tij∈T進行處理；基于PSO-RS算法尋找最優(yōu)的屬性組合，從而對案例空間進行縱向壓縮。通過生成位置和速度均為隨機的初始粒子群體，不斷比較粒子的適應(yīng)度得到最優(yōu)的條件屬性集合T={t1，t6，t7，t8，t9，t11}，亦即T={非揮發(fā)性酸，游離二氧化硫，二氧化硫總量，濃度，酸堿度，酒精}；而后根據(jù)聚合距離參數(shù)改進的FCM算法，通過用Matlab R2016a進行聚類分析，得到最佳聚類數(shù)目K=10，輸出各個區(qū)域的聚類中心見表1。假設(shè)對應(yīng)的用戶知識需求是C0=(0.4779，0.0704，0.0177，0.4244，0.3858，0.5538)。后續(xù)將通過本文算法為用戶提供滿足匹配閾值最相關(guān)的知識。

表1 最終聚類中心

計算用戶知識需求與各聚類中心的距離，結(jié)果見表2。

表2 用戶知識需求與各聚類中心的距離

在表2中，聚類4與用戶知識需求最相近，后續(xù)僅考慮該聚類中78個案例知識(如表3所示)與用戶需求的相似程度。通過對案例匹配空間的橫向壓縮，提高了案例檢索的效率。

表3 聚類4案例子集(部分)

將上述案例知識用直覺模糊數(shù)的形式表示，建立直覺模糊決策矩陣，結(jié)果見表4。

表4 直覺模糊決策矩陣(部分)

將直覺模糊決策矩陣轉(zhuǎn)化為其期望矩陣，已知知識用戶對案例庫中案例主觀偏好以及其對應(yīng)的期望值見表5。

表5 主觀偏好及期望值

基于式(21)建立非線性規(guī)劃模型，利用遺傳算法解得條件屬性集的權(quán)重是Tj=(0.2568，0.1365，0.1654，0.1532，0.2214，0.3276)，同時求得λ=-0.1864<0，說明條件屬性之間存在冗余關(guān)聯(lián)。

為了兼顧相似度和關(guān)聯(lián)度，令τ=0.5，根據(jù)式(24)到式(26)計算用戶知識需求C0和案例Ci的視圖相似度、灰色關(guān)聯(lián)系數(shù)和匹配度，結(jié)果見表6。

表6 最終匹配度

設(shè)定匹配閾值為0.9382，將匹配度高于閾值的案例依匹配度降序提交給用戶，如表7所示。

表7 匹配度(TOP12)

為驗證本文算法先進性，將其與不考慮自有信息量的基于灰色關(guān)聯(lián)的直覺模糊相似度算法和基于歐氏距離的匹配算法作比較，結(jié)果見表8。

表8 兩種方法下的視圖相似度

可以看出，本文算法得到的匹配精度達到了0.9688，可以基本滿足用戶的知識需求，同時其匹配精度也明顯優(yōu)于上述兩種算法，具有比較優(yōu)勢。其原因如下：與第(1)種算法相比較，本文的相似度計算方法考慮了直覺模糊數(shù)的自有信息量對距離測度的影響，更具科學性和客觀性；與第(2)種算法相比較，本文將案例知識用直覺模糊數(shù)來表示，避免了傳統(tǒng)算法對數(shù)據(jù)進行離散化處理造成的知識損失。

綜上所述，相較于既有算法，本文提出的隱性知識外顯案例匹配算法具有以下改進：

(1)傳統(tǒng)匹配算法在計算屬性權(quán)重時大多基于屬性之間相互獨立設(shè)定并忽略知識用戶對案例主觀偏好，鮮有人既考慮條件屬性之間的關(guān)聯(lián)度又兼顧知識用戶主觀需求。本文首先基于數(shù)據(jù)完備性的考慮用直覺模糊數(shù)表示案例屬性值，進而定義λ-模糊測度衡量屬性之間關(guān)聯(lián)程度，并引入Choquet模糊積分作為集結(jié)算子，依據(jù)客觀屬性綜合期望值與用戶主觀偏好值最小的原則建立非線性規(guī)劃模型，求解屬性權(quán)重和λ值。這種求解權(quán)重的方法最大限度發(fā)揮了客觀模糊信息的作用，并充分考慮了知識用戶的主觀意志。

(2)在相似度計算方面，與傳統(tǒng)算法相比較，本文提出了考慮自有信息量的直覺模糊相似度計算方法，同時兼顧案例知識屬性之間的關(guān)聯(lián)度，用灰色關(guān)聯(lián)系數(shù)改進直覺模糊相似度，使得隱性知識外顯案例供需匹配算法更加科學，從而更好地滿足用戶需求。

4 結(jié)束語

隨著科技進步與社會發(fā)展，知識尤其是隱性知識的存量迅猛增加，基于既有隱性知識外顯案例集對用戶知識需求給予高效匹配，成為知識服務(wù)相關(guān)主體關(guān)注的焦點。本文在前人研究的基礎(chǔ)之上，設(shè)計并提出了一套隱性知識外顯案例供需匹配算法，并通過算例驗證了該算法的有效性和比較優(yōu)勢。面向用戶知識需求，基于該算法得到的匹配案例集，進一步實施有效的隱性知識外顯案例適配，將是后續(xù)的研究工作。