郭 韌,謝雨杉
(1.華僑大學工商管理學院,福建 泉州 362021;2.吉林大學管理學院,吉林 長春 130022)
知識及其主體間的交互、合作、聯接構成了知識創新網絡。各主體的知識在結構、表達上存在著差異性,影響著其吸收和應用,導致知識網絡中雖存在大量的知識,卻不能被有效利用的現象。把知識變成各主體可接受的形式,積累和產生新的知識,可以提高創新網絡的效益。如何將知識分解融合為可被創新主體利用的知識,以及如何由知識的相互作用形成新的知識已成為各個領域關注的焦點。
YAGER 等人(1997)利用模糊度量的概念,建立了考慮了多個信息源的融合問題[1];XIE 等人(2005)在信息集成的基礎上,建立一個XML 數據知識融合模型和KF-based信息訪問架構[2];SAWARAGI 等人(2002)提出了一種將人類專家的數據和知識融合在信號理解任務中進行部分自動化的新方法[3];SMIRNOV 等人(2015)進一步研究了基于上下文的知識融合模式[4];狄強(2017)設計實現了對網頁語義數據的抽取,知識的鏈接、擴展和融合[5]。知識融合涉及的領域廣泛,在不同的應用領域各有特點,基于流程化的視角尋求研究的簡單歸一化和全面高效化,現有的研究中對融合規則的定義和流程化算法較少。很難從效率和實用性進行比對,挑選出最適合相應場合的融合算法。在典型流程化算法的基礎上,基于匹配規則的融合算法更具有實際操作性。
知識因子是知識創新網絡下的最小單位,通過知識因子融合可以產生新的知識,新的知識加入知識創新網絡等待下一次與其他知識結合產生新的知識,在不斷融合的動態過程中體現知識創新網絡的價值。網絡中樞組織與網絡附屬組織在知識架構平臺上共享知識資源,并就此開展一系列的知識管理和知識創新行為。知識創新網絡不僅包括知識因子,還包括知識之間溝通交流的通道——知識架構平臺以及整個知識創新網絡的知識資源總和。知識通過知識架構平臺共享交流,原有的和生成的知識資源集合在一起稱為知識資源總和[6]。
把來自不同主體異構性的知識進行組合、轉化并融合,產生易于流動和符合要求的新知識[7]。不僅可以實現知識集成化與協同工作、提高知識品質,還有益于新知識的發現。知識融合是多要素作用的系統過程,一般包括4 類數據模型,即知識源(存儲知識的實體)、知識表達(如本體、元知識等)、融合算法集合與規則集合以及吸收先驗知識后不斷更新的約束集。主要包括三個功能模塊,分別為知識的表達、融合算法的設計與實現和解知識空間。通過知識融合技術,將知識網絡中海量的知識,變成能夠真正滿足用戶需求的知識,提高網絡服務的效能。概念化表示為KF=〈KN,UN,O,M,R,f〉,其中,KN表示知識創新網絡,是知識融合依賴的環境;UN表示用戶需求,知識的融合實際上是尋找知識對象,或者是一組知識對象,使他們能夠盡可能地滿足需求;O表示知識融合過程中知識的表達方式,是對知識單元的刻畫與描述;M表示知識對象之間的比較項;R表示融合過程的一切規則,如匹配規則和約束規則;f是函數化表示的融合過程。
融合知識是以不同創新情景中的需求UN為基礎,通過知識要求組織融合知識元。需要經過刻畫本體或元知識O才能消除由于異構性產生的摩擦。M與R共同作用下可以判定出知識元之間是否可以融合,M提供比較量度,R提供準則,判定為可以融合的知識將通過函數f實現融合過程。
本體論是對某一概念化對象明確的描述性說明,知識以其所屬領域為主導。領域本體是與特定領域有關的術語和詞匯,具有良好的共享性、可重用性,在概念領域具有優良的特性,為邏輯推理提供了有效支持。知識網絡本體庫O中可被理解與識別的本體對象Oi為:

式(1)中:為知識對象的類;為知識對象的屬性;為知識對象的值;為數據類型。
j的取值范圍取決于具體的領域本體。本體對象很難直接在知識本身層面上進行操作,元知識通過數字量化形式更方便地進行知識表達。采用知識對象結合二元組集合的方式,知識對象的特征由元知識二元組的形式表現,更適合進行知識對象的融合處理。
將位于第k個知識庫中的元知識集記為Sk,該元知識集的第i個特征對象屬性記作,該對象屬性的值記作,被定義為知識對象中的元知識,元知識集表示為:

知識創新網絡中知識對象的數量、內容都存在一定差異,Sk的大小也會有所差別,為了實現元知識集到知識空間的轉化,需要識別出元知識指向的是哪個知識單元,元知識集的第一個元素只用來表示對應的知識本體,而不代表具體特征。
對于異構知識元,要么將知識對象都轉換為特定的表示形式,要么構造一種元知識生成算法,使不同知識對象自動用對應的算法進行處理。后者將差異性保留到了融合過程中,會對算法造成一定的局限;而前者的特征描述在融合步驟前就以統一的形式出現,有利于提高融合效率。將知識對象都轉換為特定的表示形式,再生成元知識。
元知識攜帶著所屬知識單元的特點和主要內容,是知識融合過程的參與者。可以從知識中抽取出來的關鍵詞,也可以利用人為的手段通過標注提煉出來。為消除知識創新網絡的封閉性、網絡性,用“信息協同標注”來分析元知識匹配度及關聯度可以達到對知識對象序化的目的。標注是知識提供者或知識網絡的管理人員對知識單元內容基于個人立場的簡明概括。通過測序操作使知識單元按照相關性排列,從而使標注后的知識單元可以實現知識對象之間的融合。參與人員一般會從多個視角選擇最符合知識單元的標注來描述知識對象。參與人員評判標準的統一性,可以避免重復、模糊等不規范標注的產生。知識創新網絡中的知識是專家頭腦智慧的集合,集中協同標注機制下,不僅集合了單個專家的智慧,還集合和發揮了專家群體智慧[8]。標注后的知識需要進行下一步的融合,利用協同標注生成元知識。
元知識構建的偽碼如下:①生成知識對象的本體對象,根據標準轉換成特定的表示形式;②利用集中式協同標注生成元知識集中除去第一個元素外的剩余(n-1)個元素;③根據知識對象與本體概念的對應關系,生成元知識集的第一個集合元素若沒有在①中找到相應的描述,則新建此本體對象或關系描述后再執行①。
元知識作為知識的一種標記,是知識屬性和值的體現。知識融合中,經過了融合算法的處理,知識才可以進行比較、合并、協調。有兩個簡單的知識K1 與K2 可能存在很大的異構性,可能屬于不同的學科和領域,但當應用于某一實際問題時,兩者之間通過融合,形成了對解決問題有幫助的新知識f(K1,K2),生成的新知識規范化后加入到現有的知識創新網絡中,同時可能需要對現有的知識K1 與K2 做適當的更新,而f的實現過程就是融合算法的設計過程。
從融合的動因上看,知識融合可以分為主動型與被動型融合,主動型不需要以具體問題求解為驅動力,融合結果可能恰好滿足需求,是一種自演化過程。由于知識創新網絡實際上是一種服務型知識網絡,為一定的創新目標服務。知識創新網絡通常是在用戶的需求基礎上,根據指令進行演化和融合,是一種被動型的融合過程,融合算法中的規則是提前定義好的,以問題求解為導向的融合算法。
從實現方法上看,構建基于匹配規則的融合算法,精確地實現知識的融合,計算對象是元知識。在元知識層面的匹配通過關系連接的算法得以實現,對應于兩個知識本體的匹配就是一個關系全連接的過程。通過在匹配器中的運算,識別出兩者的相似度,當高于相似度閾值時被選中,否則忽略。
3.2.1 匹配函數與匹配規則
協同標注后,用模式匹配函數將元知識的相似關系進行定量地描述和表示,設X1、X2為兩個待匹配的知識本體,x1、x2分別為其元知識集,p為兩元素之間的匹配度。表示元知識x1和x2的匹配度為p。相似度需要通過匹配規則進行確定,知識表現為元知識集的形式,即BERNSTEIN 等人(2001)給出了一個用語義和結構兩種匹配來確定相似度的通用匹配規則[9],章勤等人(2006)還使用了XML Schema 的匹配規則[10]等,在一定程度解決了地理、語句等方向的語義、結構等匹配問題。在知識創新網絡中,知識統一由元知識表示,不存在結構無法匹配的問題,在于語義部分是否匹配,設置知識融合的匹配規則如下。
規則1:若元知識集Si,Sj的第一個元素與具有相同的公共子串St,則Sim1(Si,Sj)=length(St)/max[length(Si),length(Sj)],其中,length(St)為求字符串St的長度。
規則2:若元知識集Si,Sj第一個元素與是同義詞,則Sim2(Si,Sj)=1,否則,Sim2(Si,Sj)=0。規則2 需要同義詞庫,需要根據知識創新網絡的特征進一步建立。
規則3:計算元知識集Si,Sj的除去首元后的知識間相同屬性比值,即:

規則4:若知識Si,Sj有相同的取值范圍,則Sim4(Si,Sj)=1,否則,Sim4(Si,Sj)=0。
規則5:若知識Si,Sj有相同的數據類型,則Sim5(Si,Sj)=1,否則,Sim5(Si,Sj)=0。
前3 條規則是基于語言方面,得到的相似度用L表示,后兩條的匹配規則是約束層面的規則,用C表示,由于知識創新網絡的領域有所差別,用戶的需求也可能對規則的需求有所不同,例如某些領域比較注重語言層面的規則,約束層面的規則可忽略不計,按照用戶的需求為兩類規則設定權值W,WL與WC分別表示用戶設定的語言層面規則權值與約束層面規則權值,約定WL+WC=1。相似度加權合并后,元知識x1和x2的匹配度為
3.2.2 構建KFA-M 方法
知識創新網絡具有異構性,語義邏輯關系之間不能直接協同工作,雖實現了知識對象的開放式構建,但對知識個體間的內在關系稍欠考慮,就導致一些匹配度不夠的知識對象出現在結果中?;趨f同標注與匹配規則,匹配度是可衡量的、量化參與比較的兩者能否匹配的標準。各知識由元知識表達,可量化其匹配度,構建基于匹配規則的融合方法KFA-M(Knowledge Fusion Algorithm—Matching)。被動融合過程中,KFA-M 算法借助值域為[0,1]的語義貼近度函數來尋求最優化搜索目標,根據匹配規則計算出關聯度達到閾值的知識進行融合。KFA-M 算法偽代碼如下。
初始化知識對象集合S,將元知識規范化,作為元素納入到S中;
初始化St=φ;
for(i=1,i≤n,i++)
for(j=1,j≤i,j++)
對?KOi∈(S-{KOi}),判定KOi與KOj與之間匹配度大于閾值,則進行下一步處理,可分為3 種情況。
第一,KOi與KOj的同一屬性具有相同的屬性值,提取相同部分,作為處理結果。此法可提取知識間相同的屬性及其屬性值,得到具有歸一性和代表性的新知識。
第二,KOi與KOj的同一屬性具有相同的屬性值,剔除相同部分的屬性,將不同屬性提取出來頭尾拼接成為新知識對象個體的屬性描述。探索去除掉相同屬性值后的知識對象在拼接后是否會成為新的知識,具有新的特性。
第三,KOi與KOj的同一屬性具有相同的屬性值,剔除相同部分,差異部分各自保留,作為處理結果。探尋具有差別的兩知識是否會更新產生與原知識完全不同的新知識。
處理過程中,若產生了新知識對象KOnew,則(S∪{KOnew})→S;繼續循環執行上述步驟,直到對?KOi∈(S-{KOi}),KOi與KOj之間不具有超過閾值的匹配度關系;(S∪{KOi})→St,跳轉到第三繼續執行,直到S=?。
在分類研究中短文本相似計算匹配度超過0.6 時可分類準確率可達100%[11];知識比一般文本或數據的融合潛在價值高,匹配度較低的知識也可能融合成有價值的知識,在此算法中匹配度的閾值設為0.5。生成的St滿足匹配度大于設定閾值的條件,則將St定義為知識狀態。St與滿足約束條件的知識集合相對應。知識狀態St是圍繞著需求的約束而形成的,St可以作為知識空間的求解單位。
在知識融合框架中,經過融合算法處理后的結果是以元知識集的方式表示的,每一組具體的描述對應一個知識對象個體,每一個個體視為一個節點。全體知識對象節點組成的集合為解知識空間,記作K,K中的知識域由描述知識狀態相關或不相關的問題本體組成。知識狀態是根據具體問題生成的,在問題求解時可直接使用知識狀態為問題提供解知識。具體做法如下。
第一,按照問題對象知識對應的本體Op生成元知識Sp。
第二,對于所有與問題狀態相關的知識狀態St,在K中搜索與問題狀態關聯度最大的知識狀態StMAX。計算每一個與問題本體關聯的知識狀態的關聯度γ,并選出關聯度最強的知識狀態,偽代碼如下。

第三,若StMAX對應的關聯度γ大于等于關聯度閾值(0.5),則該知識狀態St與其對應的本體一起構成了該問題的解知識。將知識對象演化過程中各個知識節點間的關聯度(0~1 之間的數字)通過矩陣的方式排列,得到了一個矩陣變換描述:知識節點的初始狀態矩陣為A,全局演化矩陣為B,第n次演化的矩陣為Bn,B=B1B2B3…,演化結果狀態矩陣為R,AB=R。為計算簡便,A為上三角矩陣形式。由于B是A演化得來,B也符合上三角矩陣的特征:

而bij∈(0,1)得到結果狀態R之后,矩陣中的元素則表示知識節點的演化狀態。如果大于閾值,則坐標對應的兩節點可以進行歸約處理,歸約的目標由各自的對角元決定。若其中一方以上的對角元節點取值rii小于湮滅閾值,則該節點進入湮滅狀態,進入湮滅狀態的知識對象表明其內涵已經無法支持需求且被使用的頻率過低,可以被淘汰。
知識創新網絡中知識利用的有效性是網絡性能的重要體現,異質性知識通過分解和融合能讓更好地為主體吸收和利用。針對知識創新網絡的特性通過本體和元知識表達知識創新網絡中的異構知識簡化了知識的結構,計算匹配度來確定知識之間的關聯程度,提出了新的融合算法——基于匹配度的融合算法KFA-M;構建了解知識空間的概念模型,歸納了解知識空間的演化過程,為解決知識創新網絡中的知識融合提供了一定的參考借鑒。
但在匹配度計算時權重需要人為設定,較易產生匹配度的誤差。解知識空間僅提出了相應的演化模型,知識創新網絡的不斷更新,尚未使知識融合達到系統自適應的階段。后續的研究將進一步分析演化的規律構建系統反饋與評估機制,對于知識融合步驟基本完成后根據實際效果得到反饋,并作用于知識創新網絡,以便使其更加穩定。