摘 要:在綜合分析相關領域語義P2P網絡的研究成果基礎上,探討了面向電子商務過濾推薦的語義P2P網絡關鍵技術,包括基于本體的知識表示、知識協同和協作過濾的Peer節點模型;基于語義的領域本體映射方法和機器學習算法;語義P2P協作推薦社區結構、搜索機制和推薦反饋率修正的社區動態知識更新策略;基于語義相似度的協同過濾推薦算法。
關鍵詞:語義Web;對等網;協同過濾;本體;電子商務
中圖分類號:TP311;TP393文獻標志碼:A
文章編號:1001-3695(2007)06-0309-03
1 研究現狀綜述
1.1 電子商務協同過濾推薦技術研究
隨著互聯網的普及和電子商務的發展,推薦系統逐漸成為電子商務的一個重要研究內容,越來越多地得到研究者的關注。目前,幾乎所有大型的電子商務系統,如 Amazon、CDNOW、Ebay和當當網上書店等,都不同程度地使用了各種形式的推薦系統。協同過濾推薦技術通過用戶聚類技術來尋找N個最相似的鄰居;根據相似用戶預測當前用戶的興趣并推薦信息是當前電子商務推薦系統中比較成功的方法。現有方法包括基于項目聚類、內容預測、在線客戶評分數據挖掘、商品屬性和興趣度組合推薦以及一些優化方法等[1]。這些方法存在三個方面的問題:①數據稀疏性和可擴展性的難題;②缺乏語義分析的能力,智能化程度低、推薦質量差;③缺乏網絡環境下的知識協同和推薦協作,實時性低。
基于知識的協同過濾技術是解決數據稀疏性和可擴展性難題的有效方法。本體是知識表示的有效形式。國內外剛開始將本體應用于電子商務推薦和個性化服務中,但大多數集中在個性化信息服務方面。潘紅艷等人實現了一個基于本體的個性化推送系統Carinfo,用于個性化信息服務[2]。
對等計算(Peer-to-Peer,P2P)可以高效地實現協同過濾推薦的集成及資源的自治。它不但可以聚合和共享多個網站商品知識,解決單個網站存在的客戶評分稀少導致數據稀疏性的問題,而且通過P2P的協作計算可以提高推薦的質量和效率。文獻[3]提出了應用于單個企業內部的CoP模型,實現企業內部成員組之間的協作協同過濾。Peng Han等人采用分布式哈希表的覆蓋網路由協議,基于客戶文檔研究了用于電子商務協同過濾的P2P網絡社區節點搜索算法[4],并設計了其系統結構[5]。它解決了客戶和商品信息的共享與協作,但基于語義知識的推薦問題。文獻[6]提出基于資源語義知識協同過濾算法,但未討論網絡環境下電子商務知識的共享、知識表示和協作推薦的問題。
1.2 語義P2P網絡研究現狀
P2P已經成為計算技術的研究熱點,它被認為是未來重構分布式體系結構的關鍵技術。P2P可以應用于許多領域,如CPU周期共享、及時信息傳輸、協同工作組件和數據共享等。其中,數據共享已經成為當前P2P研究與開發的主流[7]。
目前針對P2P網絡研究主要集中在網絡拓撲結構、P2P搜索算法、P2P社區形成及自組織[8,9]。國外已經將語義網與P2P技術結合廣泛地應用于數據共享、知識協同等領域。P2P網絡知識共享系統能否成功極大地取決于搜索機制的多樣性和擴展性。當前支持分布式Hash表(DHT)功能的結構化系統(如CAN)易擴展,但不能有效地支持部分匹配的查詢和語義化服務;而基于擴散的非結構化系統(如Gnutella)支持多樣化查詢但不易擴展。文獻[7]提出混合結構化和非結構化拓撲的p Group體系,提高了搜索效率和擴展性。
P2P節點搜索算法、P2P社區形成及自組織研究方面,基于相同興趣度的社區形成機理比較成熟[10]。但由于在興趣度的描述上存在差異,匹配精度不高。基于語義相似度的P2P社區成為新的研究熱點。文獻[7]在非結構P2P系統結構上,引入語義相似度開發了語義化的信息檢索系統PeerIS。Castano設計了一個語義P2P網絡環境下基于本體的知識發現、知識共享和社區自組織通用型系統框架Helios[11]。但在語義P2P網絡Peer節點管理機制和知識動態更新方面缺乏深入研究。
國內在語義P2P網絡的理論及應用方面也有一定成果。以中國科學院計算技術研究所諸葛海研究員為首席專家的國家“973”計劃“語義網格的基礎理論、模型與方法研究”[12,13],基于P2P、本體、語義網等技術,開展了本體自動和半自動生成、語義資源空間模型語義關聯存儲模型、支持產品創新設計的知識供應、中醫藥知識共享與服務、網絡信息檢索方面的研究。華中科技大學金海研究了基于語義網格的語義關聯存儲模型及管理和通信的問題[12],并開發了滿足文獻元數據共享的系統SemreX。
1.3 本體論及其相關研究
本體已經成為人工智能、知識表示、語義Web、數據集成、信息檢索等研究領域的熱門課題。本體能實現電子商務知識共享和重用,可以用來解決語義層次上協同電子商務知識的共享和交換。在分布式的電子商務環境中,同一種商品知識或客戶知識由不同的本體表示而導致差異性。因此本體映射在企業之間的知識集成、協同電子商務的知識共享等方面十分重要[14]。
基于已提出的本體映射方法[15],按本體定義模型進行分類,可以分為:①基于語法的方法;②基于概念實例的方法,典型的如華盛頓大學的GLUE系統;③基于概念定義的方法;④基于概念結構的方法。這里,每種方法參照了本體定義的不同部分。本體的映射類型有概念—概念、屬性—概念、屬性—屬性、情境和約束等[16]。國外已存在的本體映射工程有InfoSleuth的參考本體、斯坦福大學的本體代數、AIFB的形式概念分析、ECAI 2000的方法、ISI的OntoMorph、KRAFT的本體聚類[16]。
本體映射最重要的過程就是發現語義關聯。語義關聯包括語義相似度和語義相關度的研究。它們是兩個不同的概念。語義相似度反映兩個概念相互替換的程度,可用于本體之間相似度計算以達到推薦相同商品知識的目標,如“電腦”和“PC機”。語義相關度包含了語義相似度的概念,反映概念之間的關聯程度,如“電腦”與“游戲”。其相似度不同,但相關度較高。在向客戶推薦游戲時可以進行相關電腦的推薦。
SUMO本體共享技術(Suggested Upper Merged Ontology)的原理是讓本體的設計者在基于WorldNet的SUMO系統中,采用共同的詞匯表達相同的本體概念[17]。Castano等人提出了H-match多層次本體映射算法,滿足不同精度的本體映射需要[11]。
目前,本體映射仍然需要領域專家的干預,存在著網絡環境大規模電子商務應用本體映射的精度與效率問題。
2面向電子商務協同過濾推薦的語義P2P網絡關鍵技術
2.1 語義P2P網絡的Peer節點模型
Peer節點負責協同過濾推薦計算、商品知識的在線獲取、節點知識管理、與其他節點實現知識的共享并實現協作推薦的功能。
(1)語義Peer節點本體模型。它由兩層本體組成。下層為電子商務領域本體類,包括客戶行為本體(包括客戶描述、客戶對商品的在線評分、客戶興趣度)和商品本體(包括商品知識描述、商品評分),并從客戶行為本體中在線挖掘出商品評分值;上層資源本體用于描述本節點的商品和客戶資源信息,并保存相鄰節點資源信息。
(2)基于電子商務領域本體的商品和客戶知識表示。采用局部本體映射方法描述領域本體為與數據庫或非結構化文檔(網頁中)中的商品信息和客戶信息;采用全局本體映射方法將資源本體與商務領域本體進行映射,實現在P2P網絡上構成共享知識的目的。
2.2 基于語義的領域本體映射方法
組合英文語義相似度(參考WordNet)以及中文相似度(通過HowNet的義原),在H-match多層次本體映射算法上進行改進。綜合考慮本體之間的概念語義相似度、概念屬性語義相似度和概念屬性值,以滿足不同精度的協同過濾推薦的需要。在映射方法上,組合運用概念實例、基于概念定義的方法和概念結構的映射方法。借助HowNet的知識系統描述語言KDML(Knowledge Database Mark-up Language),實現基于KDML的中文本體映射機器學習算法。
2.3 語義P2P協作推薦社區自組織理論
(1)社區節點搜索機制。在通用語義P2P網絡(如Helios結構)的基礎上,引入電子商務領域本體匹配理論,實現大規模、高效協同、自治性的語義P2P協作推薦社區搜索機制。其包括社區知識廣播、本體映射、節點成員識別、請求通過等流程。
(2)語義P2P協作推薦社區動態知識更新策略,包括Peer節點動態管理策略和混合節點本體知識更新策略。采用推薦反饋率影響因子和推薦反饋率綜合考慮客戶的購買率、反饋以及再次瀏覽等因素,對社區內本體概念語義相似度進行修正;用修正后的本體概念語義相似度來重新決定Peer節點的動態加入或退出。基于混合式Peer節點知識更新理論,對從其他Peer節點獲取的知識,采用本地本體更新(增加新本體、概念修改、屬性修改等方式)以及本體映射的方式(在資源本體建立與其他Peer節點本體的映射)完成知識更新。
2.4 基于語義相似度的電子商務協同過濾推薦算法
在傳統的電子商務協同過濾推薦技術上,引入語義相似度來提高協同過濾推薦算法的精度和廣度。通過基于語義相似度本體映射方法匹配客戶需求知識和商品知識;然后利用傳統的協同過濾推薦算法以實現語義化的高精度推薦需要。綜合考慮商品本體與客戶本體之間的概念語義相似度、概念屬性語義相似度和概念屬性值,以滿足不同精度的協同過濾推薦的需要,可以協調推薦精度與實時性的矛盾。
3 結束語
語義網、P2P技術和本體論在信息檢索、知識共享等領域取得一定成果,但尚未應用于電子商務協同過濾推薦。本文在現有的電子商務推薦技術和系統的基礎上,基于語義P2P網絡(Semantic Peer-to-Peer Networks,SPNs)技術,結合本體論和電子商務推薦技術,以客戶需求和個性化服務為導向,研究語義P2P網絡環境下知識共享、知識更新、協作推薦、協同過濾推薦的理論和方法,探討了大規模電子商務網站高質量、實時的智能化協同過濾推薦的關鍵技術,為基于網絡環境條件的具有語義功能的電子商務應用指明了研究方向。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。