董露露
(安徽廣播電視大學 成教在線服務中心,安徽 合肥 230022)
?
基于網絡數據的企業知識圖譜可視化
董露露
(安徽廣播電視大學 成教在線服務中心,安徽 合肥 230022)
[摘要]對互聯網數據進行可視化分析具有非常大的商業價值和現實意義。首先采用經典的力引導算法構建知識網絡,然后在網絡可視化的基礎上進行集合可視化,針對集合路徑交叉過多的問題,引入集合因子,最后以中國平安集團數據為案例進行可視化分析。分析表明,所提方法能有效提高企業知識可視化效果。
[關鍵詞]信息可視化;網絡數據;企業知識圖譜
1引言
如今,互聯網已經成為信息的主要來源之一。企業自身、競爭企業及合作企業等可以對龐大的網絡數據進行挖掘,分析潛在的商業價值,甚至能通過基于網絡的各種平臺直接影響客戶,客戶同樣可以從網絡數據中獲取信息來了解公司的方方面面,以達到指導和決定投資的目的[1]。為了對知識做有效地積累沉淀、分析推演及利用[2],人們提出很多知識分析的方法。Prusak等[3]首先提出利用知識圖譜表示企業數據及知識關系,從而為企業提供知識服務。知識圖譜是實體和實體間關系的集合,其本質是一種揭示實體知識之間的語義網絡圖[4]。由于企業內部信息是保密的,而基于網絡的新聞事件等信息相對全面,因此企業可以利用網絡,結合知識圖譜,建立更加精確、更深層次的企業知識圖譜,從而為客戶或企業提供查詢、分析、分享和過濾等服務[5]。
企業知識圖譜給出了企業相關人物、事件及它們之間的關系,它不是現有知識系統、數據倉庫和其他數據存儲管理的替代品,而是它們連接和交互的橋梁。它最明顯的好處,在于能夠幫助企業自身進行規劃和管理,同時幫助企業供應商、客戶及投資人等了解公司狀況。然而,構建企業知識圖譜也面臨著諸多挑戰,如知識沖突不一致或缺乏與外部數據語義聯接等。
本文構建了簡單企業知識圖譜,并對網絡數據進行可視化研究,將集合因子引入到力引導布局以加強屬于同一集合元素間的布局關系,減少集合可視化中的集合路徑交叉。
2企業知識圖譜構建
2.1基于力引導算法的網絡可視化
由于知識圖譜搜索是基于實體關系的,因此可將知識圖譜構建成網絡圖,其中圖的節點為知識圖譜中的實體,節點之間的連接表示實體之間的關系[6]。已經有很多構建網絡圖的算法,如引導布局、地圖布局等。其中力引導布局能充分揭示網絡整體結構,力引導算法是網絡圖可視化中主流的布局算法,因此本文選擇力引導算法進行企業知識圖譜可視化分析。
基于力引導的算法作為彈簧理論算法的一類典型,被廣泛應用于描述企業網絡等關系型信息圖。該算法將整個網絡看作一個物理系統[7],系統中的每個節點都可以看成是一個帶有一定能量的放電粒子,粒子與粒子之間存在某種庫侖斥力,使它們兩兩相互排斥。同時,粒子間被“邊”所牽連,這些邊產生類似彈簧的胡克引力,又緊緊牽制著“邊”兩端的粒子。在粒子間斥力和引力的不斷作用下,粒子們從隨機無序的初態不斷發生位移,逐漸趨于平衡有序的終態。整個物理系統的能量不斷消耗,經過數次迭代,粒子之間幾乎不再發生相對位移,系統達到穩定平衡狀態,最終理想的網絡圖也基本繪制完成。算法步驟如下:
步驟1. 隨機分布初始節點位置;
步驟2. 計算每次迭代局部區域內兩兩節點間的斥力所產生的單位位移(一般為正值);
步驟3. 計算每次迭代每條邊的引力對兩端節點所產生的單位位移(一般為負值);
步驟4. 調整步驟 2、3 中的斥力和引力系數;
步驟5. 累加經過步驟 2、3 計算得到的所有節點的單位位移;
步驟6. 迭代 n 次,直至達到理想效果。
由Stanley Wasserman和Katherine Faust基于社會數據的網絡分析可知,識別網絡中與節點關系緊密的子集是網絡分析主要關注的問題之一。對知識圖譜網絡的緊密子集進行分析能夠幫助企業分析其生態結構,幫助公眾了解相應集合的結構及其與其它集合的關系等,因此可在網絡圖基礎上應用相關技術進行集合可視分析。
2.2力引導初始布局中引入集合因子
平行坐標系是最基礎、最常用的可視化分析方法之一。為了減少集合可視化中的集合路徑交叉及圖節點的交叉,我們試圖將網絡圖節點按照屬性分類并進行平行坐標系布局,并把數據項相同的屬性布局到一個坐標軸上。
根據數據集識別核心集合個數,將核心集合中的節點分布到各集合對應的平行坐標軸上。節點在平行坐標系上的布局依然按照作用力方法,屬于同一個集合的節點之間存在著引力和斥力,若節點相似度較高則布局應鄰近,比如同一集合的兩個節點都與特定集合中的關鍵節點相連接,則將它們鄰近布局;不同集合的節點之間只存在引力作用。在考慮節點權重情況下,權重越大對不同集合(不同坐標系)中節點的引力就越大,從而使得與之相連的節點更傾向于權重大的節點。如圖1,白色節點由于收到力的平衡作用處于灰色節點平分線偏下的位置。
2.3構建企業知識圖譜
企業知識圖譜是利用網絡上各種媒體、組織及個人發布、共享的數據建立的,由6個模塊組成,分別為搜索、企業綜合信息、相關企業、企業知識網絡、詳細信息和企業事件時間線,其框架如圖2所示。搜索模塊可根據現有知識庫及網絡信息搜索為其他模塊提供信息;企業綜合信息模塊提供企業基本信息,例如成立時間、核心業務類型等;相關企業模塊主要顯示相關企業;企業知識網絡模塊是企業知識圖譜系統的核心模塊,它是由企業相關知識節點組成的關系網絡,可以從中發現企業、產品、顧客、供應商等之間的關系;企業事件時間線模塊提供企業重大事件熱度隨時間變化的情況,并可與企業知識網絡進行交互來展示與事件相關的知識節點分布;詳細信息模塊則是進行網絡或時間線交互時對應的詳細信息。
3案例研究及結果分析
本研究以“中國平安集團”為關鍵詞爬取從2014年1月到2015年4月的數據,按照搜索熱度篩選出關注度較高的事件,并進一步提取出事件新聞中的實體及實體關系,建立企業知識圖譜。
圖3為平安集團企業知識圖譜系統。左側為企業相關信息,其中,上部為企業知識匯總,中部為與平安相關聯的企業。中間核心部分為企業知識圖譜可視化結果。右側為知識圖譜中知識節點的詳細信息。企業知識圖譜中較關注的知識節點為相關企業、顧客、相關任務及品牌等,因此本文主要對以上知識進行可視分析。其中的核心節點為中國平安昆山支行和上海平安保潔服務公司,第一核心集合為平安及其相關公司,其次是地域和組織等,根據與同一節點相連接的同類節點鄰近布局原則,將建筑工程意外險等險種作為產品與中國平安昆山支行關聯,據此可得出平安的客戶主要有房產開發與建筑公司、物流公司和生產型企業,蘭州同信汽車服務有限公司通過車輛保險與中國平安相關聯。底部使用不等距折線圖來表達企業相關的新聞、輿論事件隨時間變化的熱度變化。圖4中間核心部分是在企業知識圖網絡布局上進行的集合可視化分析結果。對比圖3和圖4可以看出,在關系網絡布局基礎上進行的集合可視化有助于理解信息分類及分布。
圖5為知識圖譜交互示意圖,如選中“曹斌(經理)”節點后,其相關節點也會被放大,同時系統右側面板將提供該節點相關信息。圖6展示了事件交互操作,點擊時間點時,系統會彈框顯示事件相關信息等。如事件“平安銀行前員工涉嫌民間集資,金額或上億”影響最高,相關知識節點為平安銀行松江新城支行、客戶經理、上海市銀行同業公會、上海銀監會、民間集資和平安銀行寧波分行,其中上海市銀行同業公會和上海銀監會為相應的監管部門,平安銀行寧波支行也曾發生過類似的案例,因此都與之相關聯。
由上述分析可知,建立企業知識圖譜并進行集合可視化具有如下優勢:首先可以快速了解公司基本信息,如業務類型、公司性質等,其次能夠根據企業知識圖譜中的節點關系了解平安集團相關公司、相關人物、相關地域、相關產品及其客戶等信息,最后可以追蹤查看企業相關事件及其在知識圖譜中涉及到的知識節點。
4結束語
企業知識圖譜在數據分析與挖掘方面具有重要作用。為了更清晰地表達屬于同一集合的信息及集合間的相互關系,本文在網絡圖布局基礎上進行集合可視化,使用集合路徑連接集合中的各節點,針對集合路徑之間的交叉問題,進一步引入集合因素,提供相應的交互,實現簡單的企業知識圖譜,并進行可視化及結果分析,挖掘出企業、地域、人物及產品等之間的關系及企業的事件發展與時間的關系。未來,我們將完善企業知識圖譜構建方法及可視化方法,進行更深入的知識分析,以挖掘更豐富更有價值的信息。
[參考文獻]
[1]金貴陽, 呂福在, 項占琴. 基于知識圖譜和語義網絡技術的企業信息集成方法[J]. 東南大學學報(自然科學版), 2014, 44(2): 250-255.
[2]張志強, 冷伏海, 劉清, 等. 知識分析及其應用發展趨勢研究[J]. 情報科學, 2010, 28(7):1100-1107.
[3]Davenport T H, Prusak L. Working knowledge: How organizations manage what they know[M]. Boston: Harvard Business Press, 1998: 196-223.
[4]杜亞軍, 吳越. 微博知識圖譜構建方法研究[J]. 西華大學學報(自然科學版) , 2015, 34(1): 27-35.
[5]邱均平, 呂紅. 基于知識圖譜的國內知識管理發展研究[J]. 情報學報, 2013, 32(5): 548-560.
[6]Pechsiri C, Piriyakul R. Explanation knowledge graph construction through causality extraction from texts[J]. Journal of Computer Science and Technology, 2010, 25(5): 1055-1070.
[7]田一鳴, 陸陽, 葛方振, 等. 虛擬力引導蟻群算法的WSN全局控制鏈路實現策略[J]. 計算機研究與發展, 2010, 47(Suppl.): 26-30.
[收稿日期]2016-01-19
[基金項目]安徽省教育廳自然科學基金重點項目“基于翻譯模型和網絡挖掘相結合的命名實體翻譯方法研究”(項目編號:KJ2014A081);安徽省高等教育振興計劃重大教學改革研究項目“成人高等教育遠程化教學模式改革網上教學支持服務體系的構建與實踐”(項目編號:2014zdjy192)
[作者簡介]董露露(1991-),女,安徽阜陽人,助教,碩士。研究方向:數據挖掘、信息檢索。
[中圖分類號]TP391
[文獻標識碼]A
[文章編號]1674-2273(2016)03-0028-03