(河北大學管理學院 河北 保定 071000)
決策制定是一個復雜的過程。在決策過程中,數據扮演了重要的角色,需要根據不同的數據集,結合實際經驗,制定整體的決策方案。但是在許多領域,雖然積累了許多本領域的數據集,但是,由于缺乏足夠的背景知識的支持,在利用數據開展決策的時候,不能有效的發揮出數據的價值。關聯數據中蘊含了語義信息,如果在決策過程中,將本領域的數據集與相關的關聯數據集有效結合,對于指導實際決策具有重要的應用價值。
對于基于關聯數據的知識發現的過程和層次,不同學者給出了不同的解讀。趙衛軍①提出由服務、組件和對象3功能實體組成的基于SOA的關聯數據的高校圖書館知識服務架構模型,分成數據層、聚合層、組件服務層、應用層。李楠和張學福②認為基于關聯數據的知識發現過程包括了關聯數據發布、相關源選擇、關聯數據整合、關聯數據挖掘4個基本階段。他們將基于知識發現的應用特殊性與知識發現活動一般規律相結合,構建了包括資源層、知識發現處理層、應用層的3層基于關聯數據的知識發現模型。李俊和黃春毅③通過修改了傳統知識發現模型提出了在關聯數據基礎上實現知識發現的模型,將整個過程概括為:通過SPARQL獲取信息、數據預處理、轉換數據格式、關聯數據挖掘算法運算、結果的可視化和模式評估6大步驟。上述研究是分別從理論和實踐的角度加以闡述,由此產生了關聯數據知識發現過程的描述差異。而事實上它們仍然符合傳統知識發現的數據收集、數據預處理、數據轉換、數據挖掘、模式解釋和評價這一一般過程。
知識發現(Knowledge Discovery)是從大量數據集中發現隱藏于數據其中的、創新的、潛在有用的模式的過程④。目前國內外在知識發現的研究主要是以知識發現的概念、知識發現的任務、知識發現的評價以及知識發現算法等為主線,并且已經取得了一定的研究成果⑤。針對知識發現的一般過程,研究人員從不同的角度有不同的理解。一般研究人員熟知的數據庫中的知識發現(KDD)的一般過程即為普遍認可的,是Fayyad在1996年提出的知識發現處理過程模型⑥。其主要是從數據源出發,經過數據預處理、數據挖掘、結果的表達和解釋三個核心步驟最終獲取知識的過程。KDD給基于關聯數據的知識發現提供了一定的參考和借鑒,KDD是數據網絡中知識發現的基礎,因此基于關聯數據的知識發現應以KDD研究作為基礎,本文也遵循知識發現的一般過程。
發現新穎、有效、可理解的游泳知識是知識發現的最終目標。因此,在關聯數據網絡的資源基礎上,發揮關聯數據的優勢、利用關聯的資源去發現“關聯的知識”是實現與關聯數據的知識發現目標的頂層功能和核心保證。在海量的關聯數據網絡環境中,結合相關數據資源查詢、獲取、處理和挖掘,還需要通過特定的關聯知識發現,制定需要生成的知識模式,從而按照這一模式的結構去抽取與知識發現需求最為相關的信息,并且以用戶需要和理解的方式重新組織和架構相關信息,生成新的知識⑦。
利用關聯數據作為背景知識,能否發現新的知識、模式,能否通過關聯數據集減少挖掘過程中耗費的成本。目的是驗證關聯數據集和待挖掘數據能否產生新的知識,從而為決策提供現實依據。
本實驗要驗證將關聯數據集作為領域背景知識,將關聯數據背景知識應用到現有待挖掘數據中。關聯數據背景知識選擇歐洲統計局發布的關聯數據集,歐洲統計局的關聯數據集中包含了大量關于歐洲的各項統計數據,成員國機構負責收集本國統計數據并進行編輯,歐洲統計局的作用則是與各成員國統計機構緊密合作,協調、整合統計資源,按照歐盟的需要匯總分析成員國提供的統計數據。統計范圍涵蓋歐盟經濟社會活動的主要方面,包括經濟、就業、研發創新、環境、公共健康、國際賬戶收支、對外貿易、消費價格、農漁業、交通、能源、科技等。這些數據最終都發布為關聯數據,用戶可以在其網站通過Sparql查詢的方式獲數據⑧。
現有待挖掘數據選擇OECD(經濟合作與發展組織)網站給出的各個成員國成人的飲酒量數據⑨。OECD的數據門戶提供了多樣化的數據格式,如csv、excel格式等,本案中我們下載excel原始文件,然后導出為csv格式。
關聯數據的獲取通過Jena獲取,Jena提供了更加靈活的方式通過Sqarql查詢提取關聯數據中信息,本案中,將Jena集成到Eclipse開發環境中,通過程序獲取數據。獲取歐洲統計局各國家經濟數據的Sparql語句如下:
SELECT(sum(?value)as ?ss)?geo
FROM
FROM
WHERE{
?s qb:dataSet
?s dcterms:date ?time.
?s eus:geo ?g.
?g rdfs:label ?geo.
?s sdmx-measure:obsValue ?value.
FILTER(lang(?geo)='en')
}
GROUP BY?geo
基于Eclipse集成開發工具,在Jena環境中運行以上語句得到歐洲統計局關于各個國家經濟運行情況的數據,格式如圖下所示。
1378^^http://www.w3.org/2001/XMLSchema#decimal|Finland@en
1235^^http://www.w3.org/2001/XMLSchema#decimal|Italy@en
OECD的數據直接從網站下載,數據文件為excel格式,后續分析階段直接另存為csv格式,包含了國家信息及其酒精消費情況,其格式如表1所示。

表1 CEDC各成員國年度酒精消費情況
通過Google refine數據清洗工具對Sparql查詢的數據進行清洗,去除無用標簽和符號,Google refine是一款免費開源數據清洗工具,能夠幫助用戶轉換數據集的工具,優化數據的質量以便于在真實場景中使用。
數據的分析通過Rapidminer,其提供圖形化界面,通過Rapidminer數據挖掘軟件將關聯數據和待挖掘數據導入,對相關變量做相關性分析,本案中主要分析經濟因素GDP與酒精的二元關系,首先將關聯數據集和待挖掘的數據集進行合并處理,通過Rapidminer的算子模塊Join進行數據合并,數據的工作流程圖如下圖1所示:

圖1 數據處理流程圖
執行以上流程得到變量相關性結果如下:

表2 GDP與酒精消費的相關系數
通過以上分析,本實驗建立在經典的知識發現和數據挖掘的基礎之上,并結合關聯數據的應用場景,設計了此挖掘步驟,通在工具的選擇上,都是選用開源免費的軟件和類庫,這樣為擴展帶來了極大的靈活性,這樣當面對多個關聯數據集的時候,只需要調整數據整合的順序,就能實現多數據集的關聯挖掘。
通過計算的數據可以看出,應用關聯數據作為領域背景知識能夠為知識發現提供新的切入點,兩個變量之間存在著相關性,這也拓寬了消費關聯數據的范圍,在大數據環境下,我們面對的是海量的異構數據,關聯數據的出現能夠為這些數據的挖掘提供背景知識,也能使數據挖掘的過程更加可操作化和簡明化。
在關聯數據日益成熟、關聯數據網絡資源環境已經呈現的背景下,針對其特定知識發現規律的研究在理論和實踐上都具有一定的意義。知識發現也能夠作為基本方法論對關聯數據的發展和完善起到促進的作用。本文在相關研究的基礎上,分析和構建基于關聯數據的知識發現應用體系,這一體系可以作為整合資源和成果的統一框架,也可以作為研究的基礎和導向。關聯數據研究得到了國內外廣泛的關注,從關聯數據的研究趨勢和發展需求來看,基于關聯數據的知識發現應用應當得到更多的重視。目前這方面的工作已經多方面展開,但主題相對分散,目標也不夠明確。筆者希望本文所提出的應用體系可以作為關聯數據研究的框架和基礎,輔助相關工作的全面和深入的展開。下一步將研究將關聯數據應用于人工智能領域,結合機器學習框架keras,探索關聯數據更廣闊的應用。
【注釋】
①趙衛軍.基于SOA的關聯數據的高校圖書館知識服務架構[J].圖書館學刊,2013(6):103-105.
②李楠,張學福.基于關聯數據的知識發現模型研究[J].圖書館學研究,2013(1):73-77,67.
③李俊,黃春毅.關聯數據的知識發現研究[J].情報科學,2013.31(3):76-81.
④Soren A,Jens L.Creating knowledge out of interlinked data[J].Semantic Web,2010,(1):97-104.
⑤陳曉美,畢強,滕廣青,等.語義網環境下數字圖書館知識發現的維度框架研究[J].情報學報,2014,33(2):148-157.
⑥Usama F,Paul S.Data mining and KDD:Promise and challenges[J].Future Generation Computer Systems,1997,(13):99-115.
⑦李楠.基于關聯數據的知識發現研究:[D].北京中國農業科學院,2012.
⑧Eurostat-Linked Data.[EB/OL].http://eurostat.linked-statistics.org,2017-03-30.
⑨OECD.[EB/OL].http://www.oecd-ilibrary.org,2017-03-30.
【參考文獻】
[1]趙衛軍.基于SOA的關聯數據的高校圖書館知識服務架構[J].圖書館學刊,2013(6):103-105.
[2]李楠,張學福.基于關聯數據的知識發現模型研究[J].圖書館學研究,2013(1):73-77,67.
[3]李俊,黃春毅.關聯數據的知識發現研究[J].情報科學,2013.31(3):76-81.
[4]Soren A,Jens L.Creating knowledge out of interlinked data[J].Semantic Web,2010,(1):97-104.