胡春美

摘要
隨著信息化的發展,我們邁入了大數據的時代,在海量的形式多樣的數據中能夠高速、高效的獲取有價值的信息,是如今面臨的重要課題。對于很多專有領域來說,領域知識也變得越來越豐富,本體的應用能使領域術語,概念和認知通過統一的框架得以分享。研究本體在大數據時代的應用,可以提高知識的利用效率,具有一定的現實意義。
【關鍵詞】本體 大數據 專有領域
隨著計算機硬件的成本降低,性能提高,為海量數據的存儲提供了物質基礎。同時,云計算的出現,更是為大數據的存儲和計算提供了便利。有了海量數據,那么如何對數據進行有效利用是另一個重要的研究課題。數據檢索以及數據挖掘學科有專門的算法對數據進行有效的處理及利用,本體作為知識組織的一種形式,對領域中的知識進行表示,并與各種算法相結合,可以對大數據的相關研究起到一定的作用。
1 本體的定義
Gruber于1993年提出的本體的定義在業界首次獲得一致認可,他指出“本體是概念模型的明確的規范說明”。而后在此基礎上一個新的定義被Brost提出,即本體是共享概念模型的明確的形式化規范說明,該定義目前使用較為廣泛,它其中包含了四層的含義:概念化,形式化,明確性和共享。
2 本體在知識檢索中的應用
全文檢索是一種將文件中所有的文本內容與檢索項匹配的文字資料檢索方法。信息檢索出現了很多模型,其中比較經典的有:布爾模型,概率模型,向量空間模型,概念檢索模型。在大數據時代,由于大數據在存儲,收集,分析及檢索方面與傳統數據存在著區別,信息檢索也需要進行相應的變革。在某個領域的檢索系統中,常常會融入本體進行研究,以提高檢索模型的查全率和查準率。基于本體的查詢詞擴展,是較為常見的研究方向。該方法在一定程度上克服了傳統查詢詞擴展的語義性差、主題性差等缺點。這方面的研究很多,其核心思想大致如下:
(1)檢索系統需對用戶輸入的查詢內容進行預處理,獲得相關的查詢詞集。
(2)對查詢詞集中的關鍵詞進行分析,根據領域本體知識庫,劃分成本體概念集合與非本體概念集合。
(3)對本體概念集合中的概念詞按照一定的方式進行語義查詢擴展。
(4)通過閾值對擴展詞進行篩選。
上述的基本過程中,可能會存在一些缺點,近年來的研究中從不同的角度對基于本體的查詢詞擴展結合實際的需求進行了改善。
另外一個研究方向就是本體概念相似度的計算,主要的概念相似度計算方法有基于距離的概念相似度計算,基于屬性的概念相似度計算,混合式概念相似度計算。尋找合適的相似度計算方法用于計算查詢詞和擴展詞的相似度,調整擴展詞的權重,會使查詢結果更優。基于本體的文檔的語義標注也是研究的熱點,對文檔進行語義標注后,可以把文檔隱含的語義信息顯式的表現出來,可以為檢索的智能推理提供基礎。
3 本體在數據挖掘中的應用
數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。在各個領域中,比如教育、航天、銀行、證券、電信等,數據挖掘也開始廣泛應用。銀行可以通過一定的機器學習算法預測客戶是否有跑路的嫌疑。如今,數據挖掘已經在各個領域中得到了應用,但是可能相關的技術人員并不是各個領域的專業人才,會給數據挖掘的推廣造成一定的障礙。針對這種現狀,將本體思想與技術引入到數據挖掘過程中,用領域本體表示領域背景知識,可以在一定程度上輔助技術人員進行數據挖掘使數據得到有效利用獲取有價值的信息。如果認為數據挖掘的基本過程如圖1所示。
傳統數據挖掘被認為有三個方面的缺陷:規則過載、脫離情境、沒有合理使用領域專家知識,容易受數據挖掘者個人的挖掘偏好影響。將本體適當的應用在數據挖掘的各個階段,將領域知識融入到數據挖掘的過程中,可以更好的通過數據挖掘過程獲取有價值的信息。本體在數據預處理階段的應用,基于本體的數據挖掘算法的改進等都是比較常見的融入本體進行研究的方向。比如,基于本體的文本聚類算法的研究,該方法可以有效地減少文本特征向量的維數,同時提高文本聚類效果以及聚類結果的可解釋性。
4 總結
學者的各種研究,最終的目的都是希望在大數據中對數據進行有效并且高效的利用,得到所需的高價值的信息從而服務于企業或者領域的發展。由于領域具有專業性,將本體應用到領域大數據的相關研究中,具有一定的研究價值。
參考文獻
[1]林志陽.基于OWL語義本體的推理與存儲研究[D].海南大學,2008.
[2]時念云,楊晨.基于領域本體的語義標注方法研究[J].計算機工程與設計,2007(24):5985-5987.
[3]王棟,向陽,張波.本體在數據挖掘系統中的應用研究[J].計算機工程與應用,2009,45(05):11-12+15.
[4]聞中慧.數據挖掘中的本體應用研究綜述[J].軟件導刊,2012,11(07):104-106.