文/馮少博,河北六聯通信科技有限公司
基于開放網絡知識的信息檢索與數據挖掘
文/馮少博,河北六聯通信科技有限公司
隨著數據信息的海量增長,數據類型的不斷多樣,人們檢索數據信息需求的增加,需要提高信息檢索的精度與效率,因此開放網絡環境下的信息檢索與數據挖掘日益重要,需要對其原理方法進行深入研究。
開放網絡;數據挖掘;信息檢索
本文圍繞著數據挖掘的基本理論,對開放網絡知識信息檢索和數據挖掘的種類特點進行分析。
用戶當前面對的是一個開放動態的網絡環境,在開放的大數據庫時代,信息使用者必須圍繞主觀需求對需要搜索的內容進行總體性的概括,要求在用戶頭腦中形成客觀的搜尋目標,這樣才能通過一系列的資源整合最終找出搜尋的結果。關鍵詞是當前描述用戶信息需求的重要方法,利用關鍵詞在開放的網絡環境中進行信息搜索可以在整體上對信息內容進行高效的批量化處理,從而通過有效的檢索來查找到有價值的信息。通過關鍵詞來感知用戶的意圖,需要對用戶的需求進行更深層次含義的解析,以及對用戶信息需求進行劃分,這樣才能通總體感知用戶的信息需求,從而為更好的智能化服務用戶打下堅實的基礎。
有效的信息檢索必須是圍繞著關鍵信息點進行拓展的信息檢索活動。只有圍繞著用戶輸入的關鍵詞進行拓展性的信息提供,才能在不斷的延伸中滿足用戶的信息使用需求,并且為檢索活動創造更多的價值。在當前現有的數據庫基礎上對用戶檢索數據信息進行拓展意味著將信息復雜化和形象化,這不僅需要對數據庫的信息進行整合,而且還要研究用戶的個性化需求,以及用戶信息查詢的狀態,從而使圍繞關鍵詞的拓展活動更有科學性和完整性,并且可以在修正關鍵詞的基礎上提高用戶的檢索效率。對關鍵詞的拓展質量已經從某種程度上決定了信息查詢質量,只有建立起較為實用的數據化形式,才能更好的拓展符合用戶需求的數據信息內容,從而全面滿足用戶查詢和使用信息的需求。
語義問答是當前了解用戶需求的重要形式,只有在用索信息時進行必要的語義問題,對關鍵信息的內涵和外延進行科學的判斷,才能全面為用戶提供更有價值的信息服務內容,實現信息檢索服務的深層次提供目標,突破以往信息檢索只提供參考性內容,以及關鍵信息內容闡述不準確和只能提供簡單相關性界面服務的問題。目前進行語義問答來獲得用戶關于檢索目標的描述,主要通過語言及文字的處理發展而來,檢索系統會自主圍繞著檢索需求來提供給用戶進行一些有針對性的問題。系統會通過與用戶必要的信息交流,判斷用戶對信息的深層次要求,并且給數據庫提供有效運行指令方式,從而實現數據庫與關鍵詞的緊密結合,在全面提高數據檢索精準性的同時,極大提高檢索的效率。
網絡數據挖掘是建立在網絡數據抽取規則之上的活動。網絡數據挖掘從本質上是對概念、實例和屬性的提取,只有建立擁有普遍聯系的抽取規則,實現不同數據之間對無關聯概念的聯系,才能更好的在開放性的網絡數據環境中進行高效的數據挖掘活動。線索挖掘是基于數據的相關性進行的信息價值的判斷評估活動。線索挖掘的方式主要圍繞著關鍵信息進行比對式的連接,從而通過相關路徑找出更深層次和更有價值的信息。在大數據庫時代的結過挖掘的難度相對較大,由于大數據時代的關聯信息會無限制的延伸下去,因此其運行的頻率與質量直接的影響著數據挖掘的效率。
數據推理主要指的是基于數據實體間的關系而開展的判斷推理活動,力求找出關聯數據庫中潛在的聯系,這樣可以從中挖掘出有內在關聯性的知識。數據推理從本質上是為了在相關數據中找出隱含的數據關系,Sherlock-Holmes是開放網絡領域基于文本關系的推理方法。數據推理的方法建立在歸納邏輯編程的基礎上,它具體通過一般規則的特殊化,從數據庫中找出正例和反例等例句。由于推理活動基于的概念不同,因此用戶可以通過自建推理規則來輔助完善數據挖掘的活動。對知識庫中的數據進行推理是挖掘數據價值的重要方式,但是在當前超大規模的數據庫中使用數據推理方式來進行數據挖掘,還需要提高推理的精確性。
當前數據庫的規模越來越大,數據挖掘便傾向于使用實體關系進行數據預測。關系預測通過對數據的量變與質變做出有效的分析和預判,從而達到對新產生的邏輯關系,數據類型的變化,數據關系變化的頻率等問題進行有效的掌握。目前對關系預測的方法主要由機器學習法來實現,機器學習法可以分有監督學習法和無監督學習法兩種,目前有監督學習算法是比較流行的信息預測方式,它主要基于實驗來收集數據的相關知識,然后在此基礎上對數據的變化進行預測。非監督學習法的準確度相對較高,但是預測算法較為復雜,預測成本相對較高。預測可以從極大的程度上推動知識的更新,可以結合數據庫的更新來更好的判斷數據信息的變化,關系預測是當前數據挖掘領域里獲得新知識的重要途徑。
數據挖掘可以提高網絡信息摘要的準確率,可以滿足用戶使用關鍵詞進行信息檢索的需要。通過自動數據挖掘可以給用戶提供關于網絡信息的深入摘要,可以幫助用戶更好的確定信息的價值,從有助于幫助用戶理解整篇文檔的信息,可以揭示出信息主題與內容知識之間的關系,更可以實現對語義內容的標注,全面提高了摘要的準確性和有效性。
通過信息挖掘可以拓展網絡信息資源量,可以給用戶檢索出需要的文字、表格、圖片、視頻等多種形式的信息,使用數據信息挖掘技術可以為用戶提供更明確有效的索引,可以把潛藏的信息直觀的呈現給用戶,因此有助于拓展用戶的信息量,更好的滿足用戶對潛在信息的使用需求。
通過數據挖掘可以對信息結果進行重組,有助于實現數據信息的分類目標,從而幫助用戶在千萬個相關信息中形成網絡數據信息的重點,可以結合用戶的需求實現不同主題特征的歸類,實現對檢索結果頁面進行等級分析,幫助用戶得到更適合的結果,實現高相似度的分析目標。
基于開放網絡知識的信息檢索與數據挖掘,提高了信息的使用效率,實現對了數據庫的深層次挖掘,有助于滿足用戶使用信息的實際需求。
[1]戴禮燦.大數據檢索及其在圖像標注與重構中的應用[D].中國科學技術大學,2013.
[2]馬仲兵.數據挖掘技術在圖書館采訪中的應用[D].重慶師范大學,2012.