王琪 北京綠巖石科技發展有限公司
本文主要對開放網絡知識的信息檢索與數據挖掘的應用領域進行了分析,并探究了其實際應用范圍,希望能夠更好的發揮網絡大數據環境下信息檢索與數據挖掘的作用和價值。
1.意圖感知
意圖感知實際上就是利用信息使用者對所有搜尋的內容的總體概括,在腦海中所形成的目標性意識,通過對這一內容進行資源整合就可以得到相關的檢索結果,并且在整體基礎上對內容進行量化處理。在進行信息檢索時,用戶只需要輸入關鍵詞進行搜索,就能夠獲取自己想要的信息,此過程中每個關鍵詞都涵蓋有用戶所要搜尋的信息量,其屬于對總體內容的總結。為了對用戶的查詢意圖進行更好的感知,檢索時需要挖掘更深層次的含義,因此這就需要對用戶的檢索目標建立起意圖基本模型,以信息搜索記錄作為依托,了解用戶的信息使用情況,并對用戶主體和信息進行分類。一般情況下,用戶所檢索的內容并不能直接的體現出來,其具有隱蔽性,因此在建模過程中就需要結合關鍵詞,不斷對內容進行推理和研究,然后挖掘出更多的顯性信息,對更深層次的信息和領域進行針對性的開拓,這樣就可以準確的找到用戶想要獲取的信息,并且為以后的意圖感知做好準備工作。
2.查詢拓展
信息檢索的另外一種有所手段就是查詢拓展,即借助強有效的措施,在用戶輸入關鍵詞后,對相關詞組及內容進行延伸拓展,以達到以用戶提供更多有用信息的目的,而且其還能為檢索文檔創作出更多的價值。在初始知識庫的總體系統中,將查詢內容進行延伸,作用在于可以使簡單內容復雜化、形象化。同時,在對不同用戶及信息查詢狀態進行整體幾個體研究時,則使得詞義拓展變更加科學和完整。在將關鍵詞進行調整和修改的基礎上,可以有效的提高搜索效率,這也從側面證明了詞義的查詢拓展效率優化,需要對原本的知識系統進行建模,而且要將內部結構進行整體概括,在信息系統的總體內容上,做好信息挖掘、尤其是建立起比較新型的數據優化形式,能夠促使拓展內容更好的滿足用戶需求。
3.語義問答
信息檢索的目的就是為用戶提供優質的信息服務,但其并非是表面層次上的為用戶提供參考性內容,在進行內部闡述和回答的過程中,也并非只是簡單的為用戶提供相關性界面,而是要運用專業性手段為用戶提供與之相關的語義回答。該技術是一項依托于信息檢索、語言及文字處理等發展而來的新技術,在對用戶需求進行描述以及延伸的過程中,將會產生相應的針對性問題自動回答系統,該系統作用的發揮,需要在數據庫的支撐下才可以實現,在問題回答時,只有與數據庫緊密結合,才能提高回答的準確性。
1.線索挖掘
線索挖掘時建立在網絡知識庫的總體基礎之上的,通過對大數據知識庫中的數據進行相關性研究,可以建立真實的連接模式,即通過人物關系,對線索的相關路徑及信息進行深入挖掘,然后延伸出更深、更有價值的內容,使得信息內容能夠得到有效的拓展和補充,這實際上也是知識處理的過程。在對大數據庫中的實際線索研究分析時,探索與線索挖掘相關的內容實際上是存在有一定難度的,因為大數據信息庫中所存儲的內容將會無線拓展增加,數據信息庫的運行效率和質量也會影響數據的建設和發展。現有的知識庫在構建時由于技術水平及其他因素的影響,還存在有一定的限制性問題,如數據之間無法有效切換,數據噪聲大等,為了更好的提升數據庫信息的兼容性和拓展性,還需不斷對相關內容進行深入的探究與分析。
2.關系推理
開放網絡知識的關系推理,指的是利用知識庫現有的實體間關系推斷或推理實體之間潛在、隱含的關系,對知識庫中的實體關系進行推斷是近些年來,數據挖掘關注的熱點,但同時也是難點,如何應對在超大規模知識庫中對關系進行精確的推理,以及對推理結果的可行度進行有效的判定,是關系推理發展的核心所在。
3.關系預測
對大規模知識庫的實體關系進行預測,試圖對實體間關系的時序變化做出定量和定性的預測,這種預測主要包含有分析實體間是否會產生關系、關系的類型變化、關系的置信度變化、關系發生的頻次等。相較于關系推理來說,對關系的預測時對未來實體之間可能發生的關系進行判定,而相關工作的實現所依靠的都是機器學習,如監督的學習方法和無監督的學習方法。
4.系統應用
開放網絡知識的發展一定意義上為下一代智能搜索和深入信息挖掘與分析提供了重要的基礎。當前,隨著技術的不斷發展和進步,已經從數據積累階段逐步朝著產品產出階段轉化,知識圖譜和實體搜索發展成為網站搜索的標志性技術,其在各個系統中的應用可謂是越來越廣泛,比如說百度以及Google 等搜索引擎都有應用信息檢索與數據挖掘技術,這種能夠在短時間內獲得廣泛、多元信息的技術是傳統的實體信息提取技術難以有效涵蓋的。但是這種深入的屬性數據挖掘一方面離不開大量的網頁數據支持,另外一方面受到了互聯網數據中大量的噪音影響,其技術難度大,技術收益受到了一定的干擾。
開放網絡知識的信息檢索與數據雖然應用越來越廣泛,給人們的信息搜索和應用帶來了更多的便利,但是相關技術的應用還處于起步階段,因此還有大量的問題亟待解決,其具體表現在以下方面:
1.開放網絡知識的創新和更新要融入群體智慧
開放網絡知識數據庫在構建過程中,其數據來源具有冗余、噪音和不一致等多種特點,開放網絡知識庫的構建在數據預處理階段也面臨著有諸多挑戰,因此為了更好的發揮開放網絡知識在信息檢索和數據挖掘等方面的作用還需要發揮群體智慧,以便對數據進行預處理或者是直接進行知識生產。
2.開放網絡知識庫的實時感和自動更新
開放網絡知識庫的實時感知指的是開放網絡知識庫可以實時的感知數據源的變化情況,其包含有數據規模的增長,數據內容的變化等,在實時感知的前提下,可以更好的對知識庫的知識進行自動更新,而要實現這一目的就需要知識庫在構建時可以充分的融入知識的時空信息,實時跟蹤了解時空信息的變化情況,掌握知識變化的一般規律,同時知識庫還需具備對知識變化的判斷能力,只要做好這方面的工作,知識庫才有可能完全或者是部分擺脫手動更新的手段,實現智能化搜索。
3.通用知識庫與領域知識庫結合,拓寬知識內容
所謂的領域知識庫指的是及知識庫建模是某個特定領域或者是現實世界的一部分,領域知識表達的是適合于該領域的那些術語的特殊含義,其可以用來構建針對特定任務的專業化知識庫。通用知識庫則指的是由若干個領域知識中普遍使用的共同對象構成的模型,收錄核心詞表,可以用來描述一系列領域中的對象。領域知識庫的優勢在于可以通過對庫中實體的概念化的過程而得到通用知識庫,反之,通用知識庫則可以通過對庫中概念的實體化來得到領域知識庫,二者融合的優勢雜魚,可以對具有相同通用知識庫的多個領域知識庫進行融合,這樣能夠更好的豐富知識庫的內容,滿足用戶多元化的信息搜索需求。
總之,網絡大數據背后蘊藏有豐富的、復雜關聯的知識網絡,科學合理的應用開放網絡知識的價值,能夠快速的對數據進行去冗分類、去粗取精,從數據中挖掘知識,對大數據網絡的知識進行深入的分析和探究,進而更好的發揮信息檢索和數據挖掘的價值。