陳 銳,傅永梅,楊冬梅,陳建建
(山東華宇工學院,山東 德州 253000)
隨著互聯網技術和計算機技術的不斷發展,大數據概念越來越深入人心。互聯網信息量飛速增長,人們正處于信息爆炸時代,從龐大的信息中檢索到所需的資源,這是對信息檢索系統最大的挑戰。提高檢索系統的智能化是人們急需解決的問題之一,大數據的發展為智能檢索系統設計提供了新的思路,其有利于我國智能檢索技術的發展和進步。
信息資源利用過程中存在著信息資源過于分散的問題。互聯網用戶為了查詢所需的信息,常常瀏覽不同的網站,嘗試各種不同的檢索方式,更換各種檢索關鍵詞,這樣的檢索不具有系統性,無形中降低了檢索效率。而大數據的使用和開發,改變了傳統的信息存儲習慣,云端檢索的存在使得網絡用戶能夠借助大數據檢索平臺將檢索條件直接進行整合,提高信息檢索的整體性。國內外的搜索工具多種多樣,每個搜索引擎的建立基礎各不相同,但是每個搜索引擎也僅能涵蓋網絡資源的30%左右,其中可靠的信息只占很小的一部分,具有較大的局限性。用戶在網絡檢索中需要嘗試使用不同的檢索工具,才能找到自己滿意的信息資源。
現有的檢索工具大多需要用戶提供足夠準確的檢索詞,利用關鍵詞、規則與分類讓客戶進行判斷,但是與客戶缺乏充分的互動,不能智能化地詢問和猜測客戶想法。大部分檢索系統都是采用不同的算法來匹配不同檢索詞,這種匹配方式導致系統不同,匹配結果也不相同,與用戶檢索式息息相關。現有的檢索模式是采用集中串行式檢索,檢索效率較低,如果在某個節點出錯,會導致整個檢索過程受到嚴重影響[1]。
人工智能簡稱AI,是當前最前沿的科學技術,通過模擬、延伸和擴展,可使檢索系統越來越智能化,涉及社會新聞、文學知識及科學知識等學科,用戶借助信息檢索系統查找信息時,如果系統智能性不夠,會導致信息不具有系統性和完整性。
基于大數據的智能檢索系統可分為以下幾部分,即知識存儲系統(知識庫)、知識采集系統、知識處理系統及知識表達系統。
知識的保存是信息檢索過程中的重點建設部分,只有足夠的信息存儲量,才能保證信息檢索過程的覆蓋范圍,才能體現信息檢索的全面性和整體性。信息檢索根據檢索方式可以劃分為3種,即硬件設備檢索、軟件檢索和系統檢索。硬件設備中存儲的信息是所有軟件和系統檢索的根基,只有足夠數量的存儲量才能保證信息系統的完善性,為用戶提供良好的服務,實現智能系統的開發和完善。知識的存儲應是有序的、分門別類的,在存儲過程中應重視知識間的關聯性,在系統分類的基礎上將知識有機關聯起來,便于用戶對知識的調用及信息處理。
為了提高信息檢索系統中知識的豐富性,應注重信息采集工作,要保證信息檢索系統中的知識與時俱進,充分實現知識的更新和補充。知識采集系統主要分為書本知識采集及數據知識檢索收集。書本知識采集系統是將書本信息進行掃描,以PDF、Word等數據文本形式保存,將前人的經驗轉為文本數據,分享給更多的人。數據采集系統主要分為以下幾個過程:一是建立鏡像,通過站點鏡像對網站內容進行復制,將內容復制到系統中,實現采集效率的提高。二是采用智能化的信息監控系統,保證系統信息的合理性。三是對資源的智能發現,出現新的信息資源后,知識庫中的信息能夠與其進行交換,保證系統能夠自動采集信息。四是智能信息資源的轉換,將信息資源進行合理化的加工和分配,形成新的意義[2]。
在大數據環境下,網絡廣泛普及,智能技術廣泛應用,用戶給軟件授權后生成通信協議,可使信息檢索順利進行。例如:用戶需要搜索一個信息,但用戶又不太了解這個信息,智能化知識處理系統可以采用模糊處理,根據用戶之前的生活習慣和檢索習慣,給出與其相關的關鍵詞,并在篩選結果中進行智能化鑒別,除去與搜索主題無關的、無用的信息,這種智能處理技術在多種搜索引擎中及大型數據庫中較為常見。智能處理系統的使用雖然處于起步發展階段,但在多個方面給人們帶來了便利,如在網絡管理方面,智能處理系統可以幫助用戶查找到最合適的網站下載資源,推送功能可使用戶找到最受大眾歡迎的網站,為生產和生活提供幫助。
知識處理技術主要分為幾個方面:一是信息過濾技術。進行過濾和查詢,對網絡垃圾、病毒等進行防范。在信息過濾技術中增加人工智能,可以使信息過濾更加靈活,體現智能化。二是圖像視頻檢索技術(機器視覺)。將拍攝到的圖像進行處理,轉化為圖像信號,并從信號中提取出有用的信息。提取過程中,要充分重視圖像中的主要特征,根據這些特征采用計算機技術、數學分析及經驗來完成目標檢測、跟蹤、識別和表達。三是自然語言處理技術。它是能夠被人類廣泛識別的語言,智能檢索系統需要將自然語言處理為機器語言,進行加工后再轉化為自然語言。應對自然語言加強研究,實現人與機器間的有效互動,使計算機能夠準確判斷出自然語言是否可信,并完成自然語言的加工和理解[3]。
智能檢索的優勢是實現與人的友好交流,一個成熟的智能檢索系統需要充分和人實現智能互動,“想用戶之所想,急用戶之所急”。智能檢索系統不僅要將信息準確完整地搜集出來,還需要將信息科學合理地向用戶進行表達,讓用戶能夠全面了解知識。知識表達系統的建立能夠更好地幫助用戶進行信息劃分和查詢處理,挖掘出更多的信息資源,彌補過去智能處理信息的局限性,提高信息的交互性和流動性[4]。
大數據、云計算等技術被人們廣泛應用于信息檢索中,為互聯網發展帶來了巨大的機遇,影響著人們的生產和生活。在這種情況下,智能信息檢索技術改變了過去信息資源分散、算法匹配程度較差的問題,充分實現了信息檢索過程的互動性和智能化,大幅度降低了用戶檢索過程的時間成本。基于大數據理念,應加強智能檢索系統的設計工作,促進信息檢索技術的進步,為數據中國發展做出貢獻。