黃少年
摘 要:大數據時代,人們如何才能從海量的大數據信息中獲得個人所需要的信息,已經成為科技信息人員當前研究的重要內容。本文主要介紹了目前互聯網環境下的信息檢索技術,同時對未來的信息檢索技術進行展望。
關鍵詞:信息檢索;檢索技術;檢索技巧
1.引言
隨著互聯網的發展,人類社會已進入信息時代。在現實生活中,人們已經從以前的通過報紙、廣播、電視獲取信息轉變成主要從網絡獲取信息資源。這大大改變了人們的生活習慣,通過網絡獲取信息資源,不僅提高了人們獲得信息的速度同時也提高了信息的有效性和及時性。本本文主要介紹了目前互聯網環境下的信息檢索技術,同時對未來的信息檢索技術進行展望。
信息檢索是指信息按一定的方式組織起來,并根據信息用戶的需要找出有關的信息的過程和技術。在互聯網高速發達的現代社會,幾乎每個人都在有意無意的用到信息檢索技術。因此,如何才能在網絡大環境下提高信息資源檢索的質量和效率就顯得非常重要。
2.網絡信息資源檢索技術
網絡信息檢索工具,是指利用超文本技術在 internet上建立的一種提供網絡上信息資源導航、檢索服務的專用網站服務器。它的工作原理可以概括為:通過自動索引程序 robot(或人工)來廣泛收集網絡信息資源數據,經過一系列的判斷、選擇、標引、加工、分類、組織等處理后形成供目錄索引及檢索界面。快速準確高效地獲取網絡信息資源,是信息提供者或獲取者追求的目標;而合理利用網絡信息檢索工具,則是實現其目標的有效途徑。而網絡信息檢索技術主要有以下幾種類型:
2.1全文搜索引擎
全文搜索引擎的主要代表有國內的百度和國外的Google。它主要是使用關鍵詞進行信息的檢索。用戶只要把想要查找的關鍵詞或短語輸入查詢欄中,然后再點擊 Search(查詢 )即可,這種搜索技術速度快,返回結果數量也很大。因此,用戶必須從搜索結果進行篩選出有用信息。
2.2目錄搜索引擎
目錄搜索引擎與全文搜索引擎的工作方式不同,它是由人工對web站點和文檔進行評價、分類并給出簡要描述。用戶可以通過瀏覽目錄中的分類來查詢web信息。當目錄中包含太多的分類和鏈接時,目錄本身也變得不便于瀏覽。最典型的就是Yahoo搜索。由于加入了人的智能,該類搜索引擎所得信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。
2.3多元搜索引擎
多元搜索引擎沒有自己的數據資源庫,而是將用戶的查詢請求同時向多個搜索引擎遞交,在將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全,缺點是不能充分使用搜索引擎的功能,用戶需要做更多的篩選。
3.提高網絡信息資源檢索效率的技巧
由于互聯網的信息資源量非常之巨大,如果只是簡單的對網絡進行搜索,那么得出的數據有可能不到1%的量是我們所需要的。因此,如何提高搜索質量和搜索效率已經成為一個非常值得關注的課題。
3.1使用合適的搜索引擎
網絡上流行著這么一句話:外事問google,內事問百度。也許并不是那么準確,但是還是有一定的道理的,每個搜索引擎都有各自的特點與側重點。因此,我們在搜索信息的時候可以根據情況來選擇不同的搜索引擎。簡單來說,如果搜索的是外文類的信息,那我們使用goolge可能搜索出來的信息會比較適合要求,而且也會更齊全。如果是搜索中文類的信息,那么選擇百度會更合適。
3.2使用正確的關鍵詞
關鍵詞也叫搜索詞,搜索引擎能根據這些關鍵詞尋找用戶所需資源的地址,然后根據一定的規則反饋給用戶包含此關鍵字詞信息的所有網址和指向這些網址的鏈接。當我們搜索的關鍵是確切的時候,我們就應該輸入確切的關鍵詞,這樣就可以保證輸出結果的正確性和合理性。而且如果我們要查找的信息關鍵詞不太確定或者比較模糊的時候,我們可以用比較接近的關鍵詞或者同義詞來查找,現代搜索引擎技術都具有聯想功能,因此大多時候都可以聯想出我們要查看的正確關鍵詞,從而找出需要的信息。當然如果有需要的話可以多用幾個關鍵詞來查找,但是需要提醒讀者的是關鍵詞之間最好用空格來隔開,當然這種方法產生的結果也會比較多,無用無效信息也就會更多,需要我們做更多的篩選。
3.3巧用字段檢索
字段檢索是傳統數據庫中常用的檢索手段之一,用戶可以指定檢索一個特定的字段,如標題字段、作者字段、年份字段、單位字段等。在網絡檢索引擎中常使用的字段檢索有標題、網址、圖象等,其中最常用的是標題字段檢索。每個主頁都有一個反映其主要內容的標題,因而使用標題字段檢索準確率較高,如果在標題字段用詞組或短語檢索,其效果更好。如果需要圖象文件,可以用圖象字段檢索。由于各個檢索引擎在提供這類字段檢索時所用的檢索格式不同,用戶在使用時要事先閱讀有關的檢索規則。
3.4其他檢索技巧
除了以上介紹的這些常用檢索技巧之外,還有其他技巧可以幫助我們提高搜索的效率。例如,當我們要搜索某些特定的文件類型的時候,我們可以使用filetype這個英文單詞協助搜索。比如要搜索包含關鍵詞為“北海職業學院2020年招生簡章”的word文檔時。我們可以在搜索引擎的搜索欄里輸入“filetype:doc 北海職業學院2020年招生簡章”,然后就可以搜索出我們需要的word文檔了。又或者是當我們只希望在某個指定的網站搜索信息時,我們可以用site這個單詞來輔助查找。例如,要從北海職業學官網上查找2020年招生信息時,我們可以用以下的格式來搜索,”site:www.bhzyxy.net 2020年招生簡章”。當然還有其他技巧,需要讀者進行更多深入學習研究。
4.信息檢索技術的展望
4.1智能化搜索
未來的搜索應該朝著智能化的方式發展。它除了能提供傳統的快速檢索、相關度排序等功能外,還能提供用戶興趣自動識別、內容的語義理解、智能化信息過濾和推送等功能。網絡信息檢索智能化,志在消除人與計算機之間的矛盾,努力使計算機人性化,理解用戶的語言及需求。
4.2移動搜索
隨著智能手機的快速發展,基于手機的移動設備搜索日益流行,但移動設備有很大的局限性,比如屏幕太小,可顯示的區域不多,計算資源能力有限,打開網頁速度很慢,手機輸入繁瑣等問題都需要解決。目前,隨著智能手機的快速普及,移動搜索一定會更加快速的發展,所以移動搜索的市場占有率會逐步上升。
4.3實時搜索
隨著微博的個人媒體平臺興起,對搜索引擎的實時性要求日益增高,我想這也是搜索時引擎未來的一個發展方向。實時搜索最突出的特點是時效性強,越來越多的突發事件首次發布在微博上,實時搜索核心強調的就是“快”,用戶發布的信息第一時間能被搜索引擎搜索到。
4.4其他技術
社會在發展,科技也在不斷的進步,隨著科技研究人員的不斷努力研究探索,未來肯定會產生更多更好用的搜索技術。
5. 結語
大數據時代的到來,網絡信息資源在不斷的增加,我們從網絡上獲取的信息資源也越來越多。除了提高網絡信息檢索技術之外,用戶也要掌握網絡信息檢索的技巧,不斷提高自身的檢索能力,才能從網絡中更好更快地的檢索到自己所需要的信息,使互聯網更好為我們服務。
參考文獻:
[1]汪楠. 信息檢索技術(第二版)[M].清華大學出版社. 2015
[2] 彭奇志.信息檢索與利用)[M]..中國輕工業出版社.2013
[3]林群霞. 網絡信息檢索及其前沿技術的發展[J].惠州學院學報.2009