林炫
摘 要
截止2016年,我國網絡的普及率已經超過了百分之五十,互聯網上的信息爆炸性的增長,如何在海量的信息中檢索到自己需要的內容,已經成為互聯網研究的重要課題,搜索引擎技術主要擺闊搜索技術、文檔分類技術以及信息抽取技術,本文將立足于搜索引擎中的信息抽取技術,深入研究信息抽取技術的關鍵要點,以供相關從業人員借鑒學習。
【關鍵詞】搜索引擎 信息抽取技術 向量空間模型
搜索引擎主要由信息標引、信息管理分類、數據動態跟蹤等功能組成,除此之外,搜索引擎還具有幾個必備的功能,例如站點索引、自然信息庫;信息橋等,為了實現高速、精準的搜索,必須加強搜索引擎中信息抽取技術的研究,本文將立足于搜索引擎的功能組成,深入研究搜索引擎中信息抽取技術。
1 搜索引擎中信息抽取技術概述
1.1 搜索引擎的原理
搜索引擎的主要任務是實現信息的有序利用和快速定位,因此搜索引擎要具有合理的信息索引機制,才能增強搜索引擎的高效性,使其在最少的存量、最快的速度進行準確定位。搜索引擎的對象是互聯網的信息源,主要包括文本、圖片、應用、消息、聲音、影響等媒介。每一種數據類型還包括多種子類,為了實現信息的快速定位,搜索引擎要具有強大的辨識能力,使其在海量的信息當中,找到有用的信息,因此搜索引擎要具有信息標識、信息管理歸類等功能。
1.2 信息抽取技術
信息抽取是將物聯網作為信息源的一類信息抽取,目前來說,大部分數據都是以HTML語言描述的,并且互聯網的信息呈現爆炸性的增長,想要在如此海量的信息中,找到自己想要的內容,是十分困難的。此外,大量的信息都缺乏語義信息,造成大量資源都無法被有效的利用,為了提高網絡資源的利用率,應該極強搜索引擎中信息抽取技術的研究,建立完善的信息抽取系統,從而實現在Web頁面中識別和定位待抽取的信息。
2 搜索引擎中信息抽取技術的關鍵要點
2.1 抽取規則生成方法
為了解決主題信息覆蓋率過低的問題,應該深入的研究搜索引擎的抽取規則。目前較為主流的抽取規則生成方法有兩種,第一類為人工獲取方式,第二類為自動學習方式。人工獲取方式是依靠人類專家,對一定量的待處理文檔進行歸納,并總結相關信息出現的規律,但效果很有限,主要原因在于人類專家的生成的抽取規則,受到了個體知識水平的限制,這樣系統的可擴展性也受到了限制。相比人工獲方式,自動學習方式的自動化程度較高,但也具有一定的人工成分,主要依靠的人工在訓練集合中生成自動抽取規則。
2.2 基于包裝器的信息抽取技術
包裝器是搜索引擎的一個程序,用于從信息源中抽取相關內容,為了方便處理,包裝器還具有結構化信息的功能,能夠對信息進行特殊處理,相關工作人員可以輸入特定的指令,從而獲取想要的信息源。包裝器一般由程序員編寫,通常由計算機程序代碼組成,具有標準化的特性,能夠在海量的信息源中找到標注過的信息,并將這些信息返回給客戶,因此基于包裝器的信息抽取技術使用起來十分方便。相關工作人員在使用包裝器時,需要注意一個問題,針對不同的網站編寫抽取規則十分困難,需要大量的人工資源,因此應該將包裝器轉化為自動生成包裝器,使其能夠適應網頁結構的變化,在最大程度上提高包裝器的適用性。
2.3 基于隱馬爾可夫模型的信息抽取技術
隱馬爾可夫模型是建立在隨機概率原理上的一種信息抽取技術,在信息提取的過程中,隱馬爾可夫模型信息抽取技術能夠根據每個域出現的符號,來對應符號與各個域之間的關系,經過復雜的計算來推算出信息的位置。基于隱馬爾可夫模型的信息抽取技術多用于文章頭部信息的抽取,相關工作人員只要搜索關鍵詞、標題,就能找到自己需要的信息。由于每個域對應多個狀態,因此在搜索時,需要細化輸出符號,才能更加精確的定位信息,輸出信號越細化,信息內容越準確。
2.4 基于視覺分析的信息抽取技術
基于視覺分析的信息抽取技術,能夠將網頁中視覺樣式相同或者相似的特征的信息進行歸類,從而方便信息的抽取。這一方法主要利用了可視化技術,自動生成一些可視化的線索,在根據這些線索進行信息提取,但這種方法只能用于簡單對象的搜索,相關工作人員在使用時應該注意這個問題。
3 結語
綜上所述,信息抽取技術是搜索引擎最重要的組成部分,直接決定了搜索引擎的性能,因此要加強搜索引擎中的信息抽取技術的研究,相關工作人員應該在工作中總結經驗教訓,并不斷完善信息抽取技術。
參考文獻
[1]鄒華軍,張愛強,曾育星.基于網絡編程技術實現Internet上多搜索引擎信息的獲取[J].微型機與應用,2013(09):30-32.
[2]孟紅,鐘華.基于htmlparser的搜索引擎信息抽取系統設計與實現[A].中國中文信息學會信息檢索與內容安全專業委員會.第六屆全國信息檢索學術會議論文集[C].中國中文信息學會信息檢索與內容安全專業委員會,2010:5.
[3]汪波.搜索引擎與用戶:尋找技術與大眾信息的平衡點——記Google,Yahoo,Lycos的一次三家談[J].現代情報,2013(03):53-54.