999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎中的信息抽取技術

2017-05-10 23:54:51林炫
電子技術與軟件工程 2017年8期
關鍵詞:搜索引擎

林炫

摘 要

截止2016年,我國網(wǎng)絡的普及率已經(jīng)超過了百分之五十,互聯(lián)網(wǎng)上的信息爆炸性的增長,如何在海量的信息中檢索到自己需要的內(nèi)容,已經(jīng)成為互聯(lián)網(wǎng)研究的重要課題,搜索引擎技術主要擺闊搜索技術、文檔分類技術以及信息抽取技術,本文將立足于搜索引擎中的信息抽取技術,深入研究信息抽取技術的關鍵要點,以供相關從業(yè)人員借鑒學習。

【關鍵詞】搜索引擎 信息抽取技術 向量空間模型

搜索引擎主要由信息標引、信息管理分類、數(shù)據(jù)動態(tài)跟蹤等功能組成,除此之外,搜索引擎還具有幾個必備的功能,例如站點索引、自然信息庫;信息橋等,為了實現(xiàn)高速、精準的搜索,必須加強搜索引擎中信息抽取技術的研究,本文將立足于搜索引擎的功能組成,深入研究搜索引擎中信息抽取技術。

1 搜索引擎中信息抽取技術概述

1.1 搜索引擎的原理

搜索引擎的主要任務是實現(xiàn)信息的有序利用和快速定位,因此搜索引擎要具有合理的信息索引機制,才能增強搜索引擎的高效性,使其在最少的存量、最快的速度進行準確定位。搜索引擎的對象是互聯(lián)網(wǎng)的信息源,主要包括文本、圖片、應用、消息、聲音、影響等媒介。每一種數(shù)據(jù)類型還包括多種子類,為了實現(xiàn)信息的快速定位,搜索引擎要具有強大的辨識能力,使其在海量的信息當中,找到有用的信息,因此搜索引擎要具有信息標識、信息管理歸類等功能。

1.2 信息抽取技術

信息抽取是將物聯(lián)網(wǎng)作為信息源的一類信息抽取,目前來說,大部分數(shù)據(jù)都是以HTML語言描述的,并且互聯(lián)網(wǎng)的信息呈現(xiàn)爆炸性的增長,想要在如此海量的信息中,找到自己想要的內(nèi)容,是十分困難的。此外,大量的信息都缺乏語義信息,造成大量資源都無法被有效的利用,為了提高網(wǎng)絡資源的利用率,應該極強搜索引擎中信息抽取技術的研究,建立完善的信息抽取系統(tǒng),從而實現(xiàn)在Web頁面中識別和定位待抽取的信息。

2 搜索引擎中信息抽取技術的關鍵要點

2.1 抽取規(guī)則生成方法

為了解決主題信息覆蓋率過低的問題,應該深入的研究搜索引擎的抽取規(guī)則。目前較為主流的抽取規(guī)則生成方法有兩種,第一類為人工獲取方式,第二類為自動學習方式。人工獲取方式是依靠人類專家,對一定量的待處理文檔進行歸納,并總結(jié)相關信息出現(xiàn)的規(guī)律,但效果很有限,主要原因在于人類專家的生成的抽取規(guī)則,受到了個體知識水平的限制,這樣系統(tǒng)的可擴展性也受到了限制。相比人工獲方式,自動學習方式的自動化程度較高,但也具有一定的人工成分,主要依靠的人工在訓練集合中生成自動抽取規(guī)則。

2.2 基于包裝器的信息抽取技術

包裝器是搜索引擎的一個程序,用于從信息源中抽取相關內(nèi)容,為了方便處理,包裝器還具有結(jié)構(gòu)化信息的功能,能夠?qū)π畔⑦M行特殊處理,相關工作人員可以輸入特定的指令,從而獲取想要的信息源。包裝器一般由程序員編寫,通常由計算機程序代碼組成,具有標準化的特性,能夠在海量的信息源中找到標注過的信息,并將這些信息返回給客戶,因此基于包裝器的信息抽取技術使用起來十分方便。相關工作人員在使用包裝器時,需要注意一個問題,針對不同的網(wǎng)站編寫抽取規(guī)則十分困難,需要大量的人工資源,因此應該將包裝器轉(zhuǎn)化為自動生成包裝器,使其能夠適應網(wǎng)頁結(jié)構(gòu)的變化,在最大程度上提高包裝器的適用性。

2.3 基于隱馬爾可夫模型的信息抽取技術

隱馬爾可夫模型是建立在隨機概率原理上的一種信息抽取技術,在信息提取的過程中,隱馬爾可夫模型信息抽取技術能夠根據(jù)每個域出現(xiàn)的符號,來對應符號與各個域之間的關系,經(jīng)過復雜的計算來推算出信息的位置。基于隱馬爾可夫模型的信息抽取技術多用于文章頭部信息的抽取,相關工作人員只要搜索關鍵詞、標題,就能找到自己需要的信息。由于每個域?qū)鄠€狀態(tài),因此在搜索時,需要細化輸出符號,才能更加精確的定位信息,輸出信號越細化,信息內(nèi)容越準確。

2.4 基于視覺分析的信息抽取技術

基于視覺分析的信息抽取技術,能夠?qū)⒕W(wǎng)頁中視覺樣式相同或者相似的特征的信息進行歸類,從而方便信息的抽取。這一方法主要利用了可視化技術,自動生成一些可視化的線索,在根據(jù)這些線索進行信息提取,但這種方法只能用于簡單對象的搜索,相關工作人員在使用時應該注意這個問題。

3 結(jié)語

綜上所述,信息抽取技術是搜索引擎最重要的組成部分,直接決定了搜索引擎的性能,因此要加強搜索引擎中的信息抽取技術的研究,相關工作人員應該在工作中總結(jié)經(jīng)驗教訓,并不斷完善信息抽取技術。

參考文獻

[1]鄒華軍,張愛強,曾育星.基于網(wǎng)絡編程技術實現(xiàn)Internet上多搜索引擎信息的獲取[J].微型機與應用,2013(09):30-32.

[2]孟紅,鐘華.基于htmlparser的搜索引擎信息抽取系統(tǒng)設計與實現(xiàn)[A].中國中文信息學會信息檢索與內(nèi)容安全專業(yè)委員會.第六屆全國信息檢索學術會議論文集[C].中國中文信息學會信息檢索與內(nèi)容安全專業(yè)委員會,2010:5.

[3]汪波.搜索引擎與用戶:尋找技術與大眾信息的平衡點——記Google,Yahoo,Lycos的一次三家談[J].現(xiàn)代情報,2013(03):53-54.

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統(tǒng)的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 高清无码不卡视频| 在线综合亚洲欧美网站| 天天干天天色综合网| 91精品人妻互换| 国产女人在线观看| 亚洲性日韩精品一区二区| 亚洲人成在线精品| 亚洲综合18p| 综合亚洲网| 污网站在线观看视频| 国产一区成人| 国产毛片基地| 精品日韩亚洲欧美高清a| a亚洲视频| 国产精品自在线拍国产电影| 国产不卡网| 最新国产麻豆aⅴ精品无| 欧美成人国产| 日韩福利在线观看| 久久99国产乱子伦精品免| 日韩av高清无码一区二区三区| 一区二区三区四区精品视频 | 国产情精品嫩草影院88av| 真实国产精品vr专区| 国产乱人免费视频| 午夜久久影院| 国内a级毛片| 欧美日韩福利| 青草午夜精品视频在线观看| 亚洲成人77777| 国产9191精品免费观看| 欧美日韩福利| 99视频免费观看| 狠狠v日韩v欧美v| 日本精品视频| 亚洲性日韩精品一区二区| 无码专区在线观看| 国产91丝袜在线播放动漫 | 国产福利拍拍拍| 多人乱p欧美在线观看| 中文字幕av无码不卡免费 | 18禁不卡免费网站| 99re66精品视频在线观看| 中文字幕伦视频| 亚洲啪啪网| 中文字幕在线播放不卡| 国产精女同一区二区三区久| 日韩AV无码免费一二三区| 尤物视频一区| 精品国产免费第一区二区三区日韩| 亚洲久悠悠色悠在线播放| 91精品国产无线乱码在线| 亚洲天天更新| 亚洲无码熟妇人妻AV在线| 亚洲欧美日韩精品专区| 天天操精品| 亚洲va精品中文字幕| 欧美影院久久| 女人18毛片一级毛片在线| 久久精品无码一区二区日韩免费| 18禁色诱爆乳网站| 无遮挡国产高潮视频免费观看| 免费在线a视频| 狠狠v日韩v欧美v| 欧美va亚洲va香蕉在线| 国产精品99r8在线观看| 亚洲国产成人在线| 日韩无码白| 日本欧美午夜| 国产区在线看| 日本黄色a视频| 国产乱人乱偷精品视频a人人澡| 在线永久免费观看的毛片| 免费在线看黄网址| 欧美日韩一区二区三| 国产超薄肉色丝袜网站| 无码精油按摩潮喷在线播放| 经典三级久久| 国内精品久久九九国产精品| 40岁成熟女人牲交片免费| 99国产精品国产高清一区二区| 亚洲欧美另类专区|