999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎中的信息抽取技術

2017-05-10 23:54:51林炫
電子技術與軟件工程 2017年8期
關鍵詞:搜索引擎

林炫

摘 要

截止2016年,我國網(wǎng)絡的普及率已經(jīng)超過了百分之五十,互聯(lián)網(wǎng)上的信息爆炸性的增長,如何在海量的信息中檢索到自己需要的內(nèi)容,已經(jīng)成為互聯(lián)網(wǎng)研究的重要課題,搜索引擎技術主要擺闊搜索技術、文檔分類技術以及信息抽取技術,本文將立足于搜索引擎中的信息抽取技術,深入研究信息抽取技術的關鍵要點,以供相關從業(yè)人員借鑒學習。

【關鍵詞】搜索引擎 信息抽取技術 向量空間模型

搜索引擎主要由信息標引、信息管理分類、數(shù)據(jù)動態(tài)跟蹤等功能組成,除此之外,搜索引擎還具有幾個必備的功能,例如站點索引、自然信息庫;信息橋等,為了實現(xiàn)高速、精準的搜索,必須加強搜索引擎中信息抽取技術的研究,本文將立足于搜索引擎的功能組成,深入研究搜索引擎中信息抽取技術。

1 搜索引擎中信息抽取技術概述

1.1 搜索引擎的原理

搜索引擎的主要任務是實現(xiàn)信息的有序利用和快速定位,因此搜索引擎要具有合理的信息索引機制,才能增強搜索引擎的高效性,使其在最少的存量、最快的速度進行準確定位。搜索引擎的對象是互聯(lián)網(wǎng)的信息源,主要包括文本、圖片、應用、消息、聲音、影響等媒介。每一種數(shù)據(jù)類型還包括多種子類,為了實現(xiàn)信息的快速定位,搜索引擎要具有強大的辨識能力,使其在海量的信息當中,找到有用的信息,因此搜索引擎要具有信息標識、信息管理歸類等功能。

1.2 信息抽取技術

信息抽取是將物聯(lián)網(wǎng)作為信息源的一類信息抽取,目前來說,大部分數(shù)據(jù)都是以HTML語言描述的,并且互聯(lián)網(wǎng)的信息呈現(xiàn)爆炸性的增長,想要在如此海量的信息中,找到自己想要的內(nèi)容,是十分困難的。此外,大量的信息都缺乏語義信息,造成大量資源都無法被有效的利用,為了提高網(wǎng)絡資源的利用率,應該極強搜索引擎中信息抽取技術的研究,建立完善的信息抽取系統(tǒng),從而實現(xiàn)在Web頁面中識別和定位待抽取的信息。

2 搜索引擎中信息抽取技術的關鍵要點

2.1 抽取規(guī)則生成方法

為了解決主題信息覆蓋率過低的問題,應該深入的研究搜索引擎的抽取規(guī)則。目前較為主流的抽取規(guī)則生成方法有兩種,第一類為人工獲取方式,第二類為自動學習方式。人工獲取方式是依靠人類專家,對一定量的待處理文檔進行歸納,并總結(jié)相關信息出現(xiàn)的規(guī)律,但效果很有限,主要原因在于人類專家的生成的抽取規(guī)則,受到了個體知識水平的限制,這樣系統(tǒng)的可擴展性也受到了限制。相比人工獲方式,自動學習方式的自動化程度較高,但也具有一定的人工成分,主要依靠的人工在訓練集合中生成自動抽取規(guī)則。

2.2 基于包裝器的信息抽取技術

包裝器是搜索引擎的一個程序,用于從信息源中抽取相關內(nèi)容,為了方便處理,包裝器還具有結(jié)構(gòu)化信息的功能,能夠?qū)π畔⑦M行特殊處理,相關工作人員可以輸入特定的指令,從而獲取想要的信息源。包裝器一般由程序員編寫,通常由計算機程序代碼組成,具有標準化的特性,能夠在海量的信息源中找到標注過的信息,并將這些信息返回給客戶,因此基于包裝器的信息抽取技術使用起來十分方便。相關工作人員在使用包裝器時,需要注意一個問題,針對不同的網(wǎng)站編寫抽取規(guī)則十分困難,需要大量的人工資源,因此應該將包裝器轉(zhuǎn)化為自動生成包裝器,使其能夠適應網(wǎng)頁結(jié)構(gòu)的變化,在最大程度上提高包裝器的適用性。

2.3 基于隱馬爾可夫模型的信息抽取技術

隱馬爾可夫模型是建立在隨機概率原理上的一種信息抽取技術,在信息提取的過程中,隱馬爾可夫模型信息抽取技術能夠根據(jù)每個域出現(xiàn)的符號,來對應符號與各個域之間的關系,經(jīng)過復雜的計算來推算出信息的位置。基于隱馬爾可夫模型的信息抽取技術多用于文章頭部信息的抽取,相關工作人員只要搜索關鍵詞、標題,就能找到自己需要的信息。由于每個域?qū)鄠€狀態(tài),因此在搜索時,需要細化輸出符號,才能更加精確的定位信息,輸出信號越細化,信息內(nèi)容越準確。

2.4 基于視覺分析的信息抽取技術

基于視覺分析的信息抽取技術,能夠?qū)⒕W(wǎng)頁中視覺樣式相同或者相似的特征的信息進行歸類,從而方便信息的抽取。這一方法主要利用了可視化技術,自動生成一些可視化的線索,在根據(jù)這些線索進行信息提取,但這種方法只能用于簡單對象的搜索,相關工作人員在使用時應該注意這個問題。

3 結(jié)語

綜上所述,信息抽取技術是搜索引擎最重要的組成部分,直接決定了搜索引擎的性能,因此要加強搜索引擎中的信息抽取技術的研究,相關工作人員應該在工作中總結(jié)經(jīng)驗教訓,并不斷完善信息抽取技術。

參考文獻

[1]鄒華軍,張愛強,曾育星.基于網(wǎng)絡編程技術實現(xiàn)Internet上多搜索引擎信息的獲取[J].微型機與應用,2013(09):30-32.

[2]孟紅,鐘華.基于htmlparser的搜索引擎信息抽取系統(tǒng)設計與實現(xiàn)[A].中國中文信息學會信息檢索與內(nèi)容安全專業(yè)委員會.第六屆全國信息檢索學術會議論文集[C].中國中文信息學會信息檢索與內(nèi)容安全專業(yè)委員會,2010:5.

[3]汪波.搜索引擎與用戶:尋找技術與大眾信息的平衡點——記Google,Yahoo,Lycos的一次三家談[J].現(xiàn)代情報,2013(03):53-54.

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統(tǒng)的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 日韩国产 在线| 国产精品人莉莉成在线播放| 国产激情影院| 国产精品30p| 久久久久无码精品| 亚洲AV无码久久精品色欲| 亚洲精品在线影院| 日韩亚洲综合在线| 亚洲bt欧美bt精品| 熟女成人国产精品视频| 欧美精品在线免费| 午夜精品久久久久久久无码软件 | 欧美在线一二区| 91精品国产无线乱码在线| 国产极品美女在线播放| 国产Av无码精品色午夜| 欧美亚洲激情| 无码日韩人妻精品久久蜜桃| 高清无码手机在线观看| 18禁黄无遮挡免费动漫网站 | 免费视频在线2021入口| 思思热精品在线8| 狠狠干综合| 欧美日本在线播放| 欧美人与牲动交a欧美精品| 久久中文字幕不卡一二区| 久久semm亚洲国产| 国产免费福利网站| 久久成人18免费| a在线观看免费| 极品私人尤物在线精品首页| 婷五月综合| 亚洲综合激情另类专区| 亚洲国产天堂久久综合226114| 熟女视频91| 高清欧美性猛交XXXX黑人猛交 | 国产美女免费网站| 欧美日韩理论| 最新国产成人剧情在线播放| 久久精品人人做人人爽电影蜜月| 久草性视频| 精品小视频在线观看| 九九久久精品国产av片囯产区| 国产精品视频公开费视频| 国产精品999在线| 亚洲国产精品无码久久一线| 亚洲免费黄色网| 人妻无码AⅤ中文字| 欧美国产日韩在线| 91区国产福利在线观看午夜 | 在线免费观看a视频| 日韩乱码免费一区二区三区| 午夜福利在线观看成人| 中文字幕在线日本| 欧美国产在线精品17p| 国产国拍精品视频免费看| 69av免费视频| 欧美成人一级| 在线免费亚洲无码视频| 久久人体视频| 国产成人精品日本亚洲77美色| 亚洲第一精品福利| 无码国产伊人| 日韩东京热无码人妻| 天天综合网亚洲网站| 国产区免费精品视频| 日本少妇又色又爽又高潮| 茄子视频毛片免费观看| 中文字幕66页| 91精品国产91久无码网站| 九九九精品成人免费视频7| 毛片三级在线观看| 亚洲成肉网| 国产一区二区三区免费观看| 88av在线| 久久婷婷六月| 国产精品第一区| 欧美高清国产| 性视频一区| 欧美精品成人| 欧美一区国产| 欧美精品黑人粗大|