999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于實體的網(wǎng)頁信息抽取

2016-07-15 12:17:37張騫中李春輝
大科技 2016年9期
關(guān)鍵詞:語義文本信息

張騫中 李春輝

(黑龍江工商學(xué)院 黑龍江哈爾濱 150025)

基于實體的網(wǎng)頁信息抽取

張騫中 李春輝

(黑龍江工商學(xué)院 黑龍江哈爾濱 150025)

信息抽取是指將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本轉(zhuǎn)換為結(jié)構(gòu)化信息的過程,并將其存儲在某種形式的過程中,可以由用戶進行查詢和分析,并利用它。網(wǎng)頁信息抽取是從網(wǎng)頁中提取的。

對于用戶感興趣的信息,對于過濾掉不相關(guān)的信息,將分散在半結(jié)構(gòu)化的網(wǎng)頁信息中抽取出來,并結(jié)構(gòu)化,語義更清晰的模式表示。它為用戶直接使用網(wǎng)絡(luò)數(shù)據(jù)查詢數(shù)據(jù)和應(yīng)用程序提供了方便,是實現(xiàn)信息檢索、機器翻譯、自動問答、自動推薦等功能的關(guān)鍵。這是國內(nèi)外研究的熱點課題。現(xiàn)有的網(wǎng)頁信息抽取系統(tǒng)是基于網(wǎng)頁的特殊結(jié)構(gòu)進行信息提取,如提取數(shù)據(jù)的表中,以及利用包裝器的感應(yīng)方式進行信息提取。上述方法對于一個特定的結(jié)構(gòu),不具有可重用性,規(guī)則提取的建立是人工的,不同的結(jié)構(gòu)需要不同的抽取規(guī)則;并且只能提取數(shù)據(jù)信息,而網(wǎng)絡(luò)中也包含了豐富的語義信息,如關(guān)系、斷言。實體有一個良好的概念層次結(jié)構(gòu)和邏輯推理的支持,通過構(gòu)造實體規(guī)則,它的基礎(chǔ)上的實體信息提取,不僅可以找到一個特定類型的實體提取,但也通過在實體概念的語義描述,以確定它的語義描述。本文針對特定主題,提出了一種基于實體的Web信息抽取框架,對實體在信息抽取系統(tǒng)中的作用作了詳細介紹并實現(xiàn)所提出的相關(guān)算法。實驗證明,該抽取系統(tǒng)能夠得到性能較高的抽取結(jié)果。

1.1 領(lǐng)域?qū)嶓w

實體是一種知識表示方法,它可以在知識表示、知識共享和知識重用的情況下,對信息系統(tǒng)的概念模型進行建模。域?qū)嶓w是用來描述特定目的實體的特定領(lǐng)域知識,給出了域?qū)嶓w概念,域?qū)傩缘母拍睿驅(qū)傩灾岛完P(guān)系,斷言,以及該領(lǐng)域的特點和法律有一個正式的描述。

1.2 基于實體的Web信息抽取框架

以網(wǎng)絡(luò)信息抽取的實體為基礎(chǔ),以實體為核心,在概念、分類層次、關(guān)系、功能、公理、實例等方面對網(wǎng)頁進行了定義,并在過程中進行了必要的外部數(shù)據(jù)的提取,結(jié)構(gòu)化的知識,并保存。

1.3 系統(tǒng)構(gòu)成

整個系統(tǒng)包括三個部分:文檔采集與預(yù)處理、文本轉(zhuǎn)換和知識提取。在信息抽取過程中,需要對一些外部信息進行分析,包括:域?qū)嶓w;網(wǎng)站地圖文件;關(guān)鍵字,短語,特殊的字典和一般的字典;結(jié)束語,功能詞,高頻詞列表;詞條規(guī)則;部分語音部分和詞性標注規(guī)則;實體識別與標記規(guī)則;知識提取規(guī)則等八個方面。

使用的信息提取算法包括:爬行算法;文件預(yù)處理算法;文件存儲算法;分詞和詞匯查詢算法;結(jié)束詞,詞條,高頻去除算法;子句算法;詞性標注算法;命名實體識別與標記算法;知識提取算法等九個方面的算法。

1.4實體在網(wǎng)頁信息抽取中的作用

構(gòu)建實體:軟件工程領(lǐng)域是實現(xiàn)高性能信息提取效果的關(guān)鍵。域?qū)嶓w庫的構(gòu)建首先,包括類、對象屬性、數(shù)據(jù)屬性和謂詞的領(lǐng)域,然后根據(jù)領(lǐng)域的概念和術(shù)語添加實例。在本文中,一個實例的實體,網(wǎng)頁域給出的一部分,從相關(guān)的網(wǎng)頁通過統(tǒng)計獲得的一部分,但也根據(jù)一般字典使用的相似性比較的方法得到一個部分。在本文中,我們使用的方法,覆蓋式感應(yīng),構(gòu)造的知識點的數(shù)據(jù)結(jié)構(gòu)課程的域?qū)嶓w。

實體解析:在信息抽取過程中,為了充分利用實體的知識,需要對域?qū)嶓w進行析,對概念、實例、關(guān)系、域和范圍的關(guān)系、語義標注和知識抽取過程服務(wù)進行分析。

知識存儲:根據(jù)信息存儲的要求,信息抽取的結(jié)果主要有以下2個結(jié)果:與語義XML文檔和三元組或2元組表示。

2 Web信息抽取關(guān)鍵技術(shù)及實現(xiàn)

2.1 文件采集及預(yù)處理

文件被收集用于發(fā)現(xiàn)文件,并且可以檢索文檔。將收集的文檔預(yù)處理過程中,獲取格式化文檔。

2.2 源文檔及信息采集

源文件可以通過本地局域網(wǎng),特定的主題或互聯(lián)網(wǎng),其類型可以是HTML,XML,RDF,eMail,PDF,Word,txt,RSS。本文網(wǎng)頁信息提取,網(wǎng)頁頁面是目錄頁類型分為網(wǎng)頁內(nèi)容和結(jié)構(gòu)類型,頁面源文件,集合域。信息收集來自網(wǎng)頁文件,并且可以使用網(wǎng)絡(luò)爬行的方式抓取。本文我們就使用網(wǎng)頁爬蟲抓取。經(jīng)常使用的工具為主體獲取分類,需要選擇特定的頁面分類。

2.3 文檔預(yù)處理

原始文件格式不統(tǒng)一,編碼不統(tǒng)一,為文檔預(yù)處理的需要,各種文件格式的文件,主要是HTML或XML,等等。文檔預(yù)處理的文檔包括文檔內(nèi)容的格式、超鏈接、數(shù)據(jù)格式、元數(shù)據(jù)和其他信息:

(1)主要的文本是格式的內(nèi)容:網(wǎng)頁的內(nèi)容,是實現(xiàn)網(wǎng)頁內(nèi)容信息提取的關(guān)鍵;

(2)網(wǎng)頁中的超鏈接超鏈接信息,是實現(xiàn)目錄類型信息提取的關(guān)鍵;

(3)元數(shù)據(jù)信息:格式信息的文件之外的信息解析文檔結(jié)構(gòu),網(wǎng)頁根據(jù)文檔對象模型,包括文件的屬性,如日期、作者和其他標簽。這些可識別卦文件的組成部分。本文采用文檔預(yù)處理算法將各種文件轉(zhuǎn)換成XML文檔,包括文檔的內(nèi)容和格式的信息;各種編碼為Unicode。

2.4 文檔存儲及文檔數(shù)據(jù)庫

文件存儲于格式化文件類型中。文件一般存儲在關(guān)系數(shù)據(jù)庫中,與存儲在特殊的數(shù)據(jù)庫。通過索引提取信息,文件格式存儲隊列算法在信息存儲在XML文件的原始文件的存儲,并且于原始文件格式和備份的路徑信息。

2.5 文本轉(zhuǎn)換

文本轉(zhuǎn)換是一個格式化文檔的單詞和句子結(jié)構(gòu)的處理。本文在對文本轉(zhuǎn)換算法的基礎(chǔ)上,對網(wǎng)頁的結(jié)構(gòu)類型進行確定,即目錄類型、結(jié)構(gòu)類型或內(nèi)容類型,然后根據(jù)不同類型的信息提取方法:

(1)通過文件的預(yù)處理和查詢要求的文本內(nèi)容和網(wǎng)址地址的目錄類型頁的內(nèi)容,以找到需要重新定位的查詢地址,信息提取的新地址的內(nèi)容;

(2)根據(jù)預(yù)處理的數(shù)據(jù)格式信息和元數(shù)據(jù)信息,以獲得原始網(wǎng)頁結(jié)構(gòu)標記,根據(jù)信息提取結(jié)構(gòu);

(3)內(nèi)容類型頁根據(jù)本文的內(nèi)容,預(yù)處理的內(nèi)容,文本的內(nèi)容,然后進行信息提取。在本文中,我們主要研究的內(nèi)容頁的信息提取。

3 結(jié)語

針對網(wǎng)頁信息抽取系統(tǒng)的抽取結(jié)果缺乏語義信息和提取方法,提出了一種基于實體的主題式網(wǎng)頁信息抽取模型。該模型通過對實體分辨率結(jié)果進行分詞,命名實體識別和知識提取在應(yīng)用中,分詞和命名實體識別結(jié)果更傾向于該領(lǐng)域,提取方法也可用于各個領(lǐng)域的語義信息的獲取和獲取。結(jié)果表明,該系統(tǒng)可以得到滿意的結(jié)果。后續(xù)工作將進一步完善系統(tǒng),重點對分詞,命名實體識別和知識提取算法。

TP391.3

A

1004-7344(2016)09-0260-01

2016-3-10

張騫中,男,計算機科學(xué)與技術(shù)系教師。

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
語義分析與漢俄副名組合
主站蜘蛛池模板: 99在线视频免费| 视频一区亚洲| 99re66精品视频在线观看| 欧美全免费aaaaaa特黄在线| 麻豆精品在线| 国产精品浪潮Av| 综合久久久久久久综合网| 夜夜操天天摸| 在线毛片网站| 91年精品国产福利线观看久久| 欧美成人精品高清在线下载| 日本黄色不卡视频| 亚洲天堂首页| 国产在线高清一级毛片| 免费一级α片在线观看| 成人国产免费| 欧美日韩精品在线播放| 91美女视频在线| 国产午夜福利亚洲第一| 无码高清专区| 国产99视频在线| 欧美特级AAAAAA视频免费观看| 亚洲天堂免费| 亚洲看片网| 91原创视频在线| 亚洲天堂在线视频| 午夜色综合| 国产福利拍拍拍| 在线看片国产| 亚洲制服中文字幕一区二区| 国产精品自在线天天看片| 欧美日韩在线第一页| 国产福利观看| 91久久偷偷做嫩草影院电| 欧美午夜小视频| 亚洲一区波多野结衣二区三区| 亚洲娇小与黑人巨大交| 国产在线视频自拍| 国产综合精品一区二区| 激情五月婷婷综合网| 亚洲国产精品无码AV| 日韩精品高清自在线| 久久无码av三级| 久久亚洲精少妇毛片午夜无码| 国产精品中文免费福利| 欧美一区二区三区不卡免费| 高清视频一区| 久久熟女AV| 香蕉视频在线观看www| 性视频一区| 专干老肥熟女视频网站| 精品无码一区二区三区电影| 亚洲天堂2014| 2021国产精品自产拍在线观看 | 久久亚洲AⅤ无码精品午夜麻豆| 国产视频你懂得| 在线观看亚洲人成网站| 国产高清国内精品福利| 波多野结衣中文字幕久久| 91久久偷偷做嫩草影院精品| 欧美在线视频不卡| 免费 国产 无码久久久| 成年女人a毛片免费视频| 久久香蕉国产线看观看精品蕉| 国产午夜一级毛片| 欧美一区二区三区欧美日韩亚洲 | 伊人久久久久久久久久| 网友自拍视频精品区| 亚洲综合香蕉| 国产美女91视频| 久久久久久午夜精品| 久久精品免费国产大片| 无码乱人伦一区二区亚洲一| a国产精品| 欧美成人亚洲综合精品欧美激情| 国产精品蜜芽在线观看| 中文无码精品A∨在线观看不卡 | 亚洲激情区| 亚洲最大福利网站| 国产夜色视频| 欧美成人精品一区二区| 国产极品粉嫩小泬免费看|