999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣和多特征融合的信息抽取

2023-11-16 08:51:02劉麗娟
科學(xué)與信息化 2023年21期
關(guān)鍵詞:特征文本融合

劉麗娟

國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急協(xié)調(diào)處理中心上海分中心 上海 201315

引言

隨著網(wǎng)絡(luò)迅猛發(fā)展,大量負(fù)面網(wǎng)絡(luò)信息井噴式爆發(fā)。如何從大量網(wǎng)絡(luò)文本中進(jìn)行信息的有效識別是一個(gè)復(fù)雜的課題。眾多方法中,多標(biāo)簽分類法[1]容易遺漏關(guān)鍵信息,Simrank法[2]僅考慮節(jié)點(diǎn)與邊的連接數(shù),忽略不同的邊將造成不同權(quán)重值,且耗時(shí)長,導(dǎo)致準(zhǔn)確率計(jì)算不準(zhǔn)的問題。

針對上述識別率低等問題,本文提出基于用戶興趣和多特征融合的信息抽取方法。在用戶興趣分析中,根據(jù)用戶行為習(xí)慣,利用本體理論建立符合用戶行為習(xí)慣的用戶興趣子樹,充分挖掘用戶的查詢興趣,為精準(zhǔn)抽取文本結(jié)果做基礎(chǔ);在多特征融合分析中,首先對文本進(jìn)行降維,提取特征,其次,將所有特征向量作為模型框架輸入,最后,運(yùn)用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))深度學(xué)習(xí)模型訓(xùn)練,輸出文本信息篩選結(jié)果。創(chuàng)新點(diǎn)在于①網(wǎng)頁綜合本體和位置兩種方式進(jìn)行分析,提升分析的全面性和豐富性;②結(jié)合用戶行為搜索日志,將用戶興趣拆分,利用本體理論形成用戶興趣子樹進(jìn)行分析,使理解主題信息的角度更為全面;③挖掘多特征,綜合考慮實(shí)際需求挖掘需要的特征,融合分析文本信息。實(shí)驗(yàn)結(jié)果表明,本文基于用戶興趣和多特征融合的信息抽取方法不僅在相關(guān)主題的信息抽取文本返回結(jié)果中數(shù)量較高,更在主題識別的準(zhǔn)確率F值度量上取得一定程度的提升,能夠更準(zhǔn)確地反映出網(wǎng)頁信息,抽取文本信息。

1 信息抽取

信息抽取是按照特定需求從信息文本中進(jìn)行抽取,本文研究的是針對Web信息抽取。目前針對Web信息抽取主要有兩種方式:①基于本體的信息抽取,將網(wǎng)頁信息用本體體征維度進(jìn)行標(biāo)識,對網(wǎng)頁內(nèi)容進(jìn)行分析;②基于位置的信息抽取,依賴網(wǎng)頁結(jié)構(gòu),可準(zhǔn)確定位位置,在位置不變下準(zhǔn)確度較高。本文綜合本體和位置進(jìn)行分析,提升分析效果。

2 基于用戶興趣的分析方法

針對信息抽取的分析需求,借助本體構(gòu)建用戶興趣子樹,以供擴(kuò)展查詢。

2.1 用戶興趣子樹

本體是特定領(lǐng)域中存在的對象類型或概念及其屬性和相互關(guān)系[3],具備結(jié)構(gòu)化特點(diǎn)。運(yùn)用本體,能全面清晰描述用戶興趣的主體關(guān)系和關(guān)聯(lián)關(guān)系,體現(xiàn)用戶最直接最關(guān)心的需求。

構(gòu)建興趣生成樹[4]方法,提出基于領(lǐng)域本體三階段用戶興趣子樹。具體步驟是分析用戶提交的查詢,包括但不限于查詢關(guān)鍵詞等用戶行為日志,并映射為本體中的概念,選取用戶興趣子樹的基本節(jié)點(diǎn)﹑非基本節(jié)點(diǎn)和根節(jié)點(diǎn),構(gòu)建候選用戶興趣子樹,并消除歧義,如圖1。

圖1 用戶興趣樹構(gòu)造

用戶行為日志能夠反映用戶興趣。例如,第一次查詢“新東方”,用戶僅點(diǎn)擊2次新東方廚師培訓(xùn)的網(wǎng)頁,點(diǎn)擊5次新東方英語培訓(xùn)的網(wǎng)頁;第二次查詢“新東方”,用戶點(diǎn)擊5次新東方英語培訓(xùn)的詳情介紹網(wǎng)頁;第三次查詢“新東方”,用戶點(diǎn)擊8次新東方英語培訓(xùn)的上課鏈接網(wǎng)頁。

通過這三次用戶日志,可知用戶興趣是查找新東方英語培訓(xùn)的相關(guān)信息,而不是新東方廚師培訓(xùn)機(jī)構(gòu)的信息。將用戶行為依次構(gòu)建到用戶興趣子樹中,能針對關(guān)鍵詞挖掘用戶查詢的精準(zhǔn)興趣,為后續(xù)信息準(zhǔn)確抽取提供基礎(chǔ)。

3 多特征融合的分析

3.1 爬蟲工作原理

網(wǎng)頁信息抽取由爬蟲實(shí)現(xiàn),服務(wù)節(jié)點(diǎn)包括已訪問﹑未訪問﹑待訪問的網(wǎng)址﹑地址庫以及隊(duì)列。主要運(yùn)行過程如下[5-6]:①用戶向服務(wù)器發(fā)送檢索URL的請求;②服務(wù)器發(fā)送該請求到客戶端;③客戶端收到待檢索的URL列表后,下載并保存,提取新的URL;④將已訪問檢索的URL列表和新發(fā)現(xiàn)的URL列表發(fā)送至服務(wù)器;⑤服務(wù)器從庫中提取待訪問檢索URL列表,循環(huán)直到待訪問檢索URL列表為空停止。

3.2 基于位置的分析

網(wǎng)絡(luò)信息抽取需要分析頁面結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲執(zhí)行,工作原理是依照網(wǎng)頁層次化結(jié)構(gòu)進(jìn)行分析,如元素標(biāo)記,可通過A元素﹑href元素標(biāo)簽等數(shù)量,對網(wǎng)頁的結(jié)構(gòu)進(jìn)行定量分析,甄別待抽取的主題文本網(wǎng)頁與普通非主題網(wǎng)頁的差別,歸納特征。

3.3 多特征融合

多特征融合是特征選擇提取的基礎(chǔ)上,融合多個(gè)特征。

特征選擇提取進(jìn)行預(yù)處理,具體是從原始文本數(shù)據(jù)集中,通過分詞處理﹑去停用詞﹑統(tǒng)計(jì)詞頻等,得到低維向量,進(jìn)而提取特征,如圖2。

圖2 特征選擇提取流程

融合特征即將所有特征向量放在一起,用數(shù)學(xué)方法變換為全新的特征表達(dá)方式。

可建立1﹑2﹑3﹑4…等多個(gè)特征,例如1代表是否包含關(guān)鍵詞a,2代表是否包含關(guān)鍵詞b,3代表網(wǎng)頁是否跳轉(zhuǎn),4代表網(wǎng)頁是否包含特殊標(biāo)記……根據(jù)實(shí)際抽取需求建立多個(gè)特征,形成特征向量,作為后期深度學(xué)習(xí)的輸入。

3.4 基本框架

在上述構(gòu)建用戶興趣子樹和特征提取的基礎(chǔ)上,進(jìn)行初步知識表示﹑標(biāo)準(zhǔn)知識表示。已有知識來自原始數(shù)據(jù),即結(jié)構(gòu)化數(shù)據(jù)﹑半結(jié)構(gòu)化數(shù)據(jù)﹑非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過實(shí)體抽取﹑關(guān)系抽取等理解用戶興趣,融合多特征,輸入深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。經(jīng)分析得到標(biāo)準(zhǔn)知識表示,從而經(jīng)過挖掘抽取文本信息。

深度學(xué)習(xí)框架采用CNN深度學(xué)習(xí)模型。分為輸入層﹑卷積層﹑池化層﹑激活函數(shù)層﹑全連接層,主要如下。

輸入層:將特征進(jìn)行標(biāo)準(zhǔn)處理﹑完成輸入的層。

卷積層:是用以特征提取的層。

池化層:進(jìn)行特征壓縮,降低維度。

激活函數(shù)層:運(yùn)用上述模型進(jìn)行分類達(dá)到抽取主題文本信息的目的。

4 實(shí)驗(yàn)分析

用對比實(shí)驗(yàn)比較不同方法的效果。實(shí)驗(yàn)一針對“流浪地球”主題,分析關(guān)鍵詞法﹑用戶興趣法﹑基于用戶興趣和多特征融合抽取方法的結(jié)果。橫坐標(biāo)表示返回結(jié)果的PR值(PageRank)前N個(gè)網(wǎng)頁,縱坐標(biāo)表示前N個(gè)網(wǎng)頁中符合要求的網(wǎng)頁數(shù)量。圖3整體反映返回前N個(gè)網(wǎng)頁滿足要求的網(wǎng)頁數(shù)量情況。隨著返回結(jié)果的頁面數(shù)量增加,基于用戶興趣和多特征融合抽取的方法符合要求的網(wǎng)頁數(shù)比其他二者方法高。

實(shí)驗(yàn)二對比不同主題的準(zhǔn)確率,結(jié)果表明,基于用戶興趣和多特征融合的方法比用戶興趣法的F值提高了11%以上,驗(yàn)證了該方法的有效性;本文法比關(guān)鍵詞法F值提升了16%,如圖4。可見該方法在算法可行性和效果上均優(yōu)于其他方法。

圖4 不同方法的F值對比

5 結(jié)束語

針對現(xiàn)階段文本分析大多存在不準(zhǔn)不全的問題,本文提出基于用戶興趣子樹和多特征融合的信息抽取方法,依據(jù)用戶興趣子樹獲得知識,并融合多種特征,輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。通過實(shí)例闡述說明該方法的實(shí)施過程。對比關(guān)鍵詞法和用戶興趣法,實(shí)驗(yàn)表明本文提出的方法在信息抽取的返回結(jié)果數(shù)量和F值方面明顯提高。究其原因是本文的方法充分刻畫用戶在信息獲取全過程的興趣(行為習(xí)慣),對語義進(jìn)行關(guān)聯(lián)擴(kuò)展,并通過網(wǎng)頁的特征進(jìn)行本體和位置多維度的分析,能夠全面動態(tài)地反映抽取全過程。未來針對文本語義分析信息抽取這一領(lǐng)域,將考慮整合優(yōu)化訓(xùn)練模型,豐富應(yīng)用場景和適用領(lǐng)域,形成更為量化立體的抽取評價(jià)體系,以進(jìn)一步提升實(shí)際識別效果。

猜你喜歡
特征文本融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 中文字幕免费视频| 日本国产在线| 国产在线精品人成导航| 国产大全韩国亚洲一区二区三区| 久久6免费视频| 国产福利观看| 一区二区欧美日韩高清免费| 成人亚洲视频| 国产91在线|日本| 国产无码高清视频不卡| 日本一本在线视频| 日本一区二区不卡视频| 国产精品午夜福利麻豆| 亚洲大尺码专区影院| 国产女人在线观看| 广东一级毛片| 欧美a级在线| 国产成人精品日本亚洲| 六月婷婷激情综合| 制服丝袜国产精品| 成人免费一区二区三区| 激情爆乳一区二区| 国产一线在线| 福利小视频在线播放| 久久久久青草大香线综合精品 | 国产成人一区在线播放| 岛国精品一区免费视频在线观看| 国产嫖妓91东北老熟女久久一| 伊人91视频| 亚洲中文字幕久久无码精品A| 欧美日韩中文国产va另类| 欧美精品xx| 欧美精品成人一区二区视频一| 亚洲欧洲天堂色AV| 少妇精品久久久一区二区三区| 日韩精品毛片| 国产激情在线视频| 国产午夜看片| 欧美成人综合在线| 国产成人夜色91| 午夜啪啪网| 天天色天天综合| 成年女人a毛片免费视频| 日韩天堂视频| 首页亚洲国产丝袜长腿综合| 亚洲色图欧美在线| 日韩国产综合精选| 国产亚洲美日韩AV中文字幕无码成人 | 91精品国产91欠久久久久| 欧美成人亚洲综合精品欧美激情| 免费在线色| 广东一级毛片| 国产成人精品视频一区视频二区| 亚洲人成在线精品| 日韩精品无码一级毛片免费| 亚洲啪啪网| 日韩在线视频网| 亚洲va欧美va国产综合下载| 欧美性精品| 日韩免费中文字幕| 99久久精彩视频| julia中文字幕久久亚洲| 国内精品久久人妻无码大片高| 九一九色国产| 性69交片免费看| 免费人成又黄又爽的视频网站| 色成人综合| 国产成人一区免费观看| 一级福利视频| 国产亚洲视频中文字幕视频 | 欧美亚洲网| 成人一区专区在线观看| 久久久久国色AV免费观看性色| 成人福利一区二区视频在线| 欧美、日韩、国产综合一区| 欧美一级夜夜爽www| 日本高清有码人妻| 国产在线一区视频| 亚洲第一在线播放| 狠狠久久综合伊人不卡| 国产成年无码AⅤ片在线| 一本二本三本不卡无码|