999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

農(nóng)業(yè)在線學(xué)習(xí)資源知識(shí)圖譜構(gòu)建與推薦技術(shù)研究

2022-09-06 13:17:00趙繼春孫素芬郭建鑫王洪彪
關(guān)鍵詞:語(yǔ)義資源用戶

趙繼春 孫素芬 郭建鑫 鐘 瑤 王洪彪 王 敏 秦 瑩

(北京市農(nóng)林科學(xué)院 北京 100097)(北京市農(nóng)村遠(yuǎn)程信息服務(wù)工程技術(shù)研究中心 北京 100097)

0 引 言

信息傳播從文字、聲音、圖像、視頻等單一媒體形式向復(fù)合化融合發(fā)展,各種信息源之間存在著相互融合的多種形態(tài),內(nèi)容間存在著一定語(yǔ)義關(guān)聯(lián),不同信息從某種角度表達(dá)相同的語(yǔ)義。復(fù)合信息作為信息檢索和組織研究在計(jì)算機(jī)科學(xué)、圖書(shū)情報(bào)學(xué)等領(lǐng)域得到了高度重視,但如何將這些異構(gòu)、關(guān)聯(lián)的信息精確地挖掘并組織建構(gòu)為知識(shí)成為新的挑戰(zhàn)。知識(shí)圖譜的出現(xiàn)為復(fù)合信息的有效組織和管理應(yīng)用提供了技術(shù)支撐。

知識(shí)圖譜(Knowledge Graph)概念最初由Google公司于2012年提出,初衷在于改善搜索引擎效率,使搜索結(jié)果智能化[1]。知識(shí)圖譜由“實(shí)體-關(guān)系-實(shí)體”、實(shí)體及“屬性-值”對(duì)組成,實(shí)體間通過(guò)關(guān)聯(lián)關(guān)系相互結(jié)合,構(gòu)成網(wǎng)狀知識(shí)集合,具備從關(guān)聯(lián)關(guān)系的角度分析解決問(wèn)題的能力[2-3]。近年來(lái),知識(shí)圖譜被學(xué)術(shù)界廣泛關(guān)注,通過(guò)推理實(shí)現(xiàn)概念檢索,從語(yǔ)義方面理解用戶意圖[4],為用戶提供完整、系統(tǒng)和清晰的知識(shí)體系結(jié)構(gòu),從而改進(jìn)信息化系統(tǒng)服務(wù)質(zhì)量[5]。具有代表性的知識(shí)圖譜包括WordNet、OpenCyc、Freebase、DBpedia、YAGO2、Freebase、NELL、Probase[6-9],從大量的數(shù)據(jù)中抽取、組織、管理信息[10],廣泛應(yīng)用到智能問(wèn)答[11]、信息推薦[12]、智能診斷[13]等領(lǐng)域,成為人工智能技術(shù)發(fā)展的重要推動(dòng)力。

本文面向農(nóng)業(yè)在線學(xué)習(xí)領(lǐng)域,首先基于LDA標(biāo)簽生成的領(lǐng)域知識(shí)圖譜構(gòu)建方法,針對(duì)北京市農(nóng)業(yè)網(wǎng)絡(luò)在線學(xué)習(xí)多媒體資源分散雜亂的現(xiàn)狀,研究從學(xué)習(xí)資源標(biāo)簽中挖掘潛在主題信息并以此為基礎(chǔ)進(jìn)行擴(kuò)展,構(gòu)建涉農(nóng)學(xué)習(xí)資源領(lǐng)域知識(shí)圖譜,將分散、無(wú)序、海量的信息進(jìn)行聚合、結(jié)構(gòu)化處理,最終形成關(guān)聯(lián)的知識(shí)體系。在此基礎(chǔ)上,設(shè)計(jì)開(kāi)發(fā)了基于知識(shí)圖譜的協(xié)同過(guò)濾推薦系統(tǒng),并通過(guò)實(shí)驗(yàn)驗(yàn)證,提高了學(xué)習(xí)資源推薦準(zhǔn)確率和效率,為知識(shí)圖譜構(gòu)建及其應(yīng)用研究提供新的視角。

1 相關(guān)研究

1.1 領(lǐng)域知識(shí)圖譜構(gòu)建方法

知識(shí)圖譜構(gòu)建主要包含數(shù)據(jù)提取、信息融合、數(shù)據(jù)加工和數(shù)據(jù)更新。數(shù)據(jù)提取是從大量數(shù)據(jù)庫(kù)及文件中抽取構(gòu)建知識(shí)圖譜的元素,應(yīng)用技術(shù)涉及實(shí)體、關(guān)系及其概念提取等自然語(yǔ)言處理技術(shù),如馬建紅等[14]提出一種具有反饋機(jī)制的聯(lián)合模型用以改進(jìn)實(shí)體識(shí)別及關(guān)系提取的關(guān)聯(lián)性。信息融合的主要作用是去除實(shí)體的歧義及其錯(cuò)誤表述,確保知識(shí)圖譜構(gòu)建的質(zhì)量,包含實(shí)體鏈接汲取數(shù)據(jù)合并。趙暢等[15]提出應(yīng)用候選實(shí)體類(lèi)別、關(guān)系及其鄰近實(shí)體作為候選實(shí)體表示方法,解決數(shù)據(jù)庫(kù)實(shí)體描述信息不充分的問(wèn)題。數(shù)據(jù)加工是網(wǎng)狀化和結(jié)構(gòu)化知識(shí)圖譜構(gòu)建的重要步驟,包括知識(shí)推理及效率評(píng)估,如俞揚(yáng)信[16]提出基于知識(shí)推理的信息檢索方法,有效提升數(shù)據(jù)返回的效率和質(zhì)量。知識(shí)圖譜的實(shí)體和關(guān)系需要不斷補(bǔ)充與擴(kuò)展,因此知識(shí)圖譜需要持續(xù)迭代更新。

知識(shí)圖譜構(gòu)建方法通常有自下而上、自上而下及兩者結(jié)合方法。自下而上是從底層數(shù)據(jù)中抽取實(shí)體與關(guān)系并逐層向上匯聚概念,自上而下是從最頂層開(kāi)始定義領(lǐng)域的實(shí)體和關(guān)系,兩者相結(jié)合的方法是先在底層數(shù)據(jù)抽取基礎(chǔ)上構(gòu)建模式層,然后對(duì)新生成的數(shù)據(jù)進(jìn)行梳理并更新模式層,再重新對(duì)實(shí)體進(jìn)行填充[17]。自下而上的知識(shí)圖譜構(gòu)建方法速度快,對(duì)大量的底層數(shù)據(jù)支持好,缺點(diǎn)是知識(shí)的準(zhǔn)確程度不高。自上而下構(gòu)建方法的概念和關(guān)系準(zhǔn)確,缺點(diǎn)是需要人為干預(yù)工作量大。混合方法靈活性強(qiáng),但模式層構(gòu)建難度大。

1.2 知識(shí)圖譜與推薦系統(tǒng)相結(jié)合

知識(shí)圖譜應(yīng)用于智能推薦系統(tǒng)主要優(yōu)勢(shì)在于能夠?qū)Χ嘣串悩?gòu)的信息資源進(jìn)行整合與提取[18],可以獲得細(xì)粒度的用戶與項(xiàng)目之間的特征數(shù)據(jù),能夠精確計(jì)算用戶與項(xiàng)目的關(guān)聯(lián)性,從而獲得更加好的推薦效果[19]。知識(shí)圖譜具有較好的語(yǔ)義支持,CoLResg[20]構(gòu)建音樂(lè)知識(shí)圖譜并應(yīng)用推薦系統(tǒng),采用鏈接數(shù)據(jù)庫(kù)方式得到較好的語(yǔ)義信息。王冬青等[21]針對(duì)學(xué)習(xí)者的學(xué)習(xí)條件差異,結(jié)合學(xué)習(xí)內(nèi)容知識(shí)點(diǎn)、難易程度、用戶學(xué)習(xí)歷史記錄,構(gòu)建基于知識(shí)圖譜的用戶學(xué)習(xí)試題推薦系統(tǒng),為用戶推薦準(zhǔn)確的學(xué)習(xí)內(nèi)容。王一成等[22]在農(nóng)業(yè)電子商務(wù)領(lǐng)域,通過(guò)構(gòu)建多語(yǔ)言商品知識(shí)圖譜庫(kù),以多源數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)電子商務(wù)的數(shù)據(jù)分析和內(nèi)容推薦。

以上研究表明,將知識(shí)圖譜技術(shù)運(yùn)用到個(gè)性化推薦系統(tǒng),在語(yǔ)義支持下可提高推薦系統(tǒng)效率,顯著提升個(gè)性化服務(wù)水平。目前,在涉農(nóng)網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域知識(shí)圖譜構(gòu)建及信息推薦方面的研究還比較少,本文可以為網(wǎng)絡(luò)在線個(gè)性化學(xué)習(xí)應(yīng)用研究提供有益的補(bǔ)充。

2 方法流程

本文提出一種基于LDA標(biāo)簽生成的領(lǐng)域知識(shí)圖譜構(gòu)建方法,采用機(jī)器學(xué)習(xí)方法為主、人工修正為輔,構(gòu)建步驟包括實(shí)體抽取、關(guān)系提取、標(biāo)簽生成、圖譜遷移、圖譜可視化與維護(hù)等步驟,實(shí)現(xiàn)過(guò)程如圖1所示。

圖1 領(lǐng)域知識(shí)圖譜構(gòu)建流程

(1) 實(shí)體抽取。采用N-gram方法對(duì)領(lǐng)域資源進(jìn)行分詞,利用TF-IDF計(jì)算關(guān)鍵詞與文檔聯(lián)系及相應(yīng)權(quán)重。運(yùn)用機(jī)器分類(lèi)和人工校準(zhǔn)相結(jié)合,進(jìn)行標(biāo)準(zhǔn)詞庫(kù)實(shí)體提取與確認(rèn)。

(2) 關(guān)系提取。通過(guò)LSTM神經(jīng)網(wǎng)絡(luò)特征提取模型,減少人工標(biāo)注句子關(guān)系的工作量,能夠得到較好的次序語(yǔ)義支持。

(3) 標(biāo)簽生成。通過(guò)LDA模型和實(shí)體間的關(guān)聯(lián)關(guān)系表達(dá)資源特征,從全局所有關(guān)鍵詞中自動(dòng)抽取出有概括性的關(guān)鍵詞作為標(biāo)簽。

(4) 圖譜遷移。將通用知識(shí)圖譜中實(shí)體遷移到領(lǐng)域知識(shí)圖譜,并對(duì)領(lǐng)域的實(shí)體、概念、屬性、關(guān)系等關(guān)鍵知識(shí)識(shí)別,從通用知識(shí)圖譜中模糊匹配出領(lǐng)域三元組知識(shí)。

(5) 圖譜可視化與管理更新。通過(guò)軟件工程方法,研發(fā)知識(shí)圖譜可視化展示與管理更新工具,實(shí)現(xiàn)實(shí)體、概念、屬性、關(guān)系等知識(shí)圖譜元素的可視化展示、關(guān)聯(lián)查詢(xún)和更新維護(hù)。

3 涉農(nóng)學(xué)習(xí)資源領(lǐng)域知識(shí)圖譜構(gòu)建

北京農(nóng)業(yè)在線學(xué)習(xí)涉農(nóng)資源內(nèi)容豐富、形式多樣,包含1.6萬(wàn)余部視頻、0.5萬(wàn)余音頻和5萬(wàn)余條圖文。對(duì)于視頻和音頻數(shù)據(jù)主要提取描述屬性信息,將離散分布的學(xué)習(xí)素材數(shù)據(jù)歸一化處理,基于LDA標(biāo)簽生成的領(lǐng)域知識(shí)圖譜構(gòu)建方法,按照實(shí)體抽取、關(guān)系提取、標(biāo)簽生成、圖譜遷移、可視化與維護(hù)管理等步驟,最終形成具有屬性的實(shí)體和概念并通過(guò)關(guān)系鏈接成網(wǎng)狀知識(shí)圖譜,為智能推薦提供應(yīng)用支撐。知識(shí)圖譜構(gòu)建框架如圖2所示。

圖2 農(nóng)業(yè)在線學(xué)習(xí)資源知識(shí)圖譜構(gòu)建框架

3.1 實(shí)體提取

首先構(gòu)建涉農(nóng)學(xué)習(xí)資源特征詞庫(kù),結(jié)合現(xiàn)有的涉農(nóng)資源標(biāo)簽庫(kù),運(yùn)用人工校準(zhǔn)與機(jī)器分類(lèi)相結(jié)合,進(jìn)行標(biāo)準(zhǔn)詞庫(kù)的提取與確認(rèn)。從學(xué)習(xí)素材信息中提煉主題詞庫(kù),如種植技術(shù)、養(yǎng)殖技術(shù)、病蟲(chóng)害防治、休閑農(nóng)業(yè)、鄉(xiāng)村振興等。初期的特征詞庫(kù)根據(jù)現(xiàn)有的涉農(nóng)資源類(lèi)別歸納、總結(jié),再根據(jù)關(guān)鍵詞解析、標(biāo)題解析、描述解析、評(píng)論解析得到特征詞集,后期隨著解析詞匯增加,特征詞庫(kù)集不斷豐富,具體實(shí)現(xiàn)步驟如下。

(1) 采用N-gram方法實(shí)現(xiàn)分詞(式(1)),為避免將“中央一號(hào)文”長(zhǎng)詞切分,保證這類(lèi)長(zhǎng)詞能被正確采集,將農(nóng)業(yè)資源特定關(guān)鍵詞加入特定詞典再進(jìn)行分詞。

P(T)=P(W1W2…Wn)=

P(W1)P(W2|W1)P(W3|W1W2)…

P(Wn|W1W2…Wn-1)

(1)

設(shè)T由詞序列W1,W2,…,Wn構(gòu)成,整個(gè)句子出現(xiàn)概率為各個(gè)詞出現(xiàn)概率之積。

(2) 應(yīng)用停用詞表去除噪聲關(guān)鍵詞,通過(guò)條件隨機(jī)場(chǎng)對(duì)文本詞性標(biāo)注,提高中文分詞效果準(zhǔn)確性。

(3) 利用現(xiàn)有詞庫(kù)進(jìn)行檢驗(yàn),去除無(wú)意義的詞,如“國(guó)辣椒”。

(4) 利用TF-IDF計(jì)算關(guān)鍵詞與文檔聯(lián)系和相應(yīng)的權(quán)重。

(2)

(3)

式中:IDF為逆向文件頻率;|D|為文檔的數(shù)量和;|{j:ti∈dj}|為含有關(guān)鍵詞ti文檔數(shù)量。

TF-IDF=TF×IDF

(4)

式中:TF-IDF為詞頻TF和逆向文件頻率IDF之積。

以文檔學(xué)習(xí)資源《辣椒春季保護(hù)地栽培技術(shù)》為例,從文檔中解析出“辣椒、春季、保護(hù)地、栽培技術(shù)、辣椒、幼苗越冬、大棚管理、施肥、澆水、病蟲(chóng)害防治、瘡痂病、炭疽病”等實(shí)體。

3.2 關(guān)系抽取

從文本中提取關(guān)系是構(gòu)建三元組重要部分。傳統(tǒng)的關(guān)系抽取需要人工標(biāo)注大量數(shù)據(jù)來(lái)訓(xùn)練關(guān)系抽取模型,成本太高無(wú)法實(shí)現(xiàn)大數(shù)據(jù)量關(guān)系抽取。本文通過(guò)LSTM(Long Short Term Memory network)神經(jīng)網(wǎng)絡(luò)端到端模型實(shí)現(xiàn)實(shí)體關(guān)系抽取[23],為每個(gè)關(guān)系獨(dú)立訓(xùn)練雙向LSTM抽取模型(圖3)。采用弱監(jiān)督標(biāo)注方法為每個(gè)關(guān)系自動(dòng)構(gòu)造標(biāo)注數(shù)據(jù),模型將文本中的離散詞語(yǔ)映射成特定維度向量,實(shí)現(xiàn)層次化向量表達(dá),LSTM引入神經(jīng)網(wǎng)絡(luò)記憶單元概念,某一時(shí)刻信息輸出與當(dāng)前次特征輸入和之前的詞輸出共同決定,有效解決提取序列特征問(wèn)題,適合句子的詞序語(yǔ)義表示。

圖3 基于LSTM的端到端抽取模型

結(jié)合詞性、句法樹(shù)結(jié)構(gòu)等語(yǔ)義特征,構(gòu)建實(shí)體之間關(guān)系,通過(guò)關(guān)系對(duì)事件描述有助于分析事件演變過(guò)程,關(guān)系屬性示例如表1所示。

表1 實(shí)體關(guān)系屬性示例

3.3 標(biāo)簽生成

采用LDA(Latent Dirichlet Allocation)模型對(duì)學(xué)習(xí)資源標(biāo)簽化,將資源庫(kù)中的文檔主題以概率分布的形式給出,通過(guò)抽取主題分布實(shí)現(xiàn)主題聚類(lèi)和文本分類(lèi),同時(shí)也是詞袋模型,一篇文檔由一系列詞語(yǔ)組成,詞語(yǔ)之間無(wú)先后順序。從全局所有關(guān)鍵詞中自動(dòng)抽取具有概括性的關(guān)鍵詞作為標(biāo)簽,每個(gè)標(biāo)簽下包含一個(gè)關(guān)鍵詞袋,并且標(biāo)簽具有層級(jí)關(guān)系,標(biāo)簽樹(shù)與關(guān)鍵詞袋如圖4所示。

圖4 標(biāo)簽樹(shù)與關(guān)鍵詞袋示例

涉農(nóng)學(xué)習(xí)資源標(biāo)簽化本質(zhì)是一個(gè)多標(biāo)簽文本分類(lèi)任務(wù),根據(jù)語(yǔ)義將學(xué)習(xí)資源分類(lèi)到一組預(yù)先定義好的類(lèi)別標(biāo)簽中并多個(gè)維度分析標(biāo)簽的覆蓋度和精細(xì)度,得到有效支撐知識(shí)庫(kù)的標(biāo)簽集。通過(guò)建標(biāo)簽鏈接和擴(kuò)展,實(shí)現(xiàn)對(duì)標(biāo)簽集中的每一個(gè)標(biāo)簽映射在知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體。標(biāo)簽生成過(guò)程中,下層標(biāo)簽含義上包含上層標(biāo)簽,每個(gè)標(biāo)簽的關(guān)鍵詞袋中所有關(guān)鍵詞都可激活該標(biāo)簽;最底層的標(biāo)簽?zāi)馨械奈臋n。標(biāo)簽初步生成僅依賴(lài)于文檔,文檔數(shù)量越多,標(biāo)簽質(zhì)量越高,并引入圖譜中的實(shí)體補(bǔ)充標(biāo)簽信息。當(dāng)涉農(nóng)學(xué)習(xí)資源素材發(fā)生改變時(shí),系統(tǒng)的關(guān)鍵詞也會(huì)發(fā)生變化。當(dāng)添加一篇新文檔時(shí),標(biāo)簽系統(tǒng)自動(dòng)分析并生成標(biāo)簽,每個(gè)標(biāo)簽都有一個(gè)權(quán)重值,僅輸出分?jǐn)?shù)在一定閾值內(nèi)的標(biāo)簽。自動(dòng)生成的標(biāo)簽可人工干預(yù),提高系統(tǒng)的靈活性。如針對(duì)《著力提高國(guó)家糧食和物資儲(chǔ)備安全保障水平》資源,提取的標(biāo)簽和權(quán)重為{糧食,0.249 57}、{儲(chǔ)備,0.227 08}、{糧食安全,0.140 81}、{堅(jiān)持,0.077 38}、{國(guó)家,0.076 05}、{物資,0.068 34}、{優(yōu)糧,0.056 81}。

3.4 圖譜遷移

本文構(gòu)建的知識(shí)圖譜實(shí)體與CN-DBPedia關(guān)聯(lián),將CN-DBPedia通用知識(shí)圖譜中實(shí)體遷移到領(lǐng)域知識(shí)圖譜,對(duì)領(lǐng)域的實(shí)體、概念、屬性、關(guān)系等關(guān)鍵知識(shí)進(jìn)行識(shí)別,并以此為標(biāo)準(zhǔn)從通用知識(shí)圖譜中模糊匹配出領(lǐng)域三元組知識(shí),實(shí)現(xiàn)實(shí)體遷移,完善領(lǐng)域知識(shí)圖譜內(nèi)容。知識(shí)圖譜儲(chǔ)存采用Mongodb內(nèi)置的分布式儲(chǔ)存機(jī)制,設(shè)置一定量的Replica作為備份,具有快速查詢(xún)、自動(dòng)分片、支持云級(jí)擴(kuò)展性、內(nèi)置MapReduce等優(yōu)點(diǎn),適合作為知識(shí)圖譜存儲(chǔ)數(shù)據(jù)庫(kù)。

3.5 圖譜可視化與管理

應(yīng)用Python集成開(kāi)發(fā)環(huán)境,研發(fā)了涉農(nóng)領(lǐng)域知識(shí)圖譜可視化展示與管理系統(tǒng),實(shí)現(xiàn)實(shí)體、概念、屬性、關(guān)系等圖譜元素的可視化展示與查詢(xún)管理。運(yùn)用標(biāo)簽樹(shù)展示整個(gè)標(biāo)簽系統(tǒng),進(jìn)入實(shí)體關(guān)系首頁(yè),界面展示畫(huà)圓效果如圖5所示。標(biāo)簽權(quán)重可以直觀展示出不同實(shí)體之間的關(guān)系,實(shí)體之間的距離反映實(shí)體與標(biāo)簽間的緊密程度。點(diǎn)擊實(shí)體標(biāo)簽可自動(dòng)連接到CN-dbpedia的相關(guān)頁(yè)面(圖6),例如點(diǎn)擊“經(jīng)濟(jì)發(fā)展”實(shí)體,鏈接到CN-dbpedia的經(jīng)濟(jì)發(fā)展實(shí)體。

圖5 知識(shí)圖譜可視化效果

圖6 標(biāo)簽鏈接到CN-dbpedia的示例

知識(shí)圖譜后端管理系統(tǒng)實(shí)現(xiàn)了資源素材管理、關(guān)鍵詞生成和標(biāo)簽的處理,具體功能包括:學(xué)習(xí)資源檢測(cè)、生成關(guān)鍵詞、關(guān)鍵詞解析;修改自動(dòng)生成標(biāo)簽以及關(guān)鍵詞權(quán)重、屬性、關(guān)聯(lián)關(guān)系等;支持自動(dòng)添加關(guān)鍵詞、關(guān)聯(lián)關(guān)系。管理界面如圖7所示。

圖7 知識(shí)圖譜后臺(tái)管理原型

4 基于知識(shí)圖譜語(yǔ)義相似度的協(xié)同過(guò)濾推薦

4.1 標(biāo)簽語(yǔ)義查詢(xún)

在涉農(nóng)學(xué)習(xí)資源知識(shí)圖譜構(gòu)建基礎(chǔ)上,實(shí)現(xiàn)基于語(yǔ)義理解的描述信息的解析。本文將用戶查詢(xún)語(yǔ)句分為兩類(lèi):(1) 給定一個(gè)類(lèi)型或概念,返回該類(lèi)型的實(shí)體列表;(2) 給定實(shí)體集合,返回與輸入相關(guān)的實(shí)體列表。

對(duì)于類(lèi)型查詢(xún),給定類(lèi)型或概念,根據(jù)查詢(xún)長(zhǎng)度分兩種情況:(1) 查詢(xún)類(lèi)型為名詞或者一個(gè)名詞加上一個(gè)修飾詞組成,如“病蟲(chóng)害”和“番茄病蟲(chóng)害”。系統(tǒng)直接返回在知識(shí)圖譜中該查詢(xún)類(lèi)型下的實(shí)體。(2) 查詢(xún)類(lèi)型由一個(gè)名詞加上多個(gè)修飾詞組成,如“農(nóng)村社會(huì)公共事業(yè)建設(shè)”,直接從知識(shí)圖譜中獲取結(jié)果不現(xiàn)實(shí),通過(guò)對(duì)查詢(xún)語(yǔ)句進(jìn)行解析,將其拆解為三個(gè)簡(jiǎn)單類(lèi)型,即{“農(nóng)村建設(shè)”,“社會(huì)建設(shè)”,“公共事業(yè)建設(shè)”},這些類(lèi)型在知識(shí)圖譜中具有較高的覆蓋率,通過(guò)查詢(xún)這些類(lèi)型實(shí)體,并通過(guò)交集操作方式作為返回結(jié)果。

對(duì)于特定實(shí)體集查詢(xún),返回的實(shí)體要符合用戶潛在查詢(xún)的類(lèi)型,滿足用戶的查詢(xún)意圖。如用戶輸入{“作物生產(chǎn)技術(shù)”,“林業(yè)生產(chǎn)技術(shù)”,“畜禽養(yǎng)殖技術(shù)”},用戶意圖可能是“農(nóng)村先進(jìn)適用技術(shù)”數(shù)據(jù)類(lèi)型,因此,返回結(jié)果應(yīng)是知識(shí)圖譜中“實(shí)用技術(shù)”及其鄰近節(jié)點(diǎn)的實(shí)體。對(duì)于實(shí)體集的查詢(xún),返回與查詢(xún)實(shí)體經(jīng)常出現(xiàn)的實(shí)體,使用共現(xiàn)次數(shù)作為返回結(jié)果。同時(shí)利用知識(shí)圖譜中已有關(guān)聯(lián)關(guān)系(如上下位詞)對(duì)輸入的實(shí)體進(jìn)行概念化語(yǔ)義匹配,理解用戶查詢(xún)意圖,并返回該語(yǔ)義下相關(guān)實(shí)體。

為減少查詢(xún)圖操作的復(fù)雜度,系統(tǒng)對(duì)查詢(xún)的文本信息進(jìn)行預(yù)先過(guò)濾,主要策略是基于實(shí)體、類(lèi)型、屬性、關(guān)系過(guò)濾并建立典型路徑和頻度模式分類(lèi)索引,從而加快查詢(xún)算法速度。

4.2 推薦算法設(shè)計(jì)

提出基于知識(shí)圖譜語(yǔ)義相似度的協(xié)同過(guò)濾推薦算法,對(duì)涉農(nóng)領(lǐng)域知識(shí)圖譜標(biāo)簽權(quán)重進(jìn)行相似度計(jì)算,并對(duì)標(biāo)簽的權(quán)重聚合,通過(guò)矩陣分解得到一個(gè)包含一系列語(yǔ)義相關(guān)標(biāo)簽基的標(biāo)簽子空間,使得同義及相關(guān)的標(biāo)簽聚合于同一標(biāo)簽基,且一詞多義的標(biāo)簽歸類(lèi)到語(yǔ)義不同的標(biāo)簽基,從而實(shí)現(xiàn)標(biāo)簽語(yǔ)義的近義歸類(lèi)和多義辨析。

針對(duì)不同學(xué)習(xí)資源設(shè)定的不同專(zhuān)題,對(duì)于具有描述文本的資源采用TF-IDF方法提取資源描述關(guān)鍵詞作為特征詞。對(duì)于設(shè)定類(lèi)別目錄的資源,將目錄路徑上出現(xiàn)的名稱(chēng)都作為特征詞,層級(jí)越細(xì)的目錄名賦予更高的權(quán)值。用戶標(biāo)注標(biāo)簽的資源,直接將標(biāo)簽作為特征詞,標(biāo)注頻率作為標(biāo)簽的權(quán)值。根據(jù)涉農(nóng)學(xué)習(xí)資源領(lǐng)域知識(shí)圖譜中存在大量的上下位詞關(guān)系,計(jì)算兩個(gè)標(biāo)簽的相似性時(shí),通過(guò)計(jì)算兩個(gè)節(jié)點(diǎn)的共享父概念和子概念的頻數(shù),構(gòu)建相應(yīng)的概念向量,根據(jù)相似度的大小為用戶推薦學(xué)習(xí)資源。

在領(lǐng)域知識(shí)圖譜相似度計(jì)算時(shí),用戶感興趣的特定標(biāo)簽具有相應(yīng)權(quán)重值,結(jié)合知識(shí)圖譜及其用戶對(duì)標(biāo)簽的評(píng)分信息計(jì)算相似度。用戶感興趣標(biāo)簽數(shù)據(jù)集ID={D1,D2,…,Dn},ND(Dm,Dn)為兩個(gè)感興趣標(biāo)簽Dm與Dn在涉農(nóng)學(xué)習(xí)資源知識(shí)圖譜中關(guān)于同一類(lèi)別節(jié)點(diǎn)最近一個(gè),興趣標(biāo)簽Dm與Dn在知識(shí)圖譜中的語(yǔ)義相似度計(jì)算公式如下:

(5)

式中:IDsim(Dm,Dn)為興趣標(biāo)簽Dm和Dn的語(yǔ)義相似度;Depth(Dm)為從圖譜中同類(lèi)資源根節(jié)點(diǎn)到用戶標(biāo)簽Dm路徑深度;Depth(Dn)為從圖譜中同類(lèi)資源根節(jié)點(diǎn)到用戶標(biāo)簽Dn路徑深度;Depth(ND(Dm,Dn))是圖譜中同類(lèi)資源根節(jié)點(diǎn)到Dm和Dn最臨近共祖先節(jié)點(diǎn)路徑長(zhǎng)度。IDsim(Dm,Dn)數(shù)據(jù)范圍[0,1],Dm=Dn時(shí),即兩個(gè)標(biāo)簽相同,IDsim(Dm,Dn)=1。興趣標(biāo)簽相似度數(shù)值隨著共祖先節(jié)點(diǎn)深度增加而變大。

5 實(shí)驗(yàn)與分析

5.1 實(shí)驗(yàn)數(shù)據(jù)與設(shè)置

從北京農(nóng)業(yè)在線學(xué)習(xí)平臺(tái)中提取數(shù)據(jù):總計(jì)5 000條用戶學(xué)習(xí)應(yīng)用數(shù)據(jù),其中包含423個(gè)用戶及832個(gè)學(xué)習(xí)資源,用戶對(duì)學(xué)習(xí)資源評(píng)分分為3個(gè)等級(jí),評(píng)分等級(jí)的數(shù)值反映用戶對(duì)學(xué)習(xí)內(nèi)容的喜好程度。

將實(shí)驗(yàn)數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,在數(shù)據(jù)集中隨機(jī)抽取一定的比例作為實(shí)驗(yàn)訓(xùn)練集,我們按照數(shù)據(jù)總量的20%、40%、60%和80%抽取,剩下數(shù)據(jù)是測(cè)試集,采用用戶對(duì)學(xué)習(xí)資源的打分值和相似度分析預(yù)測(cè)測(cè)試數(shù)據(jù)的學(xué)習(xí)資源評(píng)分?jǐn)?shù)據(jù),分別采用基于涉農(nóng)資源知識(shí)圖譜的協(xié)同過(guò)濾推薦與傳統(tǒng)系統(tǒng)過(guò)濾方法推薦。同時(shí)計(jì)算稀疏度SPA(式(6))、準(zhǔn)確率MAE(式(7))和覆蓋率COV(式(8))。

(6)

式中:SPA為稀疏度;M為用戶已經(jīng)評(píng)分資源梳理;U是用戶數(shù)量;N是學(xué)習(xí)資源數(shù)量。

(7)

式中:{L1,L2,…,Li}為預(yù)測(cè)評(píng)分?jǐn)?shù)據(jù)集;{M1,M2,…,Mi}為用戶實(shí)際打分?jǐn)?shù)據(jù)集;N為集合的數(shù)量。

(8)

式中:Md是測(cè)試數(shù)據(jù)集合中預(yù)測(cè)評(píng)分?jǐn)?shù)據(jù)的數(shù)量;M為測(cè)試數(shù)據(jù)集合中的預(yù)測(cè)評(píng)分?jǐn)?shù)據(jù)的總量。

5.2 實(shí)驗(yàn)結(jié)果及分析

通過(guò)不同測(cè)試訓(xùn)練集劃分,計(jì)算基于涉農(nóng)學(xué)習(xí)資源知識(shí)圖譜語(yǔ)義相似度的協(xié)同過(guò)濾推薦(方法一)與基于傳統(tǒng)資源庫(kù)推薦方法(方法二)的稀疏度SPA、準(zhǔn)確率MAE和覆蓋率COV,數(shù)據(jù)見(jiàn)表2。

表2 不同訓(xùn)練集占比條件的SPA、MAE和COV

訓(xùn)練集所占比例由20%提高到40%過(guò)程中,方法一和方法二的MAE都有所下降,也表明SPA數(shù)值增加,推薦MAE數(shù)值下降,推薦COV數(shù)值在增加;在SPA數(shù)值相對(duì)較大時(shí),MAE和COV數(shù)值變化趨向于平緩。方法一的平均MAE高于方法二,方法一的平均COV接近方法二?;谥R(shí)圖譜語(yǔ)義相似度的協(xié)同過(guò)濾推薦與基于傳統(tǒng)資源庫(kù)推薦方法相比,推薦的準(zhǔn)確率MAE大幅提升,推薦覆蓋率COV基本保持一致。變化趨勢(shì)如圖8所示。因此,通過(guò)知識(shí)圖譜的底層數(shù)據(jù)支持,與傳統(tǒng)的資源庫(kù)推薦方式相比具有更好的推薦準(zhǔn)確率。

6 結(jié) 語(yǔ)

本文是在北京市農(nóng)業(yè)網(wǎng)絡(luò)在線學(xué)習(xí)平臺(tái)的學(xué)習(xí)資源基礎(chǔ)上,通過(guò)對(duì)學(xué)習(xí)資源系統(tǒng)化和體系化梳理,采用LDA標(biāo)簽提取方法構(gòu)建了北京市涉農(nóng)學(xué)習(xí)資源領(lǐng)域知識(shí)圖譜,通過(guò)軟件和數(shù)據(jù)庫(kù)技術(shù),研發(fā)構(gòu)建了涉農(nóng)領(lǐng)域知識(shí)圖譜可視化與管理維護(hù)系統(tǒng),實(shí)現(xiàn)知識(shí)圖譜的實(shí)體、概念和關(guān)系的可視化展示及查詢(xún)管理。本文知識(shí)圖譜構(gòu)建及其特征標(biāo)簽提取方法具有一般性,研發(fā)知識(shí)圖譜可視化及維護(hù)管理工具,在信息資源的實(shí)體關(guān)系抽取、標(biāo)簽管理和特征提取方面具有靈活性,可以擴(kuò)展應(yīng)用到其他領(lǐng)域。

在涉農(nóng)領(lǐng)域知識(shí)圖譜構(gòu)建基礎(chǔ)上,設(shè)計(jì)研發(fā)基于知識(shí)圖譜語(yǔ)義相似度的協(xié)同過(guò)濾推薦系統(tǒng),實(shí)驗(yàn)結(jié)果表明,推薦準(zhǔn)確率達(dá)到84.27%,與基于傳統(tǒng)的資源庫(kù)推薦方式相比,大幅提升了推薦準(zhǔn)確率,經(jīng)過(guò)北京市涉農(nóng)地區(qū)用戶的應(yīng)用反饋與迭代更新,證實(shí)該系統(tǒng)具有較好的易用性、安全性、穩(wěn)定性和可靠性,具有廣闊的市場(chǎng)應(yīng)用前景。然而作為農(nóng)業(yè)在線學(xué)習(xí)背景下的涉農(nóng)領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用探索,仍有很多需要改進(jìn)的方面,僅為知識(shí)圖譜的構(gòu)建和應(yīng)用研究提供新的視角。知識(shí)圖譜的實(shí)體及關(guān)系在涉農(nóng)學(xué)習(xí)領(lǐng)域覆蓋還不全面,部分實(shí)體和關(guān)系抽取信息的準(zhǔn)確率還需進(jìn)一步提升,構(gòu)建知識(shí)圖譜過(guò)程中還需大量人為干預(yù)工作,期望后續(xù)進(jìn)一步探索完善這些方面的研究。

猜你喜歡
語(yǔ)義資源用戶
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
語(yǔ)言與語(yǔ)義
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
關(guān)注用戶
關(guān)注用戶
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
關(guān)注用戶
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: lhav亚洲精品| 香蕉久久永久视频| 精品无码人妻一区二区| 日韩欧美国产成人| 99热线精品大全在线观看| 日韩一级毛一欧美一国产| 老司国产精品视频91| 伊人成人在线| 婷婷综合缴情亚洲五月伊| 国产网站免费| 九九热免费在线视频| 亚洲色无码专线精品观看| 国产免费高清无需播放器| 国产99久久亚洲综合精品西瓜tv| 97视频在线精品国自产拍| 99er精品视频| 久久网欧美| 国产成人1024精品| 国产乱人伦偷精品视频AAA| 99精品福利视频| 久久久久久尹人网香蕉| 99久久国产综合精品2023| 91po国产在线精品免费观看| 伊人久久青草青青综合| 亚洲成aⅴ人在线观看| h视频在线播放| 一区二区三区毛片无码| 欧美性精品| 亚洲欧美另类专区| 亚洲欧美成人在线视频| 国产精品大白天新婚身材| 狠狠亚洲五月天| 免费一级毛片不卡在线播放| 日韩A∨精品日韩精品无码| 日韩高清一区 | 91久久夜色精品国产网站| 免费人成黄页在线观看国产| 欧美a在线视频| 成年人视频一区二区| 国产一区二区三区在线无码| www中文字幕在线观看| 无码免费视频| 亚洲欧美一区二区三区麻豆| 精品91在线| 曰韩人妻一区二区三区| 欧美日韩午夜| 成人福利在线观看| 日日拍夜夜操| 色吊丝av中文字幕| 国产区在线看| 国产精品分类视频分类一区| 男女性色大片免费网站| 日韩av手机在线| 最新国语自产精品视频在| 综合亚洲网| 亚洲一级毛片在线观播放| 国产在线观看一区精品| 无码在线激情片| 久久综合色天堂av| 午夜精品久久久久久久无码软件| 高清国产va日韩亚洲免费午夜电影| 永久免费精品视频| av在线无码浏览| 国产微拍一区| 久久精品国产亚洲AV忘忧草18| 伊人久久综在合线亚洲2019| 在线精品亚洲一区二区古装| 中文字幕亚洲另类天堂| 77777亚洲午夜久久多人| 国产激情无码一区二区APP | 欧美一级在线| 最新亚洲av女人的天堂| 欧美成人在线免费| 第一页亚洲| 影音先锋丝袜制服| 国产麻豆精品久久一二三| 国产第八页| 2021亚洲精品不卡a| 中文字幕中文字字幕码一二区| 欧美中文字幕第一页线路一| 亚洲动漫h| 亚洲精品视频免费|