999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用語義分析的標簽體系構建方法

2019-02-14 02:29:44李娜范正潔郝傳洲王平輝陶敬林杰
西安交通大學學報 2019年1期
關鍵詞:語義體系融合

李娜,范正潔,郝傳洲,王平輝,陶敬,林杰

(1.西安交通大學智能網絡與網絡安全教育部重點實驗室,710049,西安;2.中國移動通信有限公司研究院大數據與IT技術研究所,100053,北京)

隨著大數據技術的深入研究與應用,企業的專注點日益聚焦于怎樣利用大數據來為精準營銷服務,進而深入挖掘潛在的商業價值[1-4],于是用戶畫像的概念也就應運而生。所謂用戶畫像,即用戶信息的標簽化,利用標簽體系勾畫用戶的屬性特征[5]。精準、細粒度且結構化的標簽體系是用戶畫像的基礎,其廣度和粒度對用戶畫像的精確性有較大影響,因此標簽體系的構建具有一定的研究意義和應用價值。

早期比較流行的標簽體系構建方法均基于Golder所提出的協同標簽體系[6];Yeung和Tahar等利用分眾分類法構建標簽體系[7-8];Cai等先后提出利用協同標簽系統不同標簽權重的結構化和非結構化標簽來構建標簽體系[9-10]。協同標簽體系描述眾多用戶以標簽形式向共享內容添加元數據的過程,大多知名網站允許用戶公開標簽和共享內容,用戶不僅可以為自己的信息分類,也可以瀏覽他人的分類信息,故協同標簽體系的構建受到個人和公共兩方面因素的影響。由于個人背景知識以及描述文字的習慣不同,不同用戶對同一網頁可能添加不同的標簽,致使最終的標簽體系存在重復和結構層次不明顯的問題。隨著本體的發展,利用本體構建標簽體系的研究也逐漸增多,Skillen、Maleszka和Ferreira等利用現有本體框架人工或自動化地構建本體以生成標簽體系[11-13],但目前基于本體所得到的標簽體系準確度低,存在冗余或者缺失以及結構問題。此外,本體的構建需要大量人工參與,成本較高。Farseev等基于主題模型[14-15]構建標簽體系,但這種標簽體系粒度較粗,不利于精準畫像。

針對上述問題,本文基于主流網站的導航標簽,提出一種標簽體系融合方法以構建細粒度結構化的標簽體系。主流網站的導航標簽是經過專家仔細分析,并結合廣大網民的用戶體驗進行優化而得,故網站導航標簽能夠精準勾畫用戶的行為屬性,進而為用戶畫像打下基礎。

本文根據標簽文本特征、結構特征以及標簽對應的網頁文本特征,提出一種基于語義特征分析的標簽融合方法(TMSFA)。該方法通過識別標簽間的等同和上下位這兩種映射關系,對主流網站的導航標簽進行融合,進而構建出精準、細粒度且結構化的標簽體系。

1 標簽體系構建方法

第一層級標簽稱作根標簽,每個根標簽及其所有子孫標簽稱作一個標簽樹。本文方法三階段流程如圖1所示,其基本思想是將標簽樹兩兩融合,將待融合標簽樹插入到基準標簽樹中,通過找到待融合標簽與基準標簽的等同映射關系和上下位映射關系,從而構建出融合后的標簽體系。本文方法分為數據處理、標簽映射以及標簽融合3個階段。

在數據處理階段,首先從網站中獲取原始標簽體系,并基于爬蟲獲取標簽對應的網頁文本,以豐富標簽語義;其次根據標簽體系內容并結合分組條件對標簽樹進行聚類分組,分組條件一是當兩個標簽樹的根標簽相同分為一組,分組條件二是當標簽樹的根標簽不同但子標簽內容相似則分為一組;最后根據標簽樹的層數、葉子標簽及非葉子標簽的數量判斷融合順序,標簽樹層數越多則標簽的劃分結構粒度越細,葉子標簽的數量越多則標簽樹描述的子領域越廣,非葉子標簽的數量越多則標簽的劃分粒度越細。

在標簽映射和標簽融合階段,基于標簽間的等同映射關系和上下位映射關系去除標簽體系中重復以及結構相同的標簽,然后將待融合標簽樹插入到基準標簽樹中,進而構建出融合后的標簽體系。

2 等同關系標簽映射

標簽間的等同關系是指兩個標簽語義相同,對應的網頁內容相似。在識別標簽的等同關系時,主要存在以下兩個難點:一是不同原始標簽體系的標簽詞義表達方式不同,例如“釣魚用品”“垂釣用品”和“彩寶”“彩色寶石”等;二是上級標簽對下級標簽的語義具有約束力,例如標簽“洗發水”的上級標簽有“洗發護發”“男士洗護”兩種,此時標簽的語義截然不同。

本文基于標簽體系的語義和結構提出兩種方法以解決上述難點,一是通過判斷標簽對應網頁內容是否相似;二是同時分析標簽及其上級標簽的語義信息,基于這兩種方法可得到眾多等同關系標簽對,本文取這些等同關系標簽對的并集作為最終識別的等同關系標簽對。

四級標簽體系樹狀圖如圖2所示,其中一級標簽指所有標簽樹的第1級根標簽,如標簽a1~a2;二級標簽指所有標簽樹的第2層級標簽,如標簽b1~b4;三級標簽指所有標簽樹的第3層級標簽,如標簽c1~c8;四級標簽指所有標簽樹的第4層級標簽,如標簽d1~d4。

2.1 基于標簽語義的等同關系映射方法

基于標簽語義比較待融合標簽與基準標簽是否“相同”,若“相同”則將待融合標簽和基準標簽的父標簽及祖父標簽進行兩兩比較,存在一對“相同”則說明待融合標簽與基準標簽具有等同關系。

待融合標簽A和基準標簽B分別由n和m個字組成,表示為A1,A2,…,An和B1,B2,…,Bm,其中Ai(i=1,2,…,n)、Bj(j=1,2,…,m)分別表示組成標簽A和B的字。逐個比較標簽A和B的字,假設標簽A和B中重復的字的個數為h,則標簽A和B的相似度為h/n,若相似度大于基于統計分析設定的閾值,則說明這兩個標簽是“相同”的。

2.2 基于附加語義的等同關系映射方法

基于標簽對應的網頁文本內容的相似性來判斷標簽的等同關系。基于網頁文本語義獲得標簽的向量表示,輸入為每個標簽對應的k個網頁標題,通過句子向量表示模型(Sentence2Vec)[16]。獲得每個標題的句子向量表示為s1,s2,…,sn,則標簽表示為

(1)

待融合標簽A與基準標簽B的向量表示分別為SA和SB,其余弦相似度為

(2)

當余弦相似度大于基于統計分析設定的閾值時,說明待融合標簽A與基準標簽B具有等同關系。

3 上下位關系標簽映射

上下位關系是指兩個標簽的語義之間存在包含與被包含的關系,下位詞是上位詞的一個特殊實例或者一個子類。如圖3所示,待融合標簽“鮮花餅”的上級標簽為“休閑食品”,標簽“鮮花餅”會跟隨其上級標簽“休閑食品”融合到“鮮花餅1”的位置,但是“餅干糕點”是“鮮花餅”更為準確的上位詞,故標簽“鮮花餅”應融合到“鮮花餅2”的位置。

基于標簽對應的網頁文本內容提出兩種上下位標簽映射方法:一是通過判斷待融合標簽對應的網頁標題中包含基準標簽的比例來判斷上下位關系;二是通過判斷待融合標簽與基準標簽的子標簽的相關性來判斷上下位關系。

圖3 基于上下位關系的標簽融合示意圖

3.1 基于網頁標簽包含關系的上下位標簽映射方法

標簽對應的網頁標題通常會包含其上級標簽,利用這個特點判斷兩個標簽是否存在上下位關系。待融合標簽A的對應的網頁標題個數為p,若網頁標題中有q個標題包含基準標簽B,則包含比例為

(3)

當包含比例大于基于統計分析設定的閾值時,則說明待融合標簽A與基準標簽B具有上下位關系。

3.2 基于標簽間相關性的上下位標簽映射方法

如圖2所示,“鮮花餅”與“餅干糕點”的子標簽“曲奇餅干”和“沙琪瑪”有一定的相關性,也就是子標簽間存在著一定的相關性,據此判斷兩個標簽是否存在上下位關系。計算待融合標簽與所有包含子標簽的基準標簽的相關性,當最大相關性大于基于統計分析設定的閾值時,則說明待融合標簽A與基準標簽B具有上下位關系。基于子標簽的向量表示分別計算標簽A與標簽B以及子標簽的余弦相似度C(SA,SB),C(SA,SB1),…,C(SA,SBn),則標簽A和B的相關性為

(4)

4 實驗與分析

4.1 實驗設置

目前用戶訪問的網站類型主要包括門戶、金融、電商3類,故從這3類網站中分別選擇兩個主流網站導航作為原始標簽體系進行融合,其中門戶網站選擇新浪網和搜狐網,金融網站選擇中金在線和東方財富網,電商網站選擇天貓和蘇寧易購,詳情見表1。

表1 三類網站標簽體系中各級標簽分布

為了測試融合方法得到的標簽體系的準確性,本文提出標簽重合度和上下位關系重合度兩個指標來驗證融合方法的效果。

所謂標簽重合度指標,即通過計算融合后標簽體系與測試標簽體系的標簽重合比例來說明兩個標簽體系的內容差異,它是一種標簽內容相似的度量。融合標簽體系和測試標簽體系中標簽的個數分別為NL、NT,相同的標簽個數為Nsame,則標簽重合度為

(5)

所謂上下位關系重合度指標,即通過計算融合后標簽體系與測試標簽體系的上下位關系相同比例來說明兩個標簽體系的結構差異,它是一種標簽上下位關系的度量。融合標簽體系和測試標簽體系中樹枝個數分別為ML、MT,測試標簽體系中與融合標簽體系中相同的樹枝的個數為Msame,則上下位關系重合度為

(6)

測試標簽體系是從上述原始標簽體系中隨機抽取若干個標簽進行分組,在20多位老師和同學的幫助下人工融合標簽并校正,得到最終的測試標簽體系。

對于電商網站,本文將“家居家紡”“母嬰玩具”和“個護化妝”3個分組的原始標簽人工融合得到電商測試標簽體系;對于金融網站,將“理財中心”和“股票中心”兩個分組的原始標簽人工融合得到金融測試標簽體系;對于門戶網站,將“頻道”分組中的“新聞”“體育”“娛樂”“科技”“女人”“健康”“房產”“星座”和“旅游”這些小組的原始標簽人工融合得到門戶測試標簽體系。三類網站標簽體系中原始及測試標簽數的統計情況見表2,以電商為例,電商網站原始標簽體系共有6 039個標簽,抽取其中1 265個標簽進行融合,得到的測試標簽體系共有934個標簽。

表2 三類網站標簽體系中原始及測試標簽數

4.2 實驗結果

為了進一步說明本文方法的優越性,采用基于同義詞林的融合方法(TMC)與之進行對比。TMC方法基于同義詞林和標簽文本層面的相似性來判斷標簽映射關系,進而融合標簽體系。

在同一臺計算機上使用相同數據對本文方法和TMC方法進行對比,首先基于這兩種方法分別將門戶、金融、電商網站的原始標簽體系進行融合,然后將融合后的標簽體系分別與測試標簽體系進行比對,最后計算出標簽重合度和上下位關系重合度,對比結果及時間頻度見表3、表4。

表3 本文和TMC方法在評價指標上的比較

表4 本文與TMC方法的時間頻度對比

針對電商類網站,基于本文方法融合天貓和蘇寧的標簽體系得到1 041個標簽,并與測試標簽體系進行對比,標簽重合度和上下位關系重合度分別為89.4%、88.4%,而TMC方法的結果是79.8%和80.9%。電商類網站的標簽體系結構復雜,經常會出現待融合標簽所在的結構粒度粗而相應所屬基準標簽粒度細的情況,這就需要拆分待融合標簽子樹并將其映射到基準標簽體系中,但難點在于如何判斷待融合標簽與基準標簽的映射關系,故造成上下位關系重合度相對標簽重合度較低。針對金融類網站,基于本文方法將東方財富和中金在線的標簽體系進行融合得到504個標簽,并與測試標簽樹進行對比,標簽重合度和上下位關系重合度分別為85.5%,90.2%,而TMC方法的結果是76.7%和88.4%。針對門戶類網站,基于本文方法將新浪和搜狐的標簽體系進行融合,得到232個標簽,并與測試標簽體系進行對比,標簽重合度和上下位關系重合度分別為90.0%、95.3%,而TMC方法的結果是80.1%和90.3%。由于詞語描述差異比較大,門戶類網站和金融類網站難以精準判斷標簽之間是否存在等同關系,故上下位關系重合度相比于標簽重合度較高。

在時間復雜度方面,本文方法和TMC方法的時間復雜度均為O(n2)。從表4可以看出,兩種方法的時間頻度相差無幾,但從表3可以看出,與TMC方法相比,本文方法的效果有較大的提升,并且本文方法得到的融合后標簽體系相對于TMC方法的標簽體系的標簽數量較少,說明識別的融合標簽對數更多。無論從等同關系識別還是上下位關系識別,本文方法都有一定的提升且具備一定的準確性,而且相對已有構建標簽體系方法得到的標簽體系而言更為全面、結構化。

5 結 論

本文方法將不同網站的導航標簽體系進行融合得到統一且結構化的標簽體系,為精準用戶畫像打下基礎。本文方法基于標簽間的等同關系和上下位關系來判斷標簽的融合位置,由于標簽本身詞語短小且包含的語義信息較少,本文不僅分析標簽本身的語義信息,還結合其對應網頁文本的語義信息及標簽上下級結構關系信息以豐富標簽語義,進而判斷標簽間的映射關系。本文提出標簽重合度和上下位關系重合度兩個指標以評估本文方法的優越性,與現有方法相比,本文方法的這兩個指標至少提升5%,證明了方法的有效性。采用本文方法可以構建出精準有效且適應不同領域的標簽體系。

猜你喜歡
語義體系融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
構建體系,舉一反三
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
“曲線運動”知識體系和方法指導
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: …亚洲 欧洲 另类 春色| 国产杨幂丝袜av在线播放| 欧美成人精品高清在线下载| 精品视频一区二区三区在线播| 91在线无码精品秘九色APP| 99爱在线| 福利在线不卡| 日韩不卡高清视频| 欧美国产在线精品17p| 国产99免费视频| 91视频日本| 亚洲欧美日韩中文字幕在线一区| 欧美成人A视频| 色综合久久久久8天国| 成人午夜天| 99精品免费欧美成人小视频| 日韩天堂视频| 久久特级毛片| 精品三级网站| 欧美日韩在线第一页| 国产区91| 成人亚洲视频| 天堂中文在线资源| 久久国产精品77777| 国产裸舞福利在线视频合集| 国产精品林美惠子在线观看| 91在线丝袜| 亚洲欧洲日韩综合色天使| 伊人成人在线| 91网址在线播放| 亚洲第一区在线| 午夜少妇精品视频小电影| 欧美一区二区三区不卡免费| 国产午夜在线观看视频| 尤物特级无码毛片免费| 四虎在线观看视频高清无码| 免费观看欧美性一级| 欧美劲爆第一页| 亚洲国模精品一区| 国产小视频在线高清播放| 国产在线第二页| 亚洲伦理一区二区| 亚洲欧美另类视频| 自拍偷拍欧美| 九九久久精品免费观看| 久久精品国产国语对白| 欧美日韩国产一级| 亚洲天堂网站在线| 老司国产精品视频91| 成AV人片一区二区三区久久| 国产精品男人的天堂| 国产精品久久久久久久伊一| 中文字幕亚洲综久久2021| 99热精品久久| 99热这里只有精品免费国产| 中文字幕乱妇无码AV在线 | 国产成人高清精品免费软件| 中文字幕无码制服中字| 日韩av在线直播| 真实国产乱子伦视频| 成人福利一区二区视频在线| 亚洲天堂网在线视频| 欧美三级日韩三级| 国产亚洲第一页| 亚洲成人动漫在线观看| 亚洲女同一区二区| 激情无码视频在线看| 国产精品视频导航| 无码AV高清毛片中国一级毛片| 久久青草视频| 五月激情综合网| 亚洲毛片一级带毛片基地| 午夜爽爽视频| 国产精品浪潮Av| 国产青榴视频| 久无码久无码av无码| 成人夜夜嗨| 亚洲综合经典在线一区二区| 久久久久久久久亚洲精品| 亚洲中文字幕在线精品一区| 国产亚洲欧美日韩在线观看一区二区| 日韩精品高清自在线|