999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義距離的遷移學(xué)習(xí)算法在消費(fèi)意圖識別上的運(yùn)用

2021-04-22 17:09:01彭達(dá)馮超
電腦知識與技術(shù) 2021年8期

彭達(dá) 馮超

摘要:使用微博等短文本信息,識別判斷用戶的消費(fèi)意圖,對于電商以及數(shù)據(jù)分析者而言具有積極的意義。因此,借鑒Co-Class算法框架,借鑒微博特有特征信息,提出文本特征選擇方法,設(shè)計語義距離計算方法,基于期望最大化算法(EM),使用SVM設(shè)計分類器,最終提出一種基于語義距離的遷移學(xué)習(xí)算法。通過實(shí)驗(yàn),驗(yàn)證了算法的有效性,給出結(jié)論。

關(guān)鍵詞:短文本;語義距離;遷移學(xué)習(xí)算法;消費(fèi)意圖

中圖分類號:TP391.1? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)08-0210-02

隨著微博、微信朋友圈,甚至運(yùn)動軟件等社交網(wǎng)絡(luò)用戶群的迅速增長,通過海量微博文本等短文本中識別某一用戶是否具有消費(fèi)意圖,對于電子銷售平臺、信息分析公司或者大眾消費(fèi)者而言都有明顯積極的意義[1]。由于微博等社交平臺的短文本限制,使用詞袋模型表示會產(chǎn)生特征矩陣稀疏導(dǎo)致識別效率低下等問題。所以,研究跨領(lǐng)域中文短文本消費(fèi)意圖探測識別,設(shè)計基于語義距離的半監(jiān)督統(tǒng)計方法,對數(shù)據(jù)建模,具有重要的意義。

本文提出的基于語義距離的遷移學(xué)習(xí)算法主要工作可以分為以下幾個步驟:文本預(yù)處理、特征的提取以及選擇、語義距離計算、分類器的訓(xùn)練。其中文本預(yù)處理主要是切詞、分詞、轉(zhuǎn)化標(biāo)點(diǎn)符號以及去除明顯錯誤,從而消除語料對于算法性能的影響,為算法的仿真實(shí)驗(yàn)做好鋪墊工作。特征的提取以及選擇是本文的一項(xiàng)主要工作,傳統(tǒng)的遷移學(xué)習(xí)算法會丟失掉微博中標(biāo)簽等特征信息,降低了識別成功率,本文提出將微博中其他標(biāo)簽信息融入識別算法中,從而提升了算法的識別率。語義距離的計算主要是為了訓(xùn)練分類器,最終分類結(jié)果為積極的消費(fèi)意圖(P)、消極的消費(fèi)意圖(N)、無消費(fèi)意圖(E)。本文借用標(biāo)準(zhǔn)化谷歌語義距離,提出標(biāo)準(zhǔn)化百度語義距離,提升了算法的識別率。最后,本文改進(jìn)了Co-Class算法,設(shè)計了一種基于語義距離的遷移學(xué)習(xí)算法(EM Method based on Semantic Distance, S-EM)(記為S-EM算法,下同),給出了算法框架,設(shè)計仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性。

1 基于語義距離的遷移學(xué)習(xí)框架

本章節(jié)提出一種基于語義距離的遷移學(xué)習(xí)框架,用以研究跨領(lǐng)域中文短文本消費(fèi)意圖探測識別。本章節(jié)從基于信息增益算法的文本特征選擇、基于微博特有特征的文本特征選擇、基于EM算法的遷移學(xué)習(xí)、文本語義距離的計算方法四個方面展開,最終給出基于語義距離的遷移學(xué)習(xí)框架算法,用以研究跨領(lǐng)域中文短文本消費(fèi)意圖的探測識別。

1.1 基于信息增益算法的文本特征選擇

通過比較不同特征的信息增益,可以有效地選擇更為重要的語料特征,從而為后續(xù)的遷移學(xué)習(xí)算法提供基礎(chǔ)支撐。

1.2 基于微博特有特征的文本特征選擇

考慮到現(xiàn)在中文微博平臺的自身特有特征,對于文本選擇具有重要的意義。可以考慮的特有特征有:

FEATURE1:對于微博而言,“@”通常表示喊話某人,對于消費(fèi)意圖的識別沒有幫助;而“#”通常包含某條標(biāo)簽,有無標(biāo)簽對于消費(fèi)意圖的識別也沒有特別大的影響,將“#”和“@”包含的標(biāo)簽刪除是一個比較有效的特征選擇方法。

FEATURE2:微博用戶通常會帶有“學(xué)生”“IT”“北京”等標(biāo)簽,這些用戶自身的標(biāo)簽,對于文本的分類以及用戶活躍性的判斷有重要的作用,所以可以將這些用戶標(biāo)簽用于特有特征的甄別。

FEATURE3:由于微博用戶發(fā)表消息時并不會認(rèn)真檢查文本內(nèi)容,對于海量文本信息,輸入法導(dǎo)致的錯別字幾乎不可避免,通過對人名、地名以及動詞“買”“賣”等關(guān)鍵詞轉(zhuǎn)化為拼音可以一定程度上減少錯別字帶來的影響。

1.3 基于EM算法的遷移學(xué)習(xí)

Nigram等人將最大期望算法(Expectation Maximization, EM)與樸素貝葉斯算法(Naive Bayes, NB)結(jié)合作為遷移學(xué)習(xí)的算法[2],可以有效地提升分類器模型的有效率。本文采用的遷移學(xué)習(xí)框架基于EM算法,這里簡要介紹一下EM算法的基本原理:

STEP1:初始化參數(shù)[θ],開始迭代過程;

STEP2:對迭代過程求期望,記[θi]是第[i]次迭代后參數(shù)[θ]的值,在下一次迭代,即[i+1]次迭代,計算參數(shù)的期望:

其中,[DL]為標(biāo)注數(shù)據(jù),[DU]為隱含數(shù)據(jù),聯(lián)合分布為[PDL,DU|θ],條件分布為[PDU|DL,θ],而[PDU|DL,θi]是在給定標(biāo)注數(shù)據(jù)[DL]和當(dāng)前迭代次的參數(shù)[θi]下的數(shù)據(jù)[DU]的條件概率分布。

STEP3:最大化期望,求[Qθ,θi]最大化的參數(shù)[θ],并求得第[i+1]次迭代過程后參數(shù)[θ]的估計值[θi+1]:

STEP4:重復(fù)步驟2和步驟3直至算法收斂。

1.4 文本語義距離的計算方法

Cilibrasi等人提出,將消費(fèi)意圖整個網(wǎng)絡(luò)當(dāng)作一個詞庫性質(zhì)的數(shù)據(jù)庫,利用搜索引擎,例如Google或者Baidu,用以衡量網(wǎng)絡(luò)中任意兩個詞匯的相似程度[3]。提出了一種新的距離模式,叫作標(biāo)準(zhǔn)化谷歌距離(Normalized Google Distance, NGD),計算任意兩個詞匯[w1]和[w2]的谷歌距離:

對于中文文本而言,使用Baidu搜索引擎計算文本語義距離更為適合本土化語言的特點(diǎn)。本文定義了標(biāo)準(zhǔn)化百度距離(Normalized Baidu Distance, NBD),用于計算中文詞匯的文本距離。

2 實(shí)驗(yàn)

本章節(jié)主要根據(jù)提出的基于語義距離的遷移學(xué)習(xí)框架,對比其他學(xué)習(xí)算法,通過實(shí)驗(yàn)仿真,證明基于語義距離的遷移學(xué)習(xí)框架可以有效提升消費(fèi)意向探測以及識別的準(zhǔn)確率。這里需要說明的是,仿真實(shí)驗(yàn)的初始數(shù)據(jù)經(jīng)過了基礎(chǔ)的數(shù)據(jù)處理過程,以消除語料錯誤對于算法識別率的影響。

2.1 算法特征有效性實(shí)驗(yàn)

準(zhǔn)確率和召回率是目前應(yīng)用于信息檢索領(lǐng)域和統(tǒng)計學(xué)分類領(lǐng)域的兩個主要度量值,反映了檢索系統(tǒng)實(shí)驗(yàn)結(jié)果的質(zhì)量。實(shí)驗(yàn)采用的微博文本特征設(shè)置如下表1所示。

2.2 算法特征有效性實(shí)驗(yàn)

使用本文提出的基于語義距離的遷移學(xué)習(xí)算法S-EM進(jìn)行仿真實(shí)驗(yàn),選擇最優(yōu)的特征。實(shí)驗(yàn)結(jié)果如下所示。

根據(jù)上表所示,比較不同維度后的實(shí)驗(yàn)數(shù)據(jù),主要對比F值,可以得到以下兩條結(jié)論:

結(jié)論1:三詞(trigram)特征整體比雙詞(bigram)性能要好;

結(jié)論2:3000維的搭配性能要強(qiáng)于1000維和5000維的搭配。

2.2 拼音特征搭配實(shí)驗(yàn)

使用單詞模型(unigram)將本文分詞轉(zhuǎn)化為拼音,設(shè)置1000維、1500維以及2000維三種類型,對比F值,實(shí)驗(yàn)結(jié)果如下表4所示。

根據(jù)上表所示,比較不同維度后的實(shí)驗(yàn)數(shù)據(jù),主要對比F值,可以得到以下一條結(jié)論:

結(jié)論3:3000維trigram與1500維拼音特征搭配性能要好。

3 結(jié)束語

本文提出了一種基于語義距離的遷移學(xué)習(xí)算法,通過不同條件下的仿真實(shí)驗(yàn),可以認(rèn)為三詞(trigram)特征整體比雙詞(bigram)性能要好;3000維的搭配性能要強(qiáng)于1000維和5000維的搭配;3000維trigram與1500維拼音特征搭配性能要好。通過設(shè)置相同的仿真條件和語料,可以證明本文提出的S-EM算法的性能略微優(yōu)于Co-Class算法。適用于微博等短文本媒體平臺,對于博客等長文本消費(fèi)意圖的識別將成為下步研究的重點(diǎn)。

參考文獻(xiàn):

[1] 賈云龍,韓東紅,林海原等.面向微博用戶的消費(fèi)意圖識別算法[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2020(1):68-74.

[2] 盧晨陽,康雁,楊成榮等.基于語義結(jié)構(gòu)的遷移學(xué)習(xí)文本特征對齊算法[J].計算機(jī)工程,2019, 45(05):116-121.

[3] 魯強(qiáng),劉興昱.基于遷移學(xué)習(xí)的知識圖譜問答語義匹配模型[J].計算機(jī)應(yīng)用,2018, 38(07):1846-1852.

【通聯(lián)編輯:張薇】

主站蜘蛛池模板: 成人在线天堂| 成人中文字幕在线| 亚洲国产成人久久精品软件| 成人国产一区二区三区| 色亚洲激情综合精品无码视频| 亚洲福利视频一区二区| 欧美国产日韩一区二区三区精品影视| 亚洲精品另类| 99国产在线视频| 制服无码网站| 午夜少妇精品视频小电影| 国产成人艳妇AA视频在线| 日韩欧美中文在线| 久久综合九色综合97婷婷| 亚洲男人的天堂在线观看| 福利国产微拍广场一区视频在线| 在线免费a视频| 强乱中文字幕在线播放不卡| 无码人中文字幕| 亚洲最大福利网站| 性色生活片在线观看| 爱色欧美亚洲综合图区| 97人妻精品专区久久久久| 精品国产毛片| 看看一级毛片| 国产成人综合日韩精品无码不卡| 国产在线视频欧美亚综合| 国产av色站网站| 精品国产污污免费网站| 国产亚洲美日韩AV中文字幕无码成人| 亚洲国产综合自在线另类| 欧美国产综合视频| 久久这里只有精品2| 亚洲无码高清一区| 亚洲人成网站日本片| 一级毛片免费播放视频| 免费一级无码在线网站 | 免费午夜无码18禁无码影院| 国产又爽又黄无遮挡免费观看| 国产精品黄色片| 亚洲欧美日韩另类在线一| 精品无码一区二区三区电影| 欧美一区二区三区香蕉视| 欧美在线视频不卡第一页| AV不卡国产在线观看| 重口调教一区二区视频| 成年人国产视频| 欧美第九页| 国产日韩精品一区在线不卡| 国产精品观看视频免费完整版| 在线精品视频成人网| 极品国产一区二区三区| 2021国产v亚洲v天堂无码| 99热最新网址| 天天躁日日躁狠狠躁中文字幕| 乱色熟女综合一区二区| 国产在线精彩视频二区| 欧美高清视频一区二区三区| 91色老久久精品偷偷蜜臀| 国产乱子伦手机在线| 国产精品.com| 亚洲精品中文字幕午夜| 无码国内精品人妻少妇蜜桃视频| 色综合手机在线| 麻豆精品在线| 国产网站黄| 久久中文字幕av不卡一区二区| 国产麻豆福利av在线播放| 毛片大全免费观看| 欧美日韩导航| 亚洲无码熟妇人妻AV在线| 91精品人妻一区二区| 欧美亚洲国产一区| 日韩高清一区 | 国产肉感大码AV无码| 国产欧美日本在线观看| 91区国产福利在线观看午夜 | 精品视频一区二区三区在线播| 亚洲成人黄色网址| 国产在线视频福利资源站| 色妞www精品视频一级下载| 日韩不卡高清视频|