999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線社區廣告文本聯系方式的抽取研究

2018-08-19 09:26:48王俊芳韓澤峰陳楠
科學與財富 2018年23期
關鍵詞:深度學習

王俊芳 韓澤峰 陳楠

摘要:在線社區已經成為許多用戶交流與獲取信息的主要場所。但是同時,很多廣告信息也充斥在許多網絡社區里。這些廣告不僅嚴重損害了社區的使用質量,使得用戶在瀏覽這些無的信息上浪費了大量時間,一些虛假廣告還有可能對普通網民的財產等方面帶來嚴重的損失。目前已經在廣告文本檢測上已經有相關研究,相應的算法也應用于實際系統。考慮到幾乎所有的在線社區廣告均包含了聯系方式,本項工作研究從檢測到的廣告文本里面提取聯系方式。我們提取了兩種算法:基于規則的算法和基于深度學習的算法。實驗表明我們的算法具備較好的性能。

關鍵詞:廣告文本;抽取;算法;深度學習

1 前言

經過網絡文本中聯系方式的抽取具有重要的意義,從我們接觸到的文獻來看,目前尚沒有專門的公開論文來探討這一問題。本文提出了兩種聯系方式抽取算法:基于規則的算法和基于深度學習的算法。同時,我們構造了一個包含7000條互聯網文本的數據集來驗證我們算法的性能。本文的貢獻主要體現在:1)我們首次研究了互聯網文本中聯系方式的抽取問題;2)我們提出了兩種有效地算法,特別是首次將深度學習應用到該問題上;3)我們提出了一種結合拼音嵌入的方式來作為深度神經網絡的輸入。

2 相關工作

2.1 深度學習

現有的深度神經網絡主要包含三種主要的架構。第一種架構是卷積神經網絡。卷積神經網絡的特點在于其每一層的特征都由上一層的局部區域通過共享權值的卷積核激勵得到。這一特點使得卷積神經網絡相比于其他神經網絡方法更適合應用于圖像特征的學習與表達。第二種架構是循環神經網絡。RNN的本質特征是在處理單元之間既有內部的反饋連接又有前饋連接,并且RNN特別適宜用于建立序列性數據,例如文本。第三種架構是前面兩種架構的融合,特別是在視頻信息處理上,通過CNN來表征單幀信息,通過RNN來建模時序信息。由于本文所處理的對象是文本,所以本文將利用RNN來作為基本架構進行算法設計。

2.2 網絡廣告文本識別

網絡廣告文本識別基本都是沿用文本分類的思路來處理。傳統文本分類一般包括特征選擇與分類器構建兩個步驟。特征選擇的方法包括信息增益、互信息等等。而深度學習廣泛應用于自然語言處理之后,一般利用字向量或者詞向量來作為最基本的特征輸入,然后利用網絡來逐步得到句子、段落甚至篇章級的特征表示,并且分類器也融入網絡之中。文本分類所采用的網絡架構既有CNN,也有RNN,也有兩者的結合。

3 本文的方法

3.1 基于語句規則的抽取

本文主要是針對中文文本中聯系方式的提取,提取類型主要分為微信,QQ,手機號碼三大類,其中微信又分為微信號和公眾號兩小類,QQ分為QQ號和QQ群號兩小類。顧名思義,基于語義規則提取即根據數據中出現的標志性詞匯來提取數據中可能的聯系方式。本文規則提取的特點在于應用了拼音函數和漢字判別函數,現在的廣告商為躲避各種屏蔽機制,往往會以標致性詞匯的諧音詞代替原來的標志性詞匯,要統計所有的標致性詞匯和其諧音詞工作量大,且往往會漏掉一部分諧音詞,現在我們通過拼音函數將9萬多的漢字翻譯成400個左右的拼音,這不僅使標致性詞匯無所遁形,并且大大的降低了規則類別的維度,從而減輕了人工查找規則的負擔和機器運行的負擔。

3.2 基于深度神經網絡的抽取

鑒于LSTM+CRF對于詞性、命名體等信息提取的良好性能,本文將該模型作為聯系方式提取的核心模型。模型訓練數據的預處理通過語義規則標注部分數據,之后將標注結果再進行人工處理,完善規則標注程序的短板,從而保證訓練出的模型在有限條件下效果最佳。標注好的數據分為訓練集和測試集,實驗中我們選取了漢字,漢字拼音,詞性,以及對應的標簽四個特征(其中標簽必選),并對其進行了不同的組合方式對模型進行了訓練,其中包括基于(漢字,漢字拼音,標簽),(漢字,詞性,標簽),(漢子拼音,詞性,標簽)三種特征方式的LSTM模型以及三種特征方式的GRU模型。

4 實驗數據及評價指標

4.1 實驗數據

本文選取的數據為一游戲相關數據,其中大多包含了游戲金幣鉆石買賣,戰盟拉人等相關聯系方式,其中主要包括QQ,QQ群,微信,微信公眾號,手機號碼這五類聯系方式。本次實驗的數據量為7442,其中1000條作為測試集,其余6442條數據作為訓練集。

4.2 評價指標

本文主要考慮了兩類評價指標:準確率和召回率。其中準確率包括各類聯系方式的準確率以及平均準確率。對于五個小類分別有一個準確率和召回率,并且最終會有一個平均的準確率和召回率。

5 實驗結果與結論分析

在以上所提到的兩類方法的基礎上,我們對已有數據進行了實驗,以下是兩類模型在樣本容量為1000的同一測試集上作用得到的結果。

語義規則下的聯系方式提取準確率占優,其主要優勢體現在QQ和QQ群的提取,而其余的準確率均在深度學習模型里取得最優值,其中漢字,拼音,標簽為特征的模型效果最佳。

語義規則同樣占優,其主要優勢體現在QQ群和電話的提取,但其短板也尤為突出,公眾號召回率低至15.79%。除QQ群的其余聯系方式的召回率均在深度學習模型里取得最優值,且集中體現在漢字,拼音,標簽三種特征下的GRU模型之中。

由以上兩組數據的對比可知基于此數據集語義規則提取效果較好,漢字拼音標簽GRU模型次之,語義規則在處理純數字類型的聯系方式上效果尤為突出,但在其他類型數據上尤其是包含漢字的公眾號上效果不佳。對于深度學習模型其表現較為均衡,但在QQ和QQ群提取方面表現不突出,其原因是提取時部分QQ群錯誤提取成QQ,致使整體稍遜色于規則。基于此我們對數據集進行了分析,手機號碼和公眾號的比例與其他三類聯系方式的比例相差甚大,且QQ,QQ群占據了數據的主要部分,由此可見數據分布可能會更有利于規則提取。

6 總結

本文基于7442條中文數據,對其分別進行了基于LSTM/GRU模型和傳統語義規則提取聯系方式的實驗。傳統語義規則提取更為精準,對于適量的數據可以擬定有限的規則提取出盡可能多類別的目標數據,但對于大數據傳統語義規則離散型較強,擬定規則費時費力,且規則之間的影響會限制規則的種類,導致部分類別的數據難提取甚至漏提取;基于LSTM/GRU模型和傳統語義規則相比提取更具有連續性,學習規則也更具有主動性,在當今大數據的背景下更為適用和契合,但其也暴露出致命的難點和弊端,深度學習模型對數據的依賴性強,數據量和數據分布也有比較高的要求,所以數據擴充和怎樣高效的處理數據是當前科技環境亟需探索的一大方向。下一步還將探索更為高效的嵌入方式和網絡結構。

參考文獻:

[1]張嬙嬙,黃廷磊,張銀明.基于聚類分析的二分網絡社區挖掘[J]. 計算機應用,2015,35(12):3511-3514.

[3]艾瑞咨詢集團,《2016年中國網絡廣告行業年度監測報告簡版》

基金項目: 本文工作受國際自然科學基金支持(資助號:61673377).

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 国产二级毛片| 亚洲av日韩av制服丝袜| 55夜色66夜色国产精品视频| 日本www在线视频| 日日拍夜夜嗷嗷叫国产| 日本久久网站| 国产91线观看| 久久大香伊蕉在人线观看热2| 亚洲欧美成人综合| 欧美国产日韩在线播放| 日韩精品亚洲人旧成在线| 中文字幕久久亚洲一区| 国产激爽大片高清在线观看| 99热国产这里只有精品无卡顿"| 欧美色伊人| 亚洲 日韩 激情 无码 中出| 日韩精品成人网页视频在线| 在线免费不卡视频| 四虎永久在线精品影院| 日韩亚洲综合在线| 一本久道久综合久久鬼色| 久久综合AV免费观看| 国产又大又粗又猛又爽的视频| 狠狠操夜夜爽| 成人国产精品网站在线看| 国产成人禁片在线观看| www.狠狠| 婷婷六月激情综合一区| 亚洲成av人无码综合在线观看| 国产肉感大码AV无码| 亚洲人成网线在线播放va| 欧美精品高清| 午夜福利网址| 9啪在线视频| 不卡视频国产| 激情国产精品一区| 不卡视频国产| 九色视频线上播放| 久久久久无码精品| 在线观看国产精品日本不卡网| 成人另类稀缺在线观看| yjizz国产在线视频网| 色偷偷av男人的天堂不卡| 亚洲无卡视频| 欧美色视频在线| 欧美激情综合一区二区| 青青网在线国产| 成人免费视频一区| 色亚洲成人| 狼友视频一区二区三区| 欧美亚洲激情| 日韩人妻无码制服丝袜视频| 国产精品毛片一区| 国产新AV天堂| 精品无码日韩国产不卡av| 国产美女精品在线| 久久精品丝袜高跟鞋| 亚洲精品另类| 99久久人妻精品免费二区| 亚洲人成色在线观看| 啪啪国产视频| 97视频免费看| 亚洲成a人片| 人妻免费无码不卡视频| 毛片免费视频| 四虎永久免费地址| 91精品视频网站| 欧美精品伊人久久| 国产91丝袜在线播放动漫 | a免费毛片在线播放| 丁香婷婷激情综合激情| 久久国产成人精品国产成人亚洲 | 免费看a级毛片| 国产裸舞福利在线视频合集| 91精品国产91久无码网站| 欧美成人a∨视频免费观看| 亚洲无码电影| 日韩亚洲高清一区二区| 色悠久久综合| 亚洲黄色成人| 欧美一区二区精品久久久| 国产欧美日本在线观看|