999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線社區廣告文本聯系方式的抽取研究

2018-08-19 09:26:48王俊芳韓澤峰陳楠
科學與財富 2018年23期
關鍵詞:深度學習

王俊芳 韓澤峰 陳楠

摘要:在線社區已經成為許多用戶交流與獲取信息的主要場所。但是同時,很多廣告信息也充斥在許多網絡社區里。這些廣告不僅嚴重損害了社區的使用質量,使得用戶在瀏覽這些無的信息上浪費了大量時間,一些虛假廣告還有可能對普通網民的財產等方面帶來嚴重的損失。目前已經在廣告文本檢測上已經有相關研究,相應的算法也應用于實際系統。考慮到幾乎所有的在線社區廣告均包含了聯系方式,本項工作研究從檢測到的廣告文本里面提取聯系方式。我們提取了兩種算法:基于規則的算法和基于深度學習的算法。實驗表明我們的算法具備較好的性能。

關鍵詞:廣告文本;抽取;算法;深度學習

1 前言

經過網絡文本中聯系方式的抽取具有重要的意義,從我們接觸到的文獻來看,目前尚沒有專門的公開論文來探討這一問題。本文提出了兩種聯系方式抽取算法:基于規則的算法和基于深度學習的算法。同時,我們構造了一個包含7000條互聯網文本的數據集來驗證我們算法的性能。本文的貢獻主要體現在:1)我們首次研究了互聯網文本中聯系方式的抽取問題;2)我們提出了兩種有效地算法,特別是首次將深度學習應用到該問題上;3)我們提出了一種結合拼音嵌入的方式來作為深度神經網絡的輸入。

2 相關工作

2.1 深度學習

現有的深度神經網絡主要包含三種主要的架構。第一種架構是卷積神經網絡。卷積神經網絡的特點在于其每一層的特征都由上一層的局部區域通過共享權值的卷積核激勵得到。這一特點使得卷積神經網絡相比于其他神經網絡方法更適合應用于圖像特征的學習與表達。第二種架構是循環神經網絡。RNN的本質特征是在處理單元之間既有內部的反饋連接又有前饋連接,并且RNN特別適宜用于建立序列性數據,例如文本。第三種架構是前面兩種架構的融合,特別是在視頻信息處理上,通過CNN來表征單幀信息,通過RNN來建模時序信息。由于本文所處理的對象是文本,所以本文將利用RNN來作為基本架構進行算法設計。

2.2 網絡廣告文本識別

網絡廣告文本識別基本都是沿用文本分類的思路來處理。傳統文本分類一般包括特征選擇與分類器構建兩個步驟。特征選擇的方法包括信息增益、互信息等等。而深度學習廣泛應用于自然語言處理之后,一般利用字向量或者詞向量來作為最基本的特征輸入,然后利用網絡來逐步得到句子、段落甚至篇章級的特征表示,并且分類器也融入網絡之中。文本分類所采用的網絡架構既有CNN,也有RNN,也有兩者的結合。

3 本文的方法

3.1 基于語句規則的抽取

本文主要是針對中文文本中聯系方式的提取,提取類型主要分為微信,QQ,手機號碼三大類,其中微信又分為微信號和公眾號兩小類,QQ分為QQ號和QQ群號兩小類。顧名思義,基于語義規則提取即根據數據中出現的標志性詞匯來提取數據中可能的聯系方式。本文規則提取的特點在于應用了拼音函數和漢字判別函數,現在的廣告商為躲避各種屏蔽機制,往往會以標致性詞匯的諧音詞代替原來的標志性詞匯,要統計所有的標致性詞匯和其諧音詞工作量大,且往往會漏掉一部分諧音詞,現在我們通過拼音函數將9萬多的漢字翻譯成400個左右的拼音,這不僅使標致性詞匯無所遁形,并且大大的降低了規則類別的維度,從而減輕了人工查找規則的負擔和機器運行的負擔。

3.2 基于深度神經網絡的抽取

鑒于LSTM+CRF對于詞性、命名體等信息提取的良好性能,本文將該模型作為聯系方式提取的核心模型。模型訓練數據的預處理通過語義規則標注部分數據,之后將標注結果再進行人工處理,完善規則標注程序的短板,從而保證訓練出的模型在有限條件下效果最佳。標注好的數據分為訓練集和測試集,實驗中我們選取了漢字,漢字拼音,詞性,以及對應的標簽四個特征(其中標簽必選),并對其進行了不同的組合方式對模型進行了訓練,其中包括基于(漢字,漢字拼音,標簽),(漢字,詞性,標簽),(漢子拼音,詞性,標簽)三種特征方式的LSTM模型以及三種特征方式的GRU模型。

4 實驗數據及評價指標

4.1 實驗數據

本文選取的數據為一游戲相關數據,其中大多包含了游戲金幣鉆石買賣,戰盟拉人等相關聯系方式,其中主要包括QQ,QQ群,微信,微信公眾號,手機號碼這五類聯系方式。本次實驗的數據量為7442,其中1000條作為測試集,其余6442條數據作為訓練集。

4.2 評價指標

本文主要考慮了兩類評價指標:準確率和召回率。其中準確率包括各類聯系方式的準確率以及平均準確率。對于五個小類分別有一個準確率和召回率,并且最終會有一個平均的準確率和召回率。

5 實驗結果與結論分析

在以上所提到的兩類方法的基礎上,我們對已有數據進行了實驗,以下是兩類模型在樣本容量為1000的同一測試集上作用得到的結果。

語義規則下的聯系方式提取準確率占優,其主要優勢體現在QQ和QQ群的提取,而其余的準確率均在深度學習模型里取得最優值,其中漢字,拼音,標簽為特征的模型效果最佳。

語義規則同樣占優,其主要優勢體現在QQ群和電話的提取,但其短板也尤為突出,公眾號召回率低至15.79%。除QQ群的其余聯系方式的召回率均在深度學習模型里取得最優值,且集中體現在漢字,拼音,標簽三種特征下的GRU模型之中。

由以上兩組數據的對比可知基于此數據集語義規則提取效果較好,漢字拼音標簽GRU模型次之,語義規則在處理純數字類型的聯系方式上效果尤為突出,但在其他類型數據上尤其是包含漢字的公眾號上效果不佳。對于深度學習模型其表現較為均衡,但在QQ和QQ群提取方面表現不突出,其原因是提取時部分QQ群錯誤提取成QQ,致使整體稍遜色于規則。基于此我們對數據集進行了分析,手機號碼和公眾號的比例與其他三類聯系方式的比例相差甚大,且QQ,QQ群占據了數據的主要部分,由此可見數據分布可能會更有利于規則提取。

6 總結

本文基于7442條中文數據,對其分別進行了基于LSTM/GRU模型和傳統語義規則提取聯系方式的實驗。傳統語義規則提取更為精準,對于適量的數據可以擬定有限的規則提取出盡可能多類別的目標數據,但對于大數據傳統語義規則離散型較強,擬定規則費時費力,且規則之間的影響會限制規則的種類,導致部分類別的數據難提取甚至漏提取;基于LSTM/GRU模型和傳統語義規則相比提取更具有連續性,學習規則也更具有主動性,在當今大數據的背景下更為適用和契合,但其也暴露出致命的難點和弊端,深度學習模型對數據的依賴性強,數據量和數據分布也有比較高的要求,所以數據擴充和怎樣高效的處理數據是當前科技環境亟需探索的一大方向。下一步還將探索更為高效的嵌入方式和網絡結構。

參考文獻:

[1]張嬙嬙,黃廷磊,張銀明.基于聚類分析的二分網絡社區挖掘[J]. 計算機應用,2015,35(12):3511-3514.

[3]艾瑞咨詢集團,《2016年中國網絡廣告行業年度監測報告簡版》

基金項目: 本文工作受國際自然科學基金支持(資助號:61673377).

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 欧洲日本亚洲中文字幕| 1024你懂的国产精品| 最新精品国偷自产在线| 欧美在线视频a| 丰满人妻被猛烈进入无码| 亚洲精品天堂自在久久77| 蜜桃视频一区二区| 国产亚洲精品无码专| 成人国产小视频| 五月天综合网亚洲综合天堂网| 亚洲综合色在线| 性视频久久| 亚洲 欧美 中文 AⅤ在线视频| 国产午夜精品鲁丝片| 亚洲AV成人一区国产精品| 久久77777| 三上悠亚一区二区| 国产成人你懂的在线观看| 在线观看亚洲成人| 欧美三级视频网站| 亚洲狠狠婷婷综合久久久久| 国精品91人妻无码一区二区三区| 国产精品偷伦视频免费观看国产 | 欧美精品xx| 自偷自拍三级全三级视频| 永久免费AⅤ无码网站在线观看| 亚洲欧洲日韩综合色天使| 亚洲美女久久| 四虎成人在线视频| 亚洲欧美综合精品久久成人网| 欧美日韩在线观看一区二区三区| 欧美a级在线| 国产精欧美一区二区三区| 国产日韩欧美在线播放| 国产一级二级在线观看| 亚洲精品自产拍在线观看APP| 国产精品成人不卡在线观看| 色综合天天娱乐综合网| 蜜臀AVWWW国产天堂| 国产欧美日韩免费| 在线无码九区| 精品国产成人三级在线观看| 成年A级毛片| 国产在线视频自拍| 综合社区亚洲熟妇p| 激情在线网| 亚洲浓毛av| 色综合天天操| 日本福利视频网站| 乱系列中文字幕在线视频| 91视频青青草| 国产在线一二三区| 天天综合色网| 欧美成人aⅴ| 精品无码日韩国产不卡av| 国产高清在线丝袜精品一区| 成年免费在线观看| 九色视频在线免费观看| 国产色婷婷| 欧美日韩v| 亚洲欧美日韩中文字幕一区二区三区 | 日韩二区三区无| 国产精品3p视频| 谁有在线观看日韩亚洲最新视频| 欧美一区二区自偷自拍视频| 谁有在线观看日韩亚洲最新视频 | 国产导航在线| 国产精品99一区不卡| 国产制服丝袜91在线| 99这里只有精品免费视频| Jizz国产色系免费| 中文字幕久久精品波多野结| 99久久精品久久久久久婷婷| 亚洲综合亚洲国产尤物| 91久久国产热精品免费| 亚洲无码37.| 四虎成人在线视频| 亚洲永久免费网站| 中日无码在线观看| 凹凸精品免费精品视频| 久久黄色毛片| 人妻无码中文字幕一区二区三区|