王俊芳 韓澤峰 陳楠
摘要:在線社區已經成為許多用戶交流與獲取信息的主要場所。但是同時,很多廣告信息也充斥在許多網絡社區里。這些廣告不僅嚴重損害了社區的使用質量,使得用戶在瀏覽這些無的信息上浪費了大量時間,一些虛假廣告還有可能對普通網民的財產等方面帶來嚴重的損失。目前已經在廣告文本檢測上已經有相關研究,相應的算法也應用于實際系統。考慮到幾乎所有的在線社區廣告均包含了聯系方式,本項工作研究從檢測到的廣告文本里面提取聯系方式。我們提取了兩種算法:基于規則的算法和基于深度學習的算法。實驗表明我們的算法具備較好的性能。
關鍵詞:廣告文本;抽取;算法;深度學習
1 前言
經過網絡文本中聯系方式的抽取具有重要的意義,從我們接觸到的文獻來看,目前尚沒有專門的公開論文來探討這一問題。本文提出了兩種聯系方式抽取算法:基于規則的算法和基于深度學習的算法。同時,我們構造了一個包含7000條互聯網文本的數據集來驗證我們算法的性能。本文的貢獻主要體現在:1)我們首次研究了互聯網文本中聯系方式的抽取問題;2)我們提出了兩種有效地算法,特別是首次將深度學習應用到該問題上;3)我們提出了一種結合拼音嵌入的方式來作為深度神經網絡的輸入。
2 相關工作
2.1 深度學習
現有的深度神經網絡主要包含三種主要的架構。第一種架構是卷積神經網絡。卷積神經網絡的特點在于其每一層的特征都由上一層的局部區域通過共享權值的卷積核激勵得到。這一特點使得卷積神經網絡相比于其他神經網絡方法更適合應用于圖像特征的學習與表達。第二種架構是循環神經網絡。RNN的本質特征是在處理單元之間既有內部的反饋連接又有前饋連接,并且RNN特別適宜用于建立序列性數據,例如文本。第三種架構是前面兩種架構的融合,特別是在視頻信息處理上,通過CNN來表征單幀信息,通過RNN來建模時序信息。由于本文所處理的對象是文本,所以本文將利用RNN來作為基本架構進行算法設計。
2.2 網絡廣告文本識別
網絡廣告文本識別基本都是沿用文本分類的思路來處理。傳統文本分類一般包括特征選擇與分類器構建兩個步驟。特征選擇的方法包括信息增益、互信息等等。而深度學習廣泛應用于自然語言處理之后,一般利用字向量或者詞向量來作為最基本的特征輸入,然后利用網絡來逐步得到句子、段落甚至篇章級的特征表示,并且分類器也融入網絡之中。文本分類所采用的網絡架構既有CNN,也有RNN,也有兩者的結合。
3 本文的方法
3.1 基于語句規則的抽取
本文主要是針對中文文本中聯系方式的提取,提取類型主要分為微信,QQ,手機號碼三大類,其中微信又分為微信號和公眾號兩小類,QQ分為QQ號和QQ群號兩小類。顧名思義,基于語義規則提取即根據數據中出現的標志性詞匯來提取數據中可能的聯系方式。本文規則提取的特點在于應用了拼音函數和漢字判別函數,現在的廣告商為躲避各種屏蔽機制,往往會以標致性詞匯的諧音詞代替原來的標志性詞匯,要統計所有的標致性詞匯和其諧音詞工作量大,且往往會漏掉一部分諧音詞,現在我們通過拼音函數將9萬多的漢字翻譯成400個左右的拼音,這不僅使標致性詞匯無所遁形,并且大大的降低了規則類別的維度,從而減輕了人工查找規則的負擔和機器運行的負擔。
3.2 基于深度神經網絡的抽取
鑒于LSTM+CRF對于詞性、命名體等信息提取的良好性能,本文將該模型作為聯系方式提取的核心模型。模型訓練數據的預處理通過語義規則標注部分數據,之后將標注結果再進行人工處理,完善規則標注程序的短板,從而保證訓練出的模型在有限條件下效果最佳。標注好的數據分為訓練集和測試集,實驗中我們選取了漢字,漢字拼音,詞性,以及對應的標簽四個特征(其中標簽必選),并對其進行了不同的組合方式對模型進行了訓練,其中包括基于(漢字,漢字拼音,標簽),(漢字,詞性,標簽),(漢子拼音,詞性,標簽)三種特征方式的LSTM模型以及三種特征方式的GRU模型。
4 實驗數據及評價指標
4.1 實驗數據
本文選取的數據為一游戲相關數據,其中大多包含了游戲金幣鉆石買賣,戰盟拉人等相關聯系方式,其中主要包括QQ,QQ群,微信,微信公眾號,手機號碼這五類聯系方式。本次實驗的數據量為7442,其中1000條作為測試集,其余6442條數據作為訓練集。
4.2 評價指標
本文主要考慮了兩類評價指標:準確率和召回率。其中準確率包括各類聯系方式的準確率以及平均準確率。對于五個小類分別有一個準確率和召回率,并且最終會有一個平均的準確率和召回率。
5 實驗結果與結論分析
在以上所提到的兩類方法的基礎上,我們對已有數據進行了實驗,以下是兩類模型在樣本容量為1000的同一測試集上作用得到的結果。
語義規則下的聯系方式提取準確率占優,其主要優勢體現在QQ和QQ群的提取,而其余的準確率均在深度學習模型里取得最優值,其中漢字,拼音,標簽為特征的模型效果最佳。
語義規則同樣占優,其主要優勢體現在QQ群和電話的提取,但其短板也尤為突出,公眾號召回率低至15.79%。除QQ群的其余聯系方式的召回率均在深度學習模型里取得最優值,且集中體現在漢字,拼音,標簽三種特征下的GRU模型之中。
由以上兩組數據的對比可知基于此數據集語義規則提取效果較好,漢字拼音標簽GRU模型次之,語義規則在處理純數字類型的聯系方式上效果尤為突出,但在其他類型數據上尤其是包含漢字的公眾號上效果不佳。對于深度學習模型其表現較為均衡,但在QQ和QQ群提取方面表現不突出,其原因是提取時部分QQ群錯誤提取成QQ,致使整體稍遜色于規則。基于此我們對數據集進行了分析,手機號碼和公眾號的比例與其他三類聯系方式的比例相差甚大,且QQ,QQ群占據了數據的主要部分,由此可見數據分布可能會更有利于規則提取。
6 總結
本文基于7442條中文數據,對其分別進行了基于LSTM/GRU模型和傳統語義規則提取聯系方式的實驗。傳統語義規則提取更為精準,對于適量的數據可以擬定有限的規則提取出盡可能多類別的目標數據,但對于大數據傳統語義規則離散型較強,擬定規則費時費力,且規則之間的影響會限制規則的種類,導致部分類別的數據難提取甚至漏提取;基于LSTM/GRU模型和傳統語義規則相比提取更具有連續性,學習規則也更具有主動性,在當今大數據的背景下更為適用和契合,但其也暴露出致命的難點和弊端,深度學習模型對數據的依賴性強,數據量和數據分布也有比較高的要求,所以數據擴充和怎樣高效的處理數據是當前科技環境亟需探索的一大方向。下一步還將探索更為高效的嵌入方式和網絡結構。
參考文獻:
[1]張嬙嬙,黃廷磊,張銀明.基于聚類分析的二分網絡社區挖掘[J]. 計算機應用,2015,35(12):3511-3514.
[3]艾瑞咨詢集團,《2016年中國網絡廣告行業年度監測報告簡版》
基金項目: 本文工作受國際自然科學基金支持(資助號:61673377).