殷越

摘 要:隨著互聯網越來越深入生活的方方面面,越來越多的人開始積極參與互聯網上的各種互動行為。互聯網上也有越來越多的地方允許人與人之間通過文本的形式進行互動。但伴隨著文本互動行為的規模不斷擴大,也對網站的管理人員造成了逐漸增長的壓力。廣告類行為相比其他垃圾行為而言,背后有著利益進行驅動。大量的廣告信息對管理者的管理方式造成了挑戰。為了緩解這些問題,該文構造了一種規則匹配與卷積神經網絡(CNN)結合的廣告類短小文本信息識別方法,取得了較好的識別效果。
關鍵詞:CNN NLP 廣告 分類 自然語言處理
中圖分類號:TP393 文獻標識碼:A 文章編號:1672-3791(2019)01(b)-00-04
1 背景介紹
目前對此類識別短小文本信息進行識別,方法大致有3種:(1)基于語義理解的方法;(2)使用基于標簽的方法;(3)使用機器學習方法進行分類。該文主要探尋使用主流的機器學習分類技術與規則過濾方法通過自動識別廣告類文本信息解決傳統手段對于文本互動的管理問題。關于分類問題,有一些常見算法可供選擇:Naive Bayes、AdaBoost、Gradient boosting、卷積神經網絡(CNN)等。盡管文本分類是自然語言處理(NLP)領域的經典問題[1],但在實際應用中,大多數運營者仍然采用傳統的人工方式或人工方式加簡單關鍵詞進行過濾。但這種管理手段效率低下,無法及時過濾迅速產生的海量短小文本互動信息,影響互動功能的正常使用。很多論壇可能一夜之間,就被機器人發送的大量廣告信息充斥著版面。增大了用戶瀏覽和查找正常內容的困難。盡管招聘專人對論壇版面管理是個不錯的選擇,但專人成本高,負荷量大,管理困難,而且未必能在第一時間處理問題。如今,用戶生成內容成為互聯網上的重要信息來源。因此采用一些技術手段自動對用戶發出的文本內容做初步的篩選和過濾,提高網站對于文本互動中的廣告類短小文本信息的管理效率,保障互動功能的正常使用成為了迫切的需求,如圖1所示。
2 研究現狀分析
廣告類短小文本信息是指廣告類的評論、留言、或者公共板塊的即時通信信息。針對廣告類短小文本信息的自動識別現在主要有以下幾種方法:(1)采用驗證碼等方式;(2)基于關鍵詞、鏈接數量等特征的自動識別方法等。
研究人員目前對垃圾文本信息的識別做了大量的工作,取得了長足的進步,Liu等從評論、用戶行為、商品3個角度提取特征項,對非評論的無關文本以及只涉及商品品牌而無關商品本身的垃圾評論進行識別,較好地識別了英文領域中存在的無用評論,但由于中英文之間存在差異,往往英文領域的垃圾識別方法不能直接有效地應用到中文領域當中。邱云飛等及吳敏等分別從用戶行為、商品特征的顯著性以及評論是否有用等角度對垃圾評論的識別進行了研究。但以上研究大多僅僅適用于特定使用場景(例如商品評論)的廣告文本識別,很難應用到其他領域。也有人指出大部分實驗室研究數據都是小樣本,并且很多都是手動添加標簽,具有很大的誤差。大多數研究僅停留在理論、模型構建、實驗測試,數據量小主觀性強。
3 研究目的和預期成果
由研究現狀分析可見,當前的主要研究方向主要集中在對特定場景的垃圾評論分析,例如,微博和電子商務平臺,但在真實的互聯網上,還存在著大量綜合性論壇。如綜合性論壇網站百度貼吧,其有超過22500000個貼吧,用戶量超過15億。市面上也有諸多通用論壇模板,例如Crossday Discuz! Board、phpwind、Ucenter home等。在這些綜合性論壇中發布的帖子等廣告類中文短小文本信息識別與產品/微博的評論識別有很大不同:(1)綜合性論壇中一般沒有固定的話題,并且討論無關內容一般也是允許的;(2)當前的研究多要求使用用戶的歷史行為數據而不是對文本進行單獨的分析,然而一旦基于歷史行為進行分析,很容易導致同一段文本,A用戶發送的被視為廣告文本而被阻止,B用戶則未被阻止。在論壇等開放討論環境中易引起用戶的不滿。并且,對數據(諸如用戶歷史行為數據等)更多的要求會加大應用研究成果的難度。論壇與電子商務相比較而言,論壇的注冊大多是低門檻的,廣告信息發布者可以通過低成本地建立另一個賬號的方式規避對歷史行為數據的分析。同時,還存在諸多含有評論功能的小型網站/個人網站/網站模板。對于這類網站,應存在一種適配簡單、針對性不強的通用廣告類中文短小文本信息檢測方法。
因此,有必要實現一種快速高精度的識別方法,其只依賴文本內容本身進行識別,且僅需識別主要的廣告類中文短小文本即可,從而緩解人工識別時效性低、成本高的缺點。
4 規則匹配
為了對大多數廣告類中文短小文本進行初步的過濾,我們首先構造規則匹配方法進行特征建模和特征提取。
4.1 廣告類短小文本的特征建模和特征提取
對于廣告類的文本信息一般都包含一些比較明顯、獨特的關鍵詞,例如,一條廣告類的文本信息:“滿額立減不玩兒虛的,超值會員盛宴僅剩3天”,其中就包含與商業廣告非常相關的關鍵詞:“滿額立減”“會員”“超值”,這些關鍵詞對廣告類文本的識別是非常重要的特征。故根據大量的廣告類文本信息構造了關鍵詞列表,對包含此類關鍵詞頻率較高的文本信息進行初步的過濾。
一般廣告類的文本信息主要以獲取商業利益為主要目的,所以該類信息中不僅含有比較明顯、獨特的關鍵詞,并且在信息中一般還包含URL、QQ號、微信、電話號碼等聯系方式.例如,“【BV原創設計復古度假沙灘高腰V領大擺仙女網紗吊帶蓬蓬連衣裙女夏】https://m.tb.cn/h.3MpMLQ4?sm=5a7a87點擊鏈接,再選擇瀏覽器咑閞;或復·制這段描述¥BXn3bmeFCQP¥后到淘♂寳♀”“3D仙俠手游火熱內測中,上線就得極品仙器一件,永不刪檔 url.cn/ABCDEFG”。該文通過構造正則表達式來檢驗一條文本中是否存在該類信息,并結合關鍵詞頻率進行初步的過濾。
4.2 卷積神經網絡(Convolutional Neural Network)
CNN是機器學習中一類深度前饋人工神經網絡,最常用于分析視覺圖像,后來逐漸被應用于自然語言處理和文本分析。
CNN是一種模仿生物神經網絡的結構和功能的數學模型或計算模型,用于對數據所服從的真實分布函數進行估計或近似。相比傳統的神經網絡,CNN增加了一個或多個卷積層、池化層和頂端的全連接層。
從整體結構而言,CNN像常規的神經網絡一樣,大體的結構主要分為輸入層、隱層、輸出層。卷積層、池化層和全連接層都屬于隱層。卷積神經網絡的每層神經元與下一層神經元全互連,神經元之間不存在同層連接,也不存在跨層連接,如圖2所示。
卷積神經網絡作為深度學習的優秀模型有著良好的容錯能力、并行處理能力和自學能力。廣泛用于處理不清楚背景知識,不明確推理規則的問題,能夠適應具有較大缺損、畸變的樣本數據,具有良好的魯棒性和運算效率。
該文采用TensorFlow 1.9構建該文所述的CNN模型。TensorFlow是一個開源軟件庫,主要用于機器學習和深度神經網絡方面的研究,也可廣泛用于其他計算領域。它是Google基于DistBelief進行研發的第二代人工智能學習系統。
首先我們嘗試對數據使用結巴分詞進行分詞處理,采用Word2vec進行處理,用Text-CNN進行分類,但效果不佳,通過多次嘗試,我們最終選擇了Char-CNN算法。最終構建的網絡簡圖如圖3所示。
第一個網絡層是輸入層,這一層采用Word embedding的方法將詞匯索引向低維度的詞向量進行映射,起到降維作用。它本質是一個從數據中學習得到的詞匯向量表,是一種特征提取器。
卷積層有局部連通性,可以用來消除局部相關性(比如在數據集中“我”后面一定跟著“們”,那么“們”這個信息就可以被刪減)。降低數據量以準備進入全連接層。
池化層用來選取卷積結果計算后的最強特征。池化可自適應輸入寬度從而將不同長度的輸入轉化為統一長度的輸出并起到降低數據量的目的。這里采用的是最大池化。
全連接層,隱含語義表達,把上一層有用的信息提取整合。在兩個全連接層之間會進行一次dropout。它會根據一定的概率“禁用”某些神經元的發放。這種方法可以防止神經元共同適應一個特征,而迫使它們單獨學習有用的特征來緩解過擬合問題。
5 實驗結果與分析
5.1 實驗數據集
通過自行開發的一個網絡爬蟲,我們從互聯網中收集到了50000用戶互動文本信息(如評論或即時通訊聊天記錄)和50000條廣告,總數100000條。我們取正常評論和廣告各40000條組成訓練數據集。剩下的作為驗證集和測試集。
5.2 實驗環境
該文實驗采用的編程語言是Python,運行環境是Python 3.6 4Ghz Intel Core i7 16GB 2666Mhz DDR4 NVIDIA GeForce GTX 1080。
5.3 實驗結果
我們通過隨機從訓練集中抽取指定數量的樣本,進行了實驗1,比較了不同算法達到準確率所需要的訓練次數。其中Method 1是采用樸素貝葉斯實現的廣告信息過濾器,Method 2是采用Gradient boosting與決策樹結合實現的廣告信息過濾器,Method 3是該文采用的方法,但沒有加入規則過濾,如圖4所示。
深度學習在不同樣本容量下準確度均有較大的優勢,并且一直成上漲趨勢,可以推測,如果樣本量進一步增長,準確度還可以繼續提升。
將該文實驗的方法與其他主流機器學習方法實驗的分類器進行比較,進行實驗2,其中Method4是該文采用的方法并加入規則匹配,如圖5所示。
可以看出Method1、Method2在指標上基本接近,并且弱于其他方法。Method3的各項指標位居第二。而Method4也就是該文的方法在準確度、F1、正常文本準確率、正常文本查全率4個指標中都高于其他方法。
6 結語
該文的創新點在于使用了Char-CNN以及規則匹配進行短小文本的分類,探索了一種可以有效識別廣告類中文短小文本信息的方法。通過使用實際數據對比多種文本分類技術在廣告類中文短小文本信息識別的效果,該文所提出的方法在準確度上優于傳統方法。
但當樣本容量過小時,該文的方法的識別率較低,因此,下一步工作可考慮采用相應方法降低算法對訓練樣本量的要求,并結合一些其他相關技術,進一步提高算法的識別準確率。
希望未來可以繼續完善本文工作,最終將該技術應用到實際生產環境(例如綜合性論壇、論壇模板、小型網站及個人網站)中,較大地減輕了管理員的數據處理壓力,提升了管理效率。
參考文獻
[1] 田雅.社交網絡下的垃圾信息處理算法研究[D].山東師范大學,2017.
[2] 李京蔚.在線商品垃圾評論發布動機影響因素研究[J].企業技術開發,2016,35(5):72,75.