王振雪,程剛,2,曹許洋,賈宇恒,劉春波
(1.華北科技學院(中國煤礦安全技術培訓中心)計算機學院,北京 101601;2.南京大學地球科學與工程學院,南京 210023)
隨著互聯網技術的迅猛發展,海量網絡資源觸手可及,新聞輿情傳播迅速,網上論壇在線評論自由開放度高,呈現出全民參與新時代網絡媒體互動交流的發展現狀。圖1為近5年我國網民規模及互聯網普及率。

圖1 2015—2020年我國網民規模及互聯網普及率
網絡跟帖評論已經成為網民互動交流、表達意見及輿論監督的重要方式,然而伴隨著追求“過度自由”的個性化時代特征,加之監督及審核制度的缺失,導致網民在行使話語權時經常出現失態現象,使網絡空間成為傳播網絡謠言、散布污言穢語、發布違法違規信息的平臺[1]。早期用戶發表評論需要人工審核通過后才能發布公開,人工方法不僅耗時耗力,且效率低下,無法滿足當前網絡刷新的時效性,更達不到用戶即時評論與在線討論的需求。基于當今互聯網傳播便捷迅速,且言論呈現復雜多樣性特征,利用多功能融合技術研究一種智能化攔截惡意的不正當評論方法,為廣大網民營造一個和諧純凈的評論與交流空間,已成為互聯網自由規范化發展的必由之路。因此,開發一種基于多功能融合的人工智能評論審核系統對在線留言與評論進行智能化檢測與處理操作是新時代互聯網發展的迫切需求。目前,基于智能化的評論審核功能已被逐漸應用于互聯網各大主流網站,諸如用戶評論情感分析、評論特征提取、主題挖掘文本分析等方法研發的安全檢測系統也被應用于互聯網各類評論審核系統[2-4]。2019年,李貝貝開展了關于《紐約時報》從傳統的人工審核評論到通過自動化技術進行篩選排序研究,結合人工進行評論管理的模式創新[5],證明該創新模式不僅大大減輕了人工審核的工作量,提升用戶評論審核的通過率,而且實現了內容盈利的模式創新。2021年,涂正維等基于機器學習對影視劇評論進行情感傾向性分析[6],受限于評論數據類型和分類器性能特點不同,所得出的分類結果準確度存在一定的差異性。因此,該方法對小規模數據會產生較好的分類效果。縱觀互聯網評論審核系統的研究現狀,均未直接將用戶心理健康識別作為一個功能模塊融入至互聯網評論的智能化審核中。因此,本文通過研發一種基于多功能融合的人工智能評論審核系統,實現準確的智能化評論審核機制,為過濾互聯網虛假異常信息和暢通評論交流提供技術支撐。表1為人工智能評論審核系統的各項核心目標。

表1 人工智能評論審核系統目標
人工智能評論審核系統(artificial intelligence comment detection system,AICDS)可用于微博、微信朋友圈、QQ空間、嗶哩嗶哩、知乎評論區內容的審核與處理。為了使得AICDS對評論語句的識別判斷精準度能夠不斷滿足互聯網詞庫迭代發展的要求,因此需通過預先爬取互聯網中各大主流網站的核心評論與留言數據,并對其進行自學習數據訓練,同時對評論審核系統算法進行優化。通過一定的功能優化與自學習后,亦可用于微信公眾號內容審核、微信轉發內容審核,以及為政府門戶網站互動內容及官微發布內容審核提供技術支持。該系統的主要工作流程為:首先通過微信提供的端口獲得需要審核的文字數據,其次進入循環中進行識別運算處理,并予以等級評定,最后通過等級劃分標準進行權限分配,授權能否發送或評論可見級別。本系統共分為四個核心功能處理模塊,圖2為該系統功能框架。

圖2 AICDS功能框架
(1)數據處理模塊。系統接收到用戶提交的數據后首先對其進行預處理操作,在該模塊中數據主動進行尋找反饋攔截,之后該模塊將對數據反饋進行分類打包,返回識別結果。
(2)心理健康識別模塊。該模塊記憶庫采用標記模式。對被識別的問題開展評論,直接進行標記。審核時,對已經存在相關標記下的發言,予以特殊處理,提高評論審核標準。
(3)人工智能與數據記憶模塊。該模塊主要實現評論的實時監控、訓練學習和預測數據庫關鍵詞語發展趨勢等功能,從而防止評論者刻意規避系統檢查。該模塊的自行緊急處理包括兩種方式:先斬后奏型(即先屏蔽再上報)、先奏后斬行(即先上報再屏蔽)。
(4)檢測及對比篩選模塊。該模塊主要用于對文字內容進行關鍵詞提取,對比篩選已有的不可發布詞庫或者不適合發布的關鍵詞庫,并進行言論評價和評級。
AICDS系統主要使用Python語言,利用jieba庫進行分詞,將文本分析成詞語列表,然后對該列表中每個詞匯的出現頻率進行統計并確定主要的關鍵詞,清洗多頻的正常詞語,隨后將剩余詞匯與系統詞庫中的“違規詞匯庫”數據進行對比,符合相似條件則攔截該詞匯的發布行為,并給出攔截原因解釋信息提示;反之則認為通過系統審核,給予放行。
鑒于中華漢字博大精深,伴隨著應用場景的不同,部分詞匯往往具有截然不同的含義。此種情況下,如何識別表達場景,智能化而非程序化的機械判斷成為該系統研發亟需突破的關鍵問題之一。AICDS系統通過人工智能推斷、數據記憶、特殊詞庫定義、特征語法習慣檢測等多功能融合方法,利用前置關聯詞匯將詞匯表達所屬場景納入數據處理分析中,實現更為精準的智能化審核授權機制。圖3展示了該系統優化前后針對應用場景做出的智能判斷識別處理結果。對于“干得漂亮”一詞,本身有夸贊之意,但若將該詞運用于負面場景或人物之中便會產生有損社會風氣的行為結果,十分不利于社會文明的發展。通過AICDS系統的智能化檢測實現了潛規詞語的自過濾,為營造風清氣正的互聯網環境提供了技術保障。

圖3 AICDS優化前后場景識別對比
本文介紹了一個基于Python語言結合機器學習算法的人工智能評論審核系統,旨在對網絡中污言穢語的精準識別并進行審核攔截反饋,為營造良好的網絡評論交流環境做出技術保障。通過建立數據處理模塊、心理健康識別模塊、人工智能與數據記憶模塊以及檢測及對比篩選模塊多功能融合的人工智能評論審核系統,實現了多重審查和智能審核的交叉互補,提高了審核結果的精準性。該系統能夠較好的實現對惡意評論、不當言論的審查過濾功能,且對于諧音詞、藏頭詩等不明顯詞匯以及詞語不同使用場景的不同含義均可做出判斷識別,為新時代互聯網評論與留言互動的審核提供了一種創新方法。
然而,隨著大數據和人工智能的不斷深入融合,未來基于大數據的評論即時性自檢測技術將引領互聯網評論審核系統進入一個全新的時代,下一步將在本文研究的基礎上,結合大數據、關聯規則、模糊算法與語義分析技術開展跨領域、網紅詞和多語義的聯合分析,融合權重分配方法進行深度優化分析研究評論審核的即時精準自檢測技術。