999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AlphaGo算法的網(wǎng)絡(luò)媒體不良詞匯自動檢測模式研究

2018-08-29 09:40:58陳秋瑞鄭世玨陳星男楊嵐江
關(guān)鍵詞:詞匯文本語言

陳秋瑞 鄭世玨 陳 輝 陳星男 楊嵐江

(華中師范大學(xué) 武漢 430079)

1 引言

互聯(lián)網(wǎng)的出現(xiàn)與高度普及,極大地拓展了人們語言生活的空間,在為上億網(wǎng)民創(chuàng)造龐大自由的輿論市場的同時(shí),良莠不齊的語言內(nèi)容卻讓這個(gè)空間變得不再和諧,一些粗俗不堪的詞匯越來越多地出現(xiàn)在網(wǎng)絡(luò)媒體用語當(dāng)中,并以越來越高的頻率出現(xiàn)在大眾的視野中,這對整體社會風(fēng)氣產(chǎn)生了一定的負(fù)面影響,因此有必要對網(wǎng)絡(luò)出版語言進(jìn)行動態(tài)監(jiān)測以判別其是否為不良文本。

2016年AlphaGo戰(zhàn)勝世界圍棋冠軍李世石,其運(yùn)用蒙特卡洛樹搜索結(jié)合了評估網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)兩種深度神經(jīng)網(wǎng)絡(luò)方法[1],為中文信息領(lǐng)域網(wǎng)絡(luò)不良文本分類決策提供了新的理論指導(dǎo)。

當(dāng)前國內(nèi)外針對網(wǎng)絡(luò)文本不良信息的發(fā)現(xiàn)技術(shù)主要有以下四種:基于因特網(wǎng)內(nèi)容分級平臺過濾、數(shù)據(jù)庫過濾、關(guān)鍵詞過濾和基于內(nèi)容理解的過濾[2]。但是在實(shí)際應(yīng)用中,這些方法都存在各自的缺陷,也有眾多學(xué)者對該項(xiàng)技術(shù)進(jìn)行改進(jìn)與應(yīng)用。劉梅彥[3]等設(shè)計(jì)了一種采用主題信息過濾和傾向性過濾兩級過濾模式的不良文本信息過濾模型。王鐵套[4]等將文本情感分析技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情研究,針對網(wǎng)絡(luò)輿情的話題評論,語義模式和詞匯情感傾向相結(jié)合的方法判斷話題評論的情感傾向。

針對當(dāng)前研究方法的缺陷,本文結(jié)合AlphaGo算法設(shè)計(jì)思想,在對網(wǎng)絡(luò)媒體中獲取的文本進(jìn)行分詞的過程中,對分詞結(jié)果中的不良詞匯進(jìn)行篩選,建立起網(wǎng)絡(luò)媒體不良詞匯自動檢測模型,最終為網(wǎng)絡(luò)語言和語言動向檢測預(yù)警提供評估依據(jù),以抑制不文明的網(wǎng)絡(luò)語言習(xí)慣和不規(guī)范的網(wǎng)絡(luò)語言行為,為我國網(wǎng)絡(luò)語言的凈化和傳播正能量探索行之有效的道路。

2 相關(guān)技術(shù)

2.1 蒙特卡洛樹搜索

蒙特卡洛樹搜索(Monte Carlo Tree Search)是一種人工智能問題中做出最優(yōu)決策的方法,一般是在組合博弈中的行動規(guī)劃形式,它結(jié)合了隨機(jī)模擬的一般性和樹搜索的準(zhǔn)確性。MCTS受到快速關(guān)注主要是由于計(jì)算機(jī)圍棋程序的成功以及其潛在的在眾多難題上的應(yīng)用所致。超越博弈游戲本身,MCTS理論上可以被用在以{狀態(tài)(state),行動(ac?tion)}為定義的問題和用模擬進(jìn)行預(yù)測輸出結(jié)果的任何領(lǐng)域[5]。

MCTS的基本算法非常簡單:根據(jù)模擬的輸出結(jié)果,按照節(jié)點(diǎn)構(gòu)造搜索樹,其過程可以分為下面的若干步驟[6]:

1)選擇(Selection):從根節(jié)點(diǎn)R開始,遞歸選擇最優(yōu)的子節(jié)點(diǎn)知道達(dá)到葉子節(jié)點(diǎn)L;

2)擴(kuò)展(Expansion):如果L不是一個(gè)終止節(jié)點(diǎn)(即不會導(dǎo)致博弈過程結(jié)束),那么就創(chuàng)建一個(gè)或者更多的子節(jié)點(diǎn),選擇其中一個(gè)C;

3)模擬(Simulation):從C開始運(yùn)行一個(gè)模擬的輸出,直到博弈游戲結(jié)束;

4)反向傳播(Backpropagation):用模擬的結(jié)果輸出更新當(dāng)前行動序列。蒙特卡洛樹搜索過程如圖1所示。

圖1 蒙特卡洛樹搜索過程

2.2 AlphaGo中的兩個(gè)策略

阿爾法圍棋是通過兩個(gè)不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進(jìn)下棋。這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識別圖片在結(jié)構(gòu)上是相似的。它們從多層啟發(fā)式二維過濾器開始,去處理圍棋棋盤的定位,就像文本分類器進(jìn)行分類一樣。經(jīng)過過濾,13個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對它們看到的局面判斷,這些層能夠做分類和邏輯推理[7]。

阿爾法圍棋的第一個(gè)神經(jīng)網(wǎng)絡(luò)大腦是監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network),在當(dāng)前局面下判斷下一步可以往哪里走[8]。它預(yù)測每一個(gè)合法下一步的最佳概率,那么概率最高的走法可以獲得最大的期望收益;阿爾法圍棋的第二個(gè)大腦是價(jià)值網(wǎng)絡(luò)(Value Network),它的作用是學(xué)習(xí)評估整體盤面的優(yōu)劣,預(yù)測每一個(gè)棋手贏棋的可能,通過整體局面判斷來輔助落子選擇器[9]。

3 檢測模型的提出

AlphaGo中用到的諸多新技術(shù),通過將策略網(wǎng)絡(luò)、估值網(wǎng)絡(luò)和蒙特卡洛樹隨機(jī)搜索這些技術(shù)連城一個(gè)完整的系統(tǒng),使其實(shí)力有了實(shí)質(zhì)性的飛躍。考慮到網(wǎng)絡(luò)文本中不良信息的自動檢測也是一個(gè)需要盡早實(shí)現(xiàn)智能決策的過程,因此,我們將上述思想應(yīng)用到本文提出的模型中。

3.1 檢測模型

本文根據(jù)AlphaGo設(shè)計(jì)思想,將網(wǎng)絡(luò)媒體中不良詞匯的自動檢測模型分為以下過程。

第一步,“挑詞階段”。使用Python網(wǎng)絡(luò)爬蟲定向爬取微博、新聞網(wǎng)頁、論壇評論等多種類別的網(wǎng)絡(luò)出版語言內(nèi)容,針對獲取到的源碼,過濾掉無關(guān)正文的部分,提取文本,作為測試用的文本語料庫D={d1,d2,…,dn}[10]。對文本集進(jìn)行預(yù)處理,結(jié)合用戶詞典和停用詞詞典,完成分詞過程,得到分詞后的文本集合Seged_Doc;對照不良詞典BW_dic,自動檢測Seged_Doc中是否包含不良信息[11]。

第二步,“判別階段”。若沒有,則為正常文本Normal_txt;若有,找出不良信息對應(yīng)的網(wǎng)頁文本,判斷不良詞匯是否超出閾值的文本,將其標(biāo)記為待處理不良文本Bad_txt[12]。整體流程圖如圖2所示。

3.2 閾值設(shè)置

閾值的設(shè)置是十分重要的一項(xiàng)工作,閾值范圍過大會使候選詞集較為分散,不具代表性,閾值范圍過小會導(dǎo)致候選詞集過小,無法起到分類的效果[13]。在本文中,我們選擇將不良詞匯的統(tǒng)計(jì)信息超出閾值的文本判為不良文本,因此需要設(shè)置合理的閾值規(guī)則,閾值根據(jù)待發(fā)現(xiàn)新詞語料的大小變化而變化,呈正相關(guān)關(guān)系,本文選用arctan函數(shù)來選擇相應(yīng)的閾值[14~15]。

圖2 不良詞匯自動檢測模型流程圖

其中,|D|為語料庫詞語總數(shù)量,使用S型函數(shù)arctan防止閾值隨著語料庫的大小線性增長,經(jīng)驗(yàn)表明,β取50,α取10-7。

4 仿真測試

4.1 仿真實(shí)驗(yàn)

本文采用Python爬蟲技術(shù),爬取的語料,主要基于國家語委語言資源網(wǎng)[16]提供的網(wǎng)絡(luò)媒體語料,該語料庫目前匯集了國家語委19家科研機(jī)構(gòu)的48種語言資源,以及來自其他高校、研究所、社會機(jī)構(gòu)的開放的各類語言資源,包括網(wǎng)絡(luò)新聞、博客、微博、論壇四類語料,各類語料文本已近1.48億篇次,總字符數(shù)達(dá)1500億,其中漢字總數(shù)為1300億。

網(wǎng)絡(luò)爬蟲作為搜索引擎關(guān)鍵技術(shù)之一,通過分析網(wǎng)頁中的鏈接地址來尋找下載新的網(wǎng)頁。一般從網(wǎng)站的某一個(gè)頁面通常是首頁開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,將其存放在一個(gè)堆棧當(dāng)中,每次取出一個(gè)按照前面相同的方法抓取其中的鏈接,繼續(xù)放入堆棧中,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止[17]。

實(shí)驗(yàn)平臺為Win7 64位操作系統(tǒng),搭建開發(fā)環(huán)境Scrapy1.0與Python3.6。為測試本文提出的檢測模型的效果,本次實(shí)驗(yàn)共選取600份網(wǎng)頁語料,其中500份為訓(xùn)練庫,100份為測試庫。共進(jìn)行了10次實(shí)驗(yàn),每次于訓(xùn)練庫和測試庫中各取十分之一作為實(shí)驗(yàn)數(shù)據(jù)。本文實(shí)驗(yàn)所采用的傳統(tǒng)方法為關(guān)鍵詞匹配法。

對獲取到的網(wǎng)頁進(jìn)行分詞的實(shí)施,分詞過程結(jié)束之后,對照停用詞表,除去其中的停用詞。預(yù)處理過程如圖3所示。

圖3 文本預(yù)處理過程

經(jīng)過預(yù)處理的文本根據(jù)模型流程進(jìn)行自動檢測,得到的不良文本檢出率結(jié)果如表1及圖4所示。

表1 本文方法與傳統(tǒng)方法準(zhǔn)確率對比

圖4 本文方法與傳統(tǒng)方法準(zhǔn)確率對比

4.2 結(jié)果分析

傳統(tǒng)方法平均準(zhǔn)確率為81.13%,而采用本文提出的方法進(jìn)行的測試實(shí)驗(yàn)平均準(zhǔn)確率達(dá)到了88.33%,說明本文方法具有一定的改進(jìn)效果,在網(wǎng)絡(luò)文本不良詞匯的自動檢測方面有一定的優(yōu)勢。

總的來說,本文的基于AlphaGo算法思想的檢測模型要優(yōu)于傳統(tǒng)的不良文本檢測模型。

考慮到網(wǎng)絡(luò)上存在的語料之多,本文模型需要更多的數(shù)據(jù)進(jìn)行測試,下一步將擴(kuò)大語料規(guī)模,并在此基礎(chǔ)上進(jìn)一步提高算法的運(yùn)算效率。

5 結(jié)語

本文以檢測文本中的不良詞匯為目的,提出了一種基于AlphaGo算法設(shè)計(jì)思想的自動檢測模型,用于判別網(wǎng)絡(luò)出版語言是否為不良文本。從測試結(jié)果來看,相比于基于關(guān)鍵詞的匹配的方法,本文模型采用兩個(gè)階段相結(jié)合的方法,可以有效地提高文本中不良信息自動檢測的準(zhǔn)確率。

猜你喜歡
詞匯文本語言
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態(tài)分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
我有我語言
主站蜘蛛池模板: 久久伊伊香蕉综合精品| 日本精品中文字幕在线不卡| 亚洲无线国产观看| 国产精品久久久久婷婷五月| 国产美女免费| 国产尤物在线播放| 国产精品美人久久久久久AV| 91无码国产视频| 精品五夜婷香蕉国产线看观看| 亚洲第一视频网站| 中文字幕永久在线看| 十八禁美女裸体网站| 中文字幕av一区二区三区欲色| 国产又色又爽又黄| 久久熟女AV| 婷婷激情亚洲| 欧美激情第一欧美在线| 色综合激情网| 欧美色香蕉| 狠狠v日韩v欧美v| 国产91高清视频| 亚洲男人的天堂在线观看| 国产精品亚洲专区一区| 免费va国产在线观看| 99热这里只有精品国产99| 久久国产av麻豆| 不卡无码h在线观看| 亚洲天堂啪啪| 精品综合久久久久久97超人该| 亚洲国产欧美中日韩成人综合视频| 波多野结衣一级毛片| 91久久精品国产| 亚洲人成电影在线播放| 日韩精品毛片人妻AV不卡| 久久国产亚洲偷自| 热re99久久精品国99热| 国产va在线观看免费| 成人毛片免费观看| 精品一区二区三区视频免费观看| 亚洲国产成人自拍| 日本道综合一本久久久88| www.av男人.com| 伊人久热这里只有精品视频99| 亚洲欧美自拍中文| 国产亚洲高清视频| 女人18毛片一级毛片在线| 亚洲国产综合精品一区| 国产亚洲精品资源在线26u| 五月婷婷亚洲综合| 99视频国产精品| 五月婷婷伊人网| 四虎在线观看视频高清无码| 久久精品国产一区二区小说| 色噜噜狠狠狠综合曰曰曰| 国产SUV精品一区二区| 亚洲美女高潮久久久久久久| a色毛片免费视频| 毛片免费观看视频| 国产综合无码一区二区色蜜蜜| 国产精品性| 狠狠做深爱婷婷久久一区| 国产精品私拍99pans大尺度| 欧美激情网址| 国产乱码精品一区二区三区中文| 国产不卡网| 97国内精品久久久久不卡| 免费网站成人亚洲| 午夜在线不卡| www.亚洲一区二区三区| 99青青青精品视频在线| 国产精品大尺度尺度视频| 久久精品国产免费观看频道| 99成人在线观看| 成人无码区免费视频网站蜜臀| 国产情精品嫩草影院88av| 最新精品久久精品| 黄色网址免费在线| 精品国产欧美精品v| 国产一级α片| 亚洲国内精品自在自线官| 亚洲综合香蕉| 亚洲成人黄色网址|