999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合深度神經(jīng)網(wǎng)絡(luò)的作者識別系統(tǒng)設(shè)計(jì)

2020-01-03 08:59:22郭旭
現(xiàn)代計(jì)算機(jī) 2019年33期
關(guān)鍵詞:可視化深度特征

郭旭

(大連外國語大學(xué)語言智能研究中心,大連 116044)

0 引言

隨著人工智能時(shí)代的到來,使計(jì)算機(jī)“理解”文本的寫作風(fēng)格成為了自然語言處理領(lǐng)域的熱點(diǎn)研究方向,而如何根據(jù)寫作風(fēng)格識別出匿名文本的作者,即匿名文本的作者識別,是這一研究方向主要解決的問題。在實(shí)際應(yīng)用中,作者識別可以用于輿情分析、作者文體風(fēng)格分析和學(xué)術(shù)不端檢測等領(lǐng)域,具有重要的實(shí)際應(yīng)用價(jià)值。

在給定一個(gè)匿名文本t和作者候選集A={a1,a2,…,an}后,匿名文本的作者識別要解決的問題是[1,2]:為匿名文本t指定一個(gè)最可能的作者a*,其中a*屬于A。當(dāng)使用作者書寫的文本表征作者時(shí),作者候選集A={T1,T2,…,Tn},其中Tx為作者ax書寫的文本集,匿名文本的作者識別轉(zhuǎn)換為:為匿名文本t指定一個(gè)最可能的文本集T*,也就是將匿名文本t分類給最可能的文本類別,屬于典型的文本分類問題。

為了解決匿名文本的作者識別問題,文本設(shè)計(jì)完成了支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的作者識別系統(tǒng),該系統(tǒng)功能完備,不僅可以完成大多數(shù)主流機(jī)器學(xué)習(xí)算法和特征工程算法,還能以可視化的方式呈現(xiàn)識別結(jié)果。此外,本文采用的基于多特征融合深度神經(jīng)網(wǎng)絡(luò)的作者識別方法,可將特征工程與深度神經(jīng)網(wǎng)絡(luò)結(jié)合到一起,充分發(fā)揮兩者的優(yōu)勢。

1 研究現(xiàn)狀

目前,作者識別的研究方法主要有基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法兩類。

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法通過特征工程技術(shù)提取作者的寫作風(fēng)格特征,將一段匿名文本轉(zhuǎn)換為作者寫作風(fēng)格特征矩陣,構(gòu)建寫作風(fēng)格特征模型。如祁等人[3]使用包括句法結(jié)構(gòu)樹和依存關(guān)系在內(nèi)的多層面文體特征,將作者文體風(fēng)格轉(zhuǎn)換為多層面特征模型,針對15位作者的10895篇博客進(jìn)行識別,取得了較好的實(shí)驗(yàn)效果;李等人[4]使用復(fù)雜網(wǎng)絡(luò)理論,將文本視作一個(gè)復(fù)雜網(wǎng)絡(luò)提取路徑長度等復(fù)雜網(wǎng)絡(luò)特征,并與文本統(tǒng)計(jì)特征相結(jié)合,構(gòu)建基于復(fù)雜網(wǎng)絡(luò)的特征模型,針對多名記者撰寫的25542篇新聞報(bào)道進(jìn)行識別,也取得了較好的實(shí)驗(yàn)效果。

基于深度學(xué)習(xí)的方法通常將一句話或多句話直接作為輸入,通過深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)文本的寫作風(fēng)格特征,這樣可以最大限度的保留句子之間的特征。基于深度學(xué)習(xí)的方法往往可以獲得比傳統(tǒng)方法更高的評價(jià)指標(biāo),但由于作者的寫作風(fēng)格特征是由深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)得來的,因此深度神經(jīng)網(wǎng)絡(luò)提取的特征往往難以解釋,這在一定程度上限制了基于深度學(xué)習(xí)的方法的實(shí)際應(yīng)用效果。如Prasha等人[5]采用卷積神經(jīng)網(wǎng)絡(luò)識別Tweet短篇幅文本的作者,準(zhǔn)確率高于傳統(tǒng)方法6個(gè)百分點(diǎn)左右;徐曉霖等人[6]采用卷積神經(jīng)網(wǎng)絡(luò)與長短時(shí)記憶網(wǎng)絡(luò)相結(jié)合的方法構(gòu)建深度神經(jīng)網(wǎng)絡(luò),針對新浪微博中的10位作者共計(jì)10000篇的微博進(jìn)行作者識別,取得了較好的實(shí)驗(yàn)效果。

2 系統(tǒng)設(shè)計(jì)

2. 1 系統(tǒng)組成

作者識別系統(tǒng)的主要功能是識別匿名文本的作者,由數(shù)據(jù)集管理、文本預(yù)處理、自然語言處理、特征表示、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和可視化七個(gè)模塊組成,如圖1所示。

圖1 作者識別系統(tǒng)模塊圖

(1)數(shù)據(jù)集管理模塊。該模塊主要負(fù)責(zé)候選作者文本集的管理,包括增、刪、改、查候選作者文本集等功能。

(2)文本預(yù)處理模塊。該模塊主要負(fù)責(zé)文本的預(yù)處理,包括文本清洗、文本分割、文本聯(lián)合等功能。

(3)自然語言處理模塊。該模塊主要負(fù)責(zé)文本的基本自然語言處理,借助斯坦福自然語言處理工具包[7]和Han自然語言處理工具包[8]等開源工具包設(shè)計(jì)完成,包括分詞、詞性標(biāo)注、句法分析和依存關(guān)系分析等功能。

(4)特征表示模塊。該模塊主要負(fù)責(zé)提取文本的寫作風(fēng)格特征,構(gòu)建文本的寫作風(fēng)格特征模型,包括功能詞特征、標(biāo)點(diǎn)符號特征和字/詞N-Gram特征等。

(5)傳統(tǒng)機(jī)器學(xué)習(xí)模塊。該模塊主要負(fù)責(zé)傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),借助scikit-learn機(jī)器學(xué)習(xí)工具包設(shè)計(jì)完成,包括樸素貝葉斯、最近鄰和支持向量機(jī)等算法的實(shí)現(xiàn)。

(6)深度學(xué)習(xí)模塊。該模塊主要負(fù)責(zé)深度學(xué)習(xí)算法的實(shí)現(xiàn),借助TensorFlow和Keras等開源工具包設(shè)計(jì)完成,包括循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、帶有注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)、Transformer[9]、BERT[10]和XLNet[11]等算法的實(shí)現(xiàn)。

(7)可視化模塊。該模塊主要負(fù)責(zé)以可視化的形式輸出作者識別的評價(jià)指標(biāo)。借助Matplotlib工具包設(shè)計(jì)完成,包括文本集統(tǒng)計(jì)信息可視化、作者寫作風(fēng)格特征可視化、作者識別評價(jià)指標(biāo)可視化等功能。

2. 2 系統(tǒng)流程

本文設(shè)計(jì)的作者識別系統(tǒng),運(yùn)行流程圖如圖2所示,包括5個(gè)步驟。

圖2 作者識別系統(tǒng)流程圖

(1)添加文本。選擇添加待識別文本或從候選作者文本集中選擇訓(xùn)練文本。此外通過數(shù)據(jù)集管理模塊,可以管理候選作者文本集。

(2)文本預(yù)處理。清洗文本并生成樣本。

(3)自然語言處理。選擇需要進(jìn)行的自然語言處理,包括分詞、詞性標(biāo)注、分句、句法樹分析和依存關(guān)系分析等。

(4)提取作者寫作風(fēng)格特征。包括字符統(tǒng)計(jì)特征、詞匯統(tǒng)計(jì)特征和句子結(jié)構(gòu)統(tǒng)計(jì)特征等。

(5)選擇傳統(tǒng)機(jī)器學(xué)習(xí)方法或深度學(xué)習(xí)方法。如果選擇深度學(xué)習(xí)方法執(zhí)行步驟①,否則執(zhí)行步驟②。

①訓(xùn)練深度學(xué)習(xí)模型,并識別作者。

②訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)模型,并識別作者。

(6)結(jié)果可視化。以可視化的形式,顯示評價(jià)指標(biāo)。

3 實(shí)驗(yàn)結(jié)果

本文選擇13位作者共計(jì)31部作品構(gòu)建候選作者文本集,作品包括小說、散文和網(wǎng)絡(luò)文本三種體裁,其中,同一作者書寫的網(wǎng)絡(luò)文本按一部作品計(jì)算。小說和散文刪除了首行縮進(jìn)、標(biāo)題和換行符、超鏈接等非作者原文中出現(xiàn)的特殊符號,網(wǎng)絡(luò)文本刪除了轉(zhuǎn)發(fā)、@和超鏈接等內(nèi)容,以求最大限度的保留作者的寫作風(fēng)格。本文按照512字長,將每部作品分割為多個(gè)文本塊,每位作者隨機(jī)抽取100個(gè)文本塊,共計(jì)1300個(gè)文本塊,作為候選作者文本集。

本文采用多特征融合深度神經(jīng)網(wǎng)絡(luò)的方法識別作者,與典型的深度神經(jīng)網(wǎng)絡(luò)方法相比較,該方法除了將完整的文本塊作為輸入外,還融合了字符統(tǒng)計(jì)特征、詞匯統(tǒng)計(jì)特征和句子結(jié)構(gòu)統(tǒng)計(jì)特征,具體如下:

字符統(tǒng)計(jì)特征:所有字符個(gè)數(shù)、中文字符個(gè)數(shù)、數(shù)字字符個(gè)數(shù)、字母個(gè)數(shù)、空符號個(gè)數(shù)、特殊符號個(gè)數(shù)、標(biāo)點(diǎn)符號個(gè)數(shù)、不同標(biāo)點(diǎn)符號個(gè)數(shù)。

詞匯統(tǒng)計(jì)特征:所有詞個(gè)數(shù)、詞最大長度、句子最小長度、平均詞長、詞長方差、長詞個(gè)數(shù)、短詞個(gè)數(shù)、四字詞個(gè)數(shù)、詞匯豐富度。

句子結(jié)構(gòu)統(tǒng)計(jì)特征:句子總個(gè)數(shù)、句子最大長度、句子最小長度、平均長度、句長方差、長句子個(gè)數(shù)、短句子個(gè)數(shù)。

本文采用5折交叉驗(yàn)證的方法,對候選作者文本集進(jìn)行作者識別,平均識別準(zhǔn)確率達(dá)到了89.6%。

4 結(jié)語

針對匿名作品的作者識別問題,本文設(shè)計(jì)了由數(shù)據(jù)集管理、文本預(yù)處理、自然語言處理、特征表示、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和可視化七個(gè)模塊組成的作者識別系統(tǒng),該系統(tǒng)支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩類作者識別方法。最終,本文采用多特征融合深度神經(jīng)網(wǎng)絡(luò)的方法識別由13位作者,每位作者100個(gè)文本塊組成的候選作者文本集,獲得了89.6%的準(zhǔn)確率。

猜你喜歡
可視化深度特征
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
深度理解一元一次方程
基于CGAL和OpenGL的海底地形三維可視化
如何表達(dá)“特征”
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
不忠誠的四個(gè)特征
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 欧美精品亚洲二区| 国内精品视频区在线2021| 青青网在线国产| 日本a∨在线观看| 亚洲第一视频网| 久久国产精品波多野结衣| 九九这里只有精品视频| 久久人人爽人人爽人人片aV东京热| 久久久精品久久久久三级| 无码丝袜人妻| 国模粉嫩小泬视频在线观看| 国产原创第一页在线观看| AV无码无在线观看免费| 精品久久久无码专区中文字幕| 在线观看国产网址你懂的| 久久永久精品免费视频| 手机成人午夜在线视频| 国产成人精品亚洲日本对白优播| 国产va欧美va在线观看| 激情综合图区| 中文国产成人精品久久| 任我操在线视频| 国产一二三区在线| 国产日韩欧美视频| 国产激情无码一区二区免费| 色爽网免费视频| 热99re99首页精品亚洲五月天| 国产一区亚洲一区| 国模在线视频一区二区三区| 日韩最新中文字幕| 国产福利在线免费| 国产精品无码在线看| 国产91熟女高潮一区二区| 国产精品成人免费视频99| 欧美精品在线免费| 欧美在线精品怡红院| 中文字幕免费在线视频| 国产成年无码AⅤ片在线 | 黄网站欧美内射| 国产精品毛片一区| 久久午夜夜伦鲁鲁片不卡| 亚洲va欧美ⅴa国产va影院| 黄色网址免费在线| 婷婷色在线视频| 秋霞午夜国产精品成人片| 国产成人1024精品| 欧美精品不卡| 国产精品刺激对白在线| 国产主播喷水| 国产一区二区精品福利| 亚洲人成色在线观看| 亚洲综合一区国产精品| 欧美日韩高清在线| 青青青视频蜜桃一区二区| 午夜毛片免费看| 日韩精品亚洲人旧成在线| 九九免费观看全部免费视频| 国产在线观看一区精品| 精品成人一区二区三区电影| 成人一级免费视频| 福利国产微拍广场一区视频在线| 免费xxxxx在线观看网站| 欧洲一区二区三区无码| 成人在线观看不卡| 欧美午夜视频在线| 999在线免费视频| 亚洲 欧美 偷自乱 图片| 综合色在线| 91欧美在线| 在线观看欧美精品二区| 青青青国产免费线在| 久久美女精品| 狂欢视频在线观看不卡| 国产青榴视频| 亚洲AⅤ综合在线欧美一区| 成人福利在线看| 婷婷综合缴情亚洲五月伊| 在线播放国产99re| 色综合五月婷婷| 试看120秒男女啪啪免费| 久久网综合| 蜜臀av性久久久久蜜臀aⅴ麻豆|