999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的文本語義分析系統(tǒng)

2022-06-01 02:08:02李政翰劉云鵬通信作者吳飛凡李士杰
信息記錄材料 2022年4期
關(guān)鍵詞:語義分類文本

薛 毅,李政翰,王 斌,劉云鵬(通信作者),孫 東,吳飛凡,李士杰,肖 遙,王 勝

(1 佳木斯大學(xué)信息電子技術(shù)學(xué)院 黑龍江 佳木斯 154007)

(2 廣西科技大學(xué)電氣電子與計算機科學(xué)學(xué)院 廣西 柳州 545006)

0 引言

互聯(lián)網(wǎng)時代的飛速發(fā)展,產(chǎn)生了大量的數(shù)據(jù),在新聞、金融、互聯(lián)網(wǎng)等行業(yè)中,大都是單一地使用數(shù)學(xué)方法來對文本進行分類和語義分析,分類效率比較低,耗費的時間比較長,如何找到分類效率高的方法成了許多學(xué)者研究的重要課題。1958年,HP.Luhn首次將頻率計算引入語義分析,開創(chuàng)了文本語義分析的先河。與此同時,Maron 和Kuhn開發(fā)了第一個自動文本語義分析工具,成了將其分離為獨立研究項目的先驅(qū)[1]。但HP.Luhn 和Kuhn 只是簡單地用數(shù)學(xué)方法統(tǒng)計每個詞出現(xiàn)的概率,分類效率也比較低。1981 年,我國的侯漢清教授首次研究了文本分類的應(yīng)用,并構(gòu)想出了許多未來發(fā)展的觀點。1999 年,鄒濤還創(chuàng)造了一些與文本語義相關(guān)的重要方法,如相應(yīng)的模型、提取主干和字典,相比之前的研究更加系統(tǒng)化,但是效率還是不夠高[2]。我們基于傳統(tǒng)文本語義分析,加入了卷積神經(jīng)網(wǎng)絡(luò),綜合各個分類方法的優(yōu)點,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的文本語義分析系統(tǒng),可以解決海量文本分類效率低的問題。

1 系統(tǒng)研究現(xiàn)狀

1.1 機器學(xué)習(xí)研究現(xiàn)狀

探索如何模仿或者學(xué)習(xí)人類舉動是機器學(xué)習(xí)的一個方向,它能讓機器獲得全新的知識和技能,并重新梳理知識體系,進一步提高性能[3]。機器學(xué)習(xí)是人工智能的核心,是實現(xiàn)計算機智能化的根本途徑。它被廣泛應(yīng)用于人工智能的各個領(lǐng)域,主要使用歸納、綜合而不是解釋。

機器學(xué)習(xí)是互聯(lián)網(wǎng)AI 探索中比較重要的一個模塊。其發(fā)展過程可分為4 個階段:第1 階段是從1955 年到1965 年,屬于飛速發(fā)展的蓬勃時期。第2 階段是從1965年到1975 年,被稱為機器學(xué)習(xí)的平穩(wěn)時期。第3 階段是從1975 年到1985 年,這稱為機器學(xué)習(xí)發(fā)展穩(wěn)中向好的回暖時期。

1.2 文本語義分析研究現(xiàn)狀

按照自然語言的構(gòu)成層次——詞語、句子和篇章,分析各層語義分析的內(nèi)涵、現(xiàn)有的研究策略、理論依據(jù)及存在的主要方法,并對現(xiàn)存的兩類主要研究策略進行對比分析。詞的語義分析是指確定詞的意思,測定兩個詞之間意思的類似度和相關(guān)度[3]。語義分析研究包括兩個方面:語義分析和語義相似度分析。文章的語義分析是識別文章的意義、主題、范疇等相關(guān)信息的過程。目前,自然語言語義分析的研究主要有兩種策略,一個是基于統(tǒng)計的語義分析,另一個是基于語義學(xué)理論的文本語義分析,兩種策略都有各自的特點。

1.2.1 基于統(tǒng)計的文本語義分析

當(dāng)前典型的大范圍文本語義分析研究大多數(shù)以交叉驗證法為根基。該方法是基于數(shù)學(xué)理論,如線性代數(shù)、矩陣?yán)碚?、統(tǒng)計和概率論,將文本視為由獨立單詞(即文章是一組單詞)組成的單詞包,然后基于詞的統(tǒng)計信息,將大量文本中詞與詞或者詞與文本之間可能存在的關(guān)系進行呈現(xiàn)和分析,在此基礎(chǔ)上,分析文本集合中隱藏的主題、詞與文本之間的潛在語義結(jié)構(gòu)等語義信息。有代表性的方法包括潛在語義分析(LSA)、概率潛在語義分析(PLSA)和隱式Dirichlet 賦值(LDA)。

1.2.2 基于語義學(xué)理論的文本語義分析

目前,文本語義學(xué)的語義學(xué)理論可用于概念語義學(xué)和概念層次語義學(xué),最有代表性的是框架語義學(xué)[4]。框架語義學(xué)是美國學(xué)者在20 世紀(jì)70 年代提出的一種經(jīng)驗語言,它提供了一種描述意義和語法結(jié)構(gòu)的方法。該框架指的是符合特定動機背景的結(jié)構(gòu)化處理手段。例如,“網(wǎng)上購物”一詞激活了一種行為模式,即購物流程,其中包括產(chǎn)品搜索、下單、支付和物流等連續(xù)事件。語義框架表示的是許多參加者、環(huán)境條件和其他被稱為框架元素的相關(guān)角色,與框架概念有一定的相關(guān)性。

1.3 系統(tǒng)的整體框架

系統(tǒng)的整體框架見圖1。

從圖1 可以看出,整個文本語義分析系統(tǒng)被劃分成5個模塊:預(yù)處理模塊、特征處理模塊、格式轉(zhuǎn)換模塊、分類器模塊和分類結(jié)果模塊。每個模塊都有各自的處理流程。整體來講,文本語義分析的大概流程如下。

(1)將訓(xùn)練文本進行分詞處理和去停用詞處理,在這里設(shè)計了兩種分詞方法,分別針對不同的文本內(nèi)容來進行。

(2)將文本特征向量輸入分類器對文本實行分類,即使用不同的文本模型對文本進行測試,從而得到最終的分類成果。

(3)將分類結(jié)果進行全面的分析,最終得到想要的答案。

2 文本分類器的訓(xùn)練

2.1 文本訓(xùn)練方法

文本訓(xùn)練過程是構(gòu)建分類器的過程,是文本語義分析系統(tǒng)的核心。系統(tǒng)原型主要針對本項目設(shè)計的支持向量機和簡單Bayes 分類器,因此分別建立支持向量機和簡單Bayes 分類器是必要的[4]。對此,需要將IT 域中的矢量化訓(xùn)練集文本輸入支持向量機分類器,分類后得到各類別的分類結(jié)果。學(xué)習(xí)特定的文本模型是分類操作的重要步驟,是完成文本分類的首要手段。根據(jù)學(xué)習(xí)的模型對尚未明確的文本實施分類后,分類器可以獲得相應(yīng)的分類結(jié)果,結(jié)束整個分類過程。以下是兩種文本訓(xùn)練方法,包括基于統(tǒng)計學(xué)習(xí)理論的支持向量機和貝葉斯分類。

基于統(tǒng)計學(xué)習(xí)理論的支持向量機避開了舊分類算法中樣本數(shù)量不可控制的問題。它具有較好的泛化性能和明顯的準(zhǔn)確率優(yōu)勢。支持向量機(SVM)算法基于VC 維理論和統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原理。它將原始數(shù)據(jù)集壓縮為一組支持向量,而后應(yīng)用該子集來學(xué)習(xí)新內(nèi)容。同時給出這些支持向量所明確的規(guī)則,可以獲得學(xué)習(xí)誤差概率的上限。它的主要思想是尋找最優(yōu)超平面[5],用以滿足分類問題和分類要求,如果一個分類問題中有k 類,k 類中的任意兩個類都可以被劃分。

貝葉斯分類是一種基于貝葉斯定理的統(tǒng)計分類方法。它可以得出各個分類的概率分布情況,并給出文本屬于特定類別的概率。在分類時,可以根據(jù)預(yù)測結(jié)果將文本劃分為概率最高的類別。樸素貝葉斯假設(shè)在包含多個特征的情況下,整體的單個特征對模型的影響?yīng)毩⒂谄渌卣?,即模型的特征互不相關(guān)。這是為了減少計算開銷而引入的模型條件獨立性假設(shè)[6]。

2.2 文本模型訓(xùn)練

文本模型訓(xùn)練時使用了卷積神經(jīng)網(wǎng)絡(luò)算法,需要提供一個Training,而評價該文本模型好壞需要提供一個Test。因此,在調(diào)用訓(xùn)練算法之前,必須將整個數(shù)據(jù)分成Training/Test 對,Training 和Test 之間沒有相同的部分。劃分?jǐn)?shù)據(jù)集時,要確認(rèn)文本模型信息以符合預(yù)期的比例呈現(xiàn),以便整體模型的先驗概率不受影響。但是僅僅使用一個Training/Test 對來完成文本模型的學(xué)習(xí)和評價是遠(yuǎn)遠(yuǎn)不夠的,因為Training 和Test 在一定概率下,數(shù)量達不到要求,并且噪聲、離散點等異常數(shù)值可能對文本分類模型產(chǎn)生影響,另外模型在一定程度上取決于不確定性的因素[7-8]。因此在有必要的時候,我們需要分別在K 個不同的Training 和Test 對上訓(xùn)練和評估模型的整體性能,K 的取值通常為10 或30。我們采用了TensorFlow 作為工具,實現(xiàn)對于文本分類模型的訓(xùn)練,之后再分別對K 個不同的數(shù)據(jù)集進行評價和效果改進。TensorFlow 最大的特點是支持不同機型設(shè)備的分散計算,在各平臺上可以自動運行模型。

在TensorFlow 中,節(jié)點的權(quán)重和偏差值作為變量存儲tf.Variable 對象。當(dāng)數(shù)據(jù)流映射調(diào)用run()函數(shù)時,這些值不會被修改。在這種情況下,需要計算兩個誤差,調(diào)節(jié)并最小化諸如權(quán)重的參數(shù)。一般計算誤差的方法很多,這里為了處理分類問題,使用交叉熵誤差。在TensorFlow中,可以調(diào)用tf.nn.softmax_cross_entropy_with_logits()函數(shù)來計算交叉熵誤差,其中我們的激活函數(shù)選擇Softmax,因此softmax-誤差函數(shù)出現(xiàn)了,獲得誤差后,下一個任務(wù)是如何最小化誤差。這里我們選擇的方法是最常用的隨機梯度下降方法,其直觀原理圖見圖2。

類似地,計算梯度下降的方法也很多,但是這里采用Adaptive MomentEstimation(Adam)優(yōu)化方法,即自適應(yīng)矩估計的優(yōu)化方法,具體來說,TensorFolow中的主要函數(shù)是tf.train.AdamOptimizer(learning_rate).minimize(loss)函數(shù)[7]。在這里,需要傳達learning_rate 參數(shù)來計算梯度時間的步長。非常方便的是,AdamOptimzer()函數(shù)封裝了梯度計算和實時更新兩個功能,即通過調(diào)用該函數(shù),不僅可以計算梯度值,而且可以將計算結(jié)果更新到所有tf。在Variables 對象中,可大幅降低編程的復(fù)雜性。

在進行實際模型訓(xùn)練之前,需要計算一次數(shù)據(jù)的batch,即處理數(shù)據(jù)的量,batch 定義在最前面。tf.placeholders 的優(yōu)點是可以用placeholders 定義的“None”參數(shù)指定次元可變batch[8]。也就是說,batch的具體大小可以在以后使用時決定。這里,在模型訓(xùn)練階段傳達的batch 較大,在測試階段可以進行一些變更,所以需要使用可變batch。之后,通過訓(xùn)練get.batches()函數(shù)獲得處理的實際文本數(shù)據(jù)。

由于針對不同的文本數(shù)據(jù),不同的模型進行分類得出的結(jié)果有可能不同,為了使得文本分類更加有效,我們將實現(xiàn)多種模型的同時分類,然后將每種模型的分類結(jié)果進行統(tǒng)計,當(dāng)所有模型中大部分?jǐn)?shù)據(jù)都指向同一個類別時,我們認(rèn)為這個文本的分類結(jié)果應(yīng)當(dāng)為該類。基于這種情況的考慮,我們將需要花一定的時間進行分類器的訓(xùn)練,從而達到良好的分類效果[9]。

3 系統(tǒng)主要功能

(1)詞性分析:分析過程對所有涉及的單詞詞性進行分類,并以不同的顏色展示分類的效果。

(2)詞性構(gòu)成比例:詞性比例構(gòu)成對已標(biāo)注的詞性進行匯總,統(tǒng)計了各個詞性在文本中所占比例。

(3)實體識別:實體識別用來識別文章當(dāng)中出現(xiàn)具有特殊意義的實體名詞,包含人名、地名、機構(gòu)名、專有名詞等。

(4)語義聯(lián)想:語義聯(lián)想是對從文本中提取出來的實體進行邏輯關(guān)聯(lián),并從全網(wǎng)獲取該實體的相關(guān)信息構(gòu)建整體關(guān)系。

(5)詞云:信息提取是對所有信息進行聚合頻次分類處理,并整合提取的信息。最終以詞云的形式顯示,根據(jù)各個詞語的顯示大小反映其重要性。

4 市場發(fā)展趨勢預(yù)測

文本整體分析技術(shù)仍然有很大的創(chuàng)新和增長空間,無論是對于新進入者還是現(xiàn)有參與者。以下是對市場發(fā)展趨勢的預(yù)測:(1)語言的多元化是主流:文本語義分析仍然以英語為主,但機器學(xué)習(xí)和機器翻譯技術(shù)的發(fā)展可以幫助我們擴展到多語言分析并使其成為常態(tài)[10]。(2)文本分析受到重視:文本分析是客戶體驗、市場研究、用戶調(diào)查、數(shù)據(jù)分析和媒體測量的重要解決方案,該領(lǐng)域供應(yīng)商競爭激烈,整體趨勢為“量化定性”,面向企業(yè)的解決方案將越來越多[10]。(3)機器學(xué)習(xí)、統(tǒng)計與語言工程并存:雖然未來屬于深度學(xué)習(xí),即回歸神經(jīng)網(wǎng)絡(luò)等技術(shù),但現(xiàn)在主流的是具有悠久歷史的語言工程方法,如語法分析、詞條網(wǎng)絡(luò)、語法規(guī)則系統(tǒng)等。目前,傳統(tǒng)與創(chuàng)新并存,百花齊放。我們不僅應(yīng)該接受機器學(xué)習(xí),還應(yīng)該把傳統(tǒng)和創(chuàng)新結(jié)合起來作為賣點。(4)機器翻譯更加成熟:人們想擁有星際迷路般的宇宙萬能翻譯機,而1950 年研究人員宣布機器翻譯要在3 至5 年內(nèi)完成,但是過了半個世紀(jì),機器翻譯依然不可靠。在大數(shù)據(jù)和機器學(xué)習(xí)技術(shù)的突進下,在今后的1 至2 年里,機器翻譯將適應(yīng)很多場景和任務(wù)的需要。

5 結(jié)語

目前,文本分析越來越受到各行各業(yè)的重視,在互聯(lián)網(wǎng)、金融、音樂等行業(yè)應(yīng)用廣泛。卷積神經(jīng)網(wǎng)絡(luò)是一種方法,一種理論,更是一個橋梁,連接文本分析和行業(yè)發(fā)展?;ヂ?lián)網(wǎng)人工智能時代,文字、語義、社交分析就像各個行業(yè)的“天眼”一樣,可以聽到來自個人、媒體、公司的聲音。公司可以從大量的網(wǎng)上數(shù)據(jù)和公司存儲的音樂、文本、視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取有助于提高決策質(zhì)量的信息。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲综合久久成人AV| 国产成人综合日韩精品无码不卡 | 国产精彩视频在线观看| 最新亚洲av女人的天堂| 97超碰精品成人国产| 波多野结衣的av一区二区三区| 99手机在线视频| 男女男免费视频网站国产| 精品亚洲国产成人AV| 久久久久青草线综合超碰| 亚洲国产精品无码AV| 亚洲福利网址| AV熟女乱| 日本三区视频| 国产香蕉在线视频| 日本久久久久久免费网络| 国产福利影院在线观看| 国产成人久视频免费| 国产精品免费入口视频| 欧美日韩在线亚洲国产人| 欧美天天干| 激情综合五月网| 午夜精品影院| 亚洲天堂.com| 国产精品久久久精品三级| 女人18毛片久久| 亚卅精品无码久久毛片乌克兰| 在线观看av永久| 国产专区综合另类日韩一区| 亚洲天堂区| 男人天堂伊人网| 国产在线精彩视频二区| 国产小视频网站| 亚洲V日韩V无码一区二区| 欧美成人区| 中国一级毛片免费观看| 欧洲精品视频在线观看| 五月丁香伊人啪啪手机免费观看| 99久视频| 欧美伊人色综合久久天天| 992tv国产人成在线观看| 国产成人精品在线| 中文字幕1区2区| 国内精品91| 五月天福利视频| 精品无码视频在线观看| 国产精品露脸视频| 网友自拍视频精品区| 国产成人啪视频一区二区三区| 99re在线视频观看| 日韩中文无码av超清| 亚洲国产系列| 亚洲Av综合日韩精品久久久| 精品色综合| 天堂在线视频精品| 国产欧美又粗又猛又爽老| 在线观看国产黄色| 国产91丝袜在线播放动漫 | 欧美成人手机在线观看网址| 国产1区2区在线观看| 欧美一级99在线观看国产| 国产激爽大片在线播放| 精品久久久久久久久久久| 一区二区偷拍美女撒尿视频| 亚洲国产精品国自产拍A| 国产91av在线| 国产区成人精品视频| 91偷拍一区| 国产精品冒白浆免费视频| 亚洲无码精品在线播放 | 国产精品第5页| 91麻豆国产视频| 自拍中文字幕| 日本91在线| 亚洲中文字幕国产av| 老司机精品99在线播放| 91国内在线视频| 亚洲AV无码乱码在线观看代蜜桃 | 午夜福利网址| 欧美一区二区精品久久久| 欧美日韩国产综合视频在线观看 | 婷婷开心中文字幕|