999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強類別特征的文本相似度計算及其性能評估

2020-10-23 09:11:12劉輝
軟件工程 2020年10期
關鍵詞:機器學習

劉輝

摘 ?要:本文基于強類別特征識別算法,研究一種文本語義相似度的計算算法并對其性能進行評估。為實現該功能并形成一種通用算法,本文設計了一種基于語義識別碼的語義函數庫作為比較對象,使用兩次模糊神經元深度卷積機器學習算法模塊,并在兩次機器學習之間使用一次基于傅立葉變換的頻域特征提取的剛性算法,最終在該算法模塊前后使用外置的數據模糊算法和解模糊算法,實現了一個較復雜的機器學習通用算法。而該算法也是本文的一次技術創新。通過基于志愿者主觀評價的性能評估,發現該系統重點實現了漢語言的文本語義相似度評價,且實現了81.78%的人工判斷準確率對比結果,且只有5.52%的志愿者認為系統判斷結果與人工判斷結果完全不一致。

關鍵詞:強類別特征算法;機器學習;文本相似度;語義識別;性能評估

中圖分類號:TP309 ? ? 文獻標識碼:A

Text Similarity Calculation and Performance Evaluation

based on Strong Category Features

LIU Hui

(Information Office, University of Shanghai for Science and Technology, Shanghai 200093, China)

liu_hui@usst.edu.cn

Abstract: This paper studies the algorithm of text semantic similarity calculation and its performance evaluation, based on the recognition algorithm of strong category features. In order to realize this function and form a general algorithm, this paper designs a semantic function library based on the semantic identification code as the comparison object, uses two fuzzy neuron deep convolution machine learning algorithm modules. Between two machine learning modules, one frequency domain feature extraction rigid algorithm is used based on Fourier transform. Finally, a more complex general algorithm of machine learning is realized by using external data before and after the algorithm module. This algorithm is also a technical innovation. Through the subjective performance evaluation of volunteers, it is found that the system realizes the semantic similarity evaluation of Chinese text, and achieves 81.78% of the compared manual judgment accuracy rate, and only 5.52% of the volunteers think that the results of the system are completely inconsistent with the results of manual judgment.

Keywords: strong class feature algorithm; machine learning; text similarity; semantic recognition; performance

evaluation

1 ? 引言(Introduction)

如果單純比較文本的BIG碼串或者ASIC碼串,幾乎不可能獲得文本語義上的相似度,比如“今天是晴天。”和“It is sunny today.”兩串文本之間,如果不使用深度機器學習,很難實現對其語義的比較[1-3]。再比如“今天是晴天。”和“冬日里陽光和煦。”之間,更無法使用傳統方式對其進行語義相似度的比較。而如果單純使用任何一種神經元網絡架構對上述字符串之間進行比較,也很難實現足夠精確的文本語義相似度的比較結果[4-6]。所以,近年來基于語義函數庫和頻域特征的前置機器學習比較算法提取文本語義特征串,結合后置機器學習文本語義特征串的比較算法,在當前文本相似度比較領域得到了較廣泛的應用。

2 ?語義函數庫的搭建模式(Building model of the semantic function library)

早期無法使用語義函數庫對相關語義比較過程進行大數據支持,是因為函數庫的數據結構難以得到有效且高效的設置。因為漢語言中的名詞、代詞、動詞、副詞、形容詞、介詞等,均有相對獨立且幾乎沒有重合度的語義評價指標[7-9]。特別是名詞用作動詞、名詞用作形容詞、虛介詞等復雜語法環境下,即便使用機器判斷其真實的詞性詞義都是一個復雜的計算量。部分研究中使用多級模糊比較的方式實現對語義函數庫的搭建,即使用詞性比較模塊先劃分輸入詞的詞性,再根據其上下文和二級庫實現對其語義語境的判斷。

本文重點研究語義的直接模糊實現,即該語義函數庫的輸出目標并非針對人機界面的直接判斷輸出而是采用一個語義深度碼指標,面向后續機器學習模塊進行語義識別,比如圖1所示。

如此,在語義識別庫中,將每個固定詞轉化為一個5位的語義識別碼,該識別碼在實際剛性比較過程中并未能提供數據支持,但足以在機器學習中提供異構化自然文本數據的同構化支持過程。

在語義識別庫中,可能存在一個固定詞對應多個語義識別碼的情況,比如“觀察”一詞,可能對應名詞的弱語義強度選項,也可能對應動詞的強語義強度選項,且其也可以用作名詞轉動詞或者動詞轉名詞的應用。這就需要在卷積神經網絡支持下進行根據上下文的語義篩選機器學習判斷。該判斷模式將在下文重點分析[10]。

實際語義函數庫的設計過程,并不需要對現代漢語詞典中的每個詞均進行語義函數特征的設計,只需要對2000—3000個常用詞的語義語勢進行囊括,即可實現對大部分漢語言詞語的語義語勢提供對比數據支持,即在該語義函數庫中,約包含8000—12000個比較關聯函數。

3 ? 強類別特征比較的整體算法模式分析(Analysis of the whole algorithm pattern of strong category feature comparison)

如圖2所示,系統中輸入兩個待比較的字符串,字符串長度不限。在強卷積和流輸入模式下,在語義函數庫的支持下,使用一個模糊神經元卷積網絡實現對其語義串的生成過程。使用傅立葉變換函數為核心基函數的頻域特征分析模塊,對該算法生成的語義串進行二次分析,各得到一個時域特征串。然后兩列特征串經過一個模糊神經元卷積網絡得到一個比較值Double結果,最后使用一個解模糊模塊對其進行解模糊計算,使用一個普通格式化輸出模塊對其比較結果進行輸出。這一整合算法共使用了兩個模糊神經元卷積網絡對兩列字符串進行了語義比較,可以最大程度減少每個神經元網絡的算力需求,以提升系統效率。

3.1 ? 語義函數庫比較模塊設計

語義函數庫采用雙環卷積的流數據比較模式運行,即針對語義函數庫的每記錄輸入,分別對比較字符串進行遍歷,獲得對應結果并進行輸出。該模塊屬于典型的模糊神經元深度卷積網絡算法,其核心控制變量為語義函數庫的指針變量,次要控制變量為兩列比較字符串的指針變量。輸出變量為針對兩列比較字符串指針的語義串數據。詳見圖3。

在圖3功能設計中,兩個比較字符串獨立實現比較,即實現一個針對比較函數庫的遍歷指針i,針對每個i,對比較串中根據比較函數庫中的目標字符串長度,使用一個指針j對比較字符串進行逐字符遍歷,形成一個比較串指針。即對于庫輸入和比較串輸入來說,其字符串長度相等。本文限定其每個比較字符串的長度不超過4字符即8字節。古該模糊神經元網絡的唯一兩個輸入量,長度均不超過8字節的Bit數據。但因為系統需要充分考慮上下文影響,所以應對該輸入數據進行深度卷積,所以該模塊使用了雙環卷積的方法,其中A環和B環都是四個模塊,每個模塊按照3、7、13、5、1的隱藏層結構進行節點設計,且每個卷積模塊的節點均按照高階多項式回歸的方式進行節點設計,其節點函數可寫做:

(1)

其輸入模塊輸入1個8字節bit變量,輸出一個4字節Double變量,隱藏層按照3、7、3的隱藏層結構進行節點設計,采用線性函數對其節點進行設計。其節點函數可寫做:

(2)

其輸出模塊整合A1、B1、B4三個卷積模塊的輸出量,均為Double變量,該模塊的統計學意義是將該三組輸入數據充分二值化,故采用二值化函數對其進行管理。其隱藏層應達到足夠的深度,故采用五層隱藏層設計,按照5、17、31、13、3的隱藏層結構進行節點設計。其節點函數可寫做:

(3)

在語義串的輸出模塊中,根據實時輸出的比較結果,當其結果接近1.000時,讀取特征語義識別碼與比較串指針生成該比較串指針位置的語義識別碼序列,而當其結果接近0.000時,該比較串指針對應的語義識別碼定義為0。當比較串指針對應的語義識別碼已經存在定義時,則使用算數平均法,給出均值結果。即使用該算法生成的機器學習語義串,無法從語義函數庫中反查其語義,但足以供后續的三個模塊生成機器學習結果。

綜合該模塊的子模塊設計,可以得到表1。

3.2 ? 頻域特征分析模塊設計

3.1中生成的機器學習語義串的本質是一個時域函數,即其標定了在輸入字符串字符順序指針序列上的語義識別碼信息。但該串仍存在一定的時域上的特異性。所以,頻域特征分析模塊的統計學意義是將該時域上的特異性進行削弱,從而得到一個頻域特征數據。該模塊需要進行一次基于時域數據的頻域特征提取計算過程。而該過程通過一次傅立葉變換即可實現。

首先根據語義串的指針t,得到其語義識別碼,對進行基于傅立葉變換的頻域特征提取:

(4)

得到特征函數后,根據指針t的總長度,將進行劃分,并提取其結果,即可形成其頻域特征串。

該過程屬于剛性計算過程,并未牽扯到任何機器學習算法,即本文是在兩個模糊神經元網絡模塊之間,進行一個基于剛性算法的數據治理過程。

3.3 ? 核心比較模塊設計

兩列頻域特征串,即頻域特征串A與頻域特征串B,輸入到核心比較模塊中,該比較模塊也是一個模糊神經元網絡卷積算法模塊。詳見圖4。

該模塊的模糊化過程核心算法是判斷兩個頻域特征串的長度,使用差值法將頻域特征串進行等長轉化。然后根據等長轉化后的特征串指針作為控制變量,構成兩個輸入串,然后形成一個4模塊(A、B、C、D)的卷積模塊,其中卷積A和卷積B的統計學意義是整合輸入串數據(Long型變量)到卷積循環中,卷積C和卷積D的統計學意義是為輸出模塊各提供一個Double數據。最終在等長指針的條件下,對所有比較結果提供一個算數平均值結果。該結果即是兩組待比較字符串的模糊比較結果。

該模塊的子模塊設計思路與語義函數庫比較模塊類似,其中兩個輸入串按照線性回歸函數進行節點管理,隱藏層結構為3、7、3,節點函數如函數(2),四個卷積模塊按照高階多項式回歸函數進行節點管理,隱藏層結構為3、7、13、5、1,節點函數如函數(1),一個輸出模塊按照二值化回歸函數進行接地單管理,隱藏層結構為3、7、3,節點函數如函數(3)。所以,該模塊的實際設計參數匯總表如表2。

3.4 ? 解模糊及格式化輸出模塊設計

根據前文分析,該算法的最終輸出結果,是經過深度代數平均計算的二值化結果均值結果,所以,最終數據的二值化特征并不顯著。即該模型的最終落點基本集中在[0,1]區間上,也有部分結果超出了該區間。即該輸出結果是一個深度模糊化的輸出結果。

在模糊化過程中,可以限定兩個閾值,即輸出結果大于某值M時,此兩段文本的相似度處于高置信區,輸出結果小于某值N時,此兩端文本的相似度處于低置信區,但仍有較大可能處于[N,M]區間中,此時系統給出一個弱相似結果。即本文算法最終的格式化輸出結果中,包含三種判斷結果的輸出可能,即兩端文本的語義強相似、弱相似、不相似,而強相似和不相似結果的輸出頻率,應確保在80%以上,才可以實現該算法的實際應用場景適應性。

4 ? 算法性能評估(The performance evaluation of algorithm )

因為文本語義的相似性評價結果的本質是用戶的主觀評價結果,所以,在進行評估的過程中,選擇100位志愿者,均為有一定文學批評功底的漢語言文學、國際漢語、漢語言教育專業的本科以上在校生,選取50對文本段進行比較,以發現系統對該50對文本段的評價結果與志愿者的人工判讀結果的一致性。志愿者將對系統給出的判斷結果給出非常一致(10分)基本一致(6分)不一致(3分)完全不一致(0分)的主觀評價,以判斷系統的文本語義相似性判斷的準確率。最終評估結果中,100位志愿者在對應的5000次評價比較過程中,給出非常一致評價2763次,占55.26%,給出基本一致評價1326次,占26.52%,給出不一致評價635次,占12.70%,給出完全不一致評價276次,占5.52%。該系統的綜合判斷準確率(非常一致與基本一致的綜合占比)為81.78%,綜合主觀得分為74.98分(滿分100分)。

在5000次評價中,系統共給出強相似評價1031次,占10.62%,弱相似評價391次,占7.82%,不相似評價3578次,占71.56%,其中強相似評價與不相似評價之和為4609次,占92.18%,滿足了本文設計需求(詳見3.4)。

5 ? 結論(Conclusion)

該系統重點實現了漢語言的文本語義相似度評價,且實現了81.78%的人工判斷準確率對比結果,且只有5.52%的志愿者認為系統判斷結果與人工判斷結果完全不一致。因為當前基于機器學習的自然語言語義判斷仍屬于尖端課題,實現該判斷準確率較相關文獻針對單一判斷目標的判斷準確率仍有一定的先進性。該系統是一種通用語義判斷算法,通過對語義函數庫的進一步完善,以及對兩組判斷神經元網絡機器學習模塊的更深度訓練,該判斷準確率還可以進一步提升。

參考文獻(References)

[1] 劉思華,曾傳祿.“能”和“會”的情態語義比較[J].沈陽大學學報(社會科學版),2020,22(01):95-100;105.

[2] 王友良.比較語義關系形容詞的強語勢表達探究[J].焦作大學學報,2019,33(04):7-11.

[3]祝晶.俄漢比較范疇的語義類型及其表達手段[J].中國俄語教學,2020,39(01):34-43.

[4] 顏冰,張輝.框架語義視角下中美貿易戰話語的歷時比較分析[J].外國語文,2020,36(01):1-8.

[5] 馬慧芳,劉文,李志欣,等.融合耦合距離區分度和強類別特征的短文本相似度計算方法[J].電子學報,2019,047(006):1331-1336.

[6] 王偉,朱立明,章強,等.基于相似性分析和閾值自校正的煙箱缺條智能檢測方法[J].煙草科技,2019,52(01):97-103.

[7] 宋呈祥,陳秀宏,牛強.文本分類中基于CHI改進的特征選擇方法[J].傳感器與微系統,2019,38(02):37-40.

[8] 何春輝.一種基于文本相似度的網頁新聞標題自動抽取算法[J].湖南城市學院學報(自然科學版),2019,28(01):61-64.

[9] Liu W, Ma H, Tuo T, et al. Co-occurrence distanceand discrimination based similarity measure on short Text[J]. Computer Engineering and Science, 2018, 40(7): 1281-1286.

[10] Liu Weiru, Giunchiglia, Fausto, et al. International Conference on Knowledge Science, Engineering and Management[C]. Australia: Springer, 2018(08): 67-75.

作者簡介:

劉 ?輝(1984-),男,碩士,初級工程師.研究領域:信息研究,網絡安全.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产精品入口麻豆| 99久久亚洲综合精品TS| 日韩人妻无码制服丝袜视频| 久久亚洲国产视频| 日韩精品资源| 尤物视频一区| 亚洲欧美一区二区三区蜜芽| 亚洲经典在线中文字幕| 91久久国产热精品免费| 秘书高跟黑色丝袜国产91在线| 亚洲成人网在线播放| 国产视频大全| 亚洲国产成人超福利久久精品| 国产一区二区色淫影院| 精品久久综合1区2区3区激情| 98精品全国免费观看视频| 香蕉视频在线观看www| 国产精品99r8在线观看| 亚洲国产天堂久久综合| 成年av福利永久免费观看| 亚洲精品无码抽插日韩| 无码福利视频| 欧美 亚洲 日韩 国产| 亚洲国产精品一区二区第一页免| 国产自无码视频在线观看| 新SSS无码手机在线观看| 91成人免费观看| 三级国产在线观看| 99热最新网址| 最新日韩AV网址在线观看| 在线视频亚洲色图| 免费高清a毛片| 91精品啪在线观看国产91| 无码国内精品人妻少妇蜜桃视频| 久久国产亚洲偷自| 色综合久久无码网| 丝袜亚洲综合| 国产玖玖玖精品视频| 美女无遮挡免费视频网站| 又爽又大又黄a级毛片在线视频 | 亚洲无码91视频| a级毛片免费播放| 久久久久久久久久国产精品| 日本成人精品视频| 成年免费在线观看| 制服丝袜在线视频香蕉| 欧美中文字幕一区| 日本人妻丰满熟妇区| 色悠久久久久久久综合网伊人| 精品国产女同疯狂摩擦2| av一区二区无码在线| 激情乱人伦| 毛片久久久| 精品国产电影久久九九| 一本大道香蕉久中文在线播放 | 超碰色了色| 午夜视频免费试看| 欧美三级自拍| 超碰精品无码一区二区| 欧洲一区二区三区无码| 蜜臀AVWWW国产天堂| 99性视频| 日韩在线欧美在线| 99久久国产综合精品2020| av手机版在线播放| 亚洲国产精品成人久久综合影院| 国产精品久久精品| 首页亚洲国产丝袜长腿综合| 无码免费的亚洲视频| 精品中文字幕一区在线| 欧美日韩资源| 91青青视频| 免费高清毛片| 国产青青操| 天天色天天综合网| 国产高清不卡| 亚洲精品无码人妻无码| 国产精品亚洲欧美日韩久久| 91精品网站| 久草热视频在线| 五月天福利视频 | 综合色88|