999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

外星語字母詞根查找模型的建立

2019-08-15 03:40:50季傳靈江西理工大學(xué)
數(shù)碼世界 2019年8期
關(guān)鍵詞:詞根文本

季傳靈 江西理工大學(xué)

1 引言

在所給定的大量外星語的樣本文本,該文本語言只由20 個(gè)字母組成,無法知道該語言的具體含義。假設(shè)在所有的分段文本中,部分序列都會(huì)出現(xiàn),以英文構(gòu)詞作為依據(jù),很可能這些重復(fù)出現(xiàn)的片段是具有具體含義。在記錄的過程中,就會(huì)發(fā)生一些錯(cuò)誤,在只考慮替換錯(cuò)誤的情況下,要設(shè)計(jì)合理的數(shù)學(xué)模型,實(shí)現(xiàn)對(duì)符合要求的字母片段的查找,以較快的速度找到較多的片段。針對(duì)本題中的問題,將每段長(zhǎng)度在5000-8000 字母的30 段文本中,找到長(zhǎng)度在15-21 字母片段,并且該片段在每段文本中都有出現(xiàn)。

2 模型假設(shè)

(1)假定記錄文本錯(cuò)誤中只有替換錯(cuò)誤,且不會(huì)出現(xiàn)超過4 個(gè)字母的錯(cuò)誤

(2)假設(shè)所要查找的字母片段,在所有的文本中,每次都會(huì)出現(xiàn)

3 問題分析

先要獲得只由20 個(gè)字母構(gòu)成的30 段5000-8000 個(gè)字母的文本,將文本進(jìn)行分詞處理,再讓每個(gè)文本進(jìn)行匹配,在錯(cuò)誤允許的范圍內(nèi)每個(gè)文本所都出現(xiàn)的片段就是我們要查找的。將所建立的數(shù)學(xué)模型和編寫的算法,對(duì)文本進(jìn)行處理。在得到較好的效果后,對(duì)算法進(jìn)行優(yōu)化,提高算法的效率,對(duì)30 段文本以外的樣本進(jìn)行處理,要達(dá)到較快的速度得到較多的片段的效果。

4 模型的建立與求解

4.1 Simhash1 算法的介紹與不足

基于Sim Hash 指紋的近似文本檢測(cè)是主流的檢測(cè)方法之一,能將一個(gè)文檔,最后轉(zhuǎn)換成一個(gè)64 位的字節(jié),稱之為特征字,可根據(jù)文檔間的特征字的距離是不超過n,就可以判斷兩個(gè)文檔是否相似。通過查閱大量的文獻(xiàn)資料,該算法有以下幾點(diǎn)不足:

1.Simhash 的hash 值變化敏感,任一字母的微小變動(dòng)即引起hash 值的巨大變化

2.指紋位數(shù)單一, 故導(dǎo)致其會(huì)丟失一定量的信息

3.Simhash 算法適用于在文本相似度較高的情況下,但當(dāng)文檔數(shù)據(jù)量較多時(shí)則效果較差

4.2 基于編輯距離模糊匹配2和KMP非線性跳轉(zhuǎn)移位的綜合算法

4.2.1 算法建立

步驟一:取第一段文本,將所有的數(shù)據(jù)映射為一個(gè)數(shù)組的數(shù)據(jù)結(jié)構(gòu),以6 個(gè)單詞為間距對(duì)文本進(jìn)行平移連續(xù)切詞,每隔一個(gè)字母移動(dòng)一次,得到一個(gè)切詞a[i](0 <= i <= 5000),所以能得到5000 左右的片段;同理將第二段的文本也按此法進(jìn)行切詞得到b[j](0 <= j <= 5000)。

用偽代碼描述如下:

a[i]={"第一段火星文"};

for(i=0; i++; i<=5005)

{

片段i:A[i]={a[i]~a[i+5]};

}

步驟二:將步驟一中的切詞與余下29 段文本分別進(jìn)行編輯距離的模糊匹配;此模糊匹配分為兩步:(1)非線性跳轉(zhuǎn)移位;(2)利用編輯距離算法進(jìn)行模糊匹配;

4.3 編輯距離算法的定義及步驟

編輯距離算法是根據(jù)二個(gè)字符串的差異程度的檢測(cè),檢測(cè)方式是計(jì)算將一個(gè)字符串變成另一個(gè)字符串的最少操作次數(shù)。

編輯距離算法步驟:

a.先將第一個(gè)文本段的第一個(gè)字母片段a[0]與第二段所得的第一個(gè)切詞b[0]進(jìn)行模糊匹配,計(jì)算其匹配度。

b.將a[0]與b[i]相匹配,且匹配度符合容錯(cuò)率3k ≤2,則將a[0]與余下的28 段的字母片段相比較;若a[0]與b 段中的字母片段匹配時(shí),匹配度不符合其容錯(cuò)率,則將a[0]片段丟棄;

c.當(dāng)a[0]與剩余的字母片段相匹配時(shí),都滿足匹配度符合容錯(cuò)率k ≤2,a[0]就是我們所要找的片段;若a[0]與其中一段不匹配時(shí),則停止匹配。將a 段的a[1]與余下的片段相匹配,重復(fù)步驟b;

d.在執(zhí)行完上述步驟之后,直到找到a[i]與其余的文本中的字母片段模糊匹配的匹配度符合容錯(cuò)率k<=2,則a[i]就是我們要找的片段。

5 模型的改進(jìn)

針對(duì)前文提出的用KMP 來實(shí)現(xiàn)的非線性跳轉(zhuǎn)移位算法的不足之處,主要體現(xiàn)在其時(shí)間復(fù)雜度較大。如果某個(gè)字符匹配成功,模式串首字符的位置保持不動(dòng),僅僅是i++、j++;如果匹配失配,i 不變,模式串會(huì)跳過匹配過的next [j]4個(gè)字符。整個(gè)算法最壞的情況是,當(dāng)模式串首字符位于i - j 的位置時(shí)才匹配成功,算法結(jié)束。

BM 算法5 是由Bob Boyer 和JStrother Moore 提出的,其基本思路是:首先設(shè)計(jì)一個(gè)數(shù)組bm Bc[],如bm Bc[‘K’](表示壞字符‘k’在所給的模式串中的最右邊所出現(xiàn)的位置與模式串末尾之間的長(zhǎng)度),當(dāng)匹配時(shí)遇到壞字符,所給的模式串要移動(dòng) shift(壞字符) = bm Bc[T[i]]-(m-1-i) 的距離,(T[i]是指在i 位置上的壞字符,(m-1-i)是指壞字符的位置與模式串末尾之間的長(zhǎng)度),當(dāng)壞字符位置與在模式串出現(xiàn)壞字符位置的距離為負(fù)時(shí),模式串向后移動(dòng)一位,重新開始匹配,因?yàn)橛泻煤缶Y規(guī)則,移動(dòng)時(shí)的距離選擇較大的。如圖 2 所示:

圖 2 bm 流程圖

改進(jìn)方案為:在該題中,考慮本題每個(gè)片段可能有4 個(gè)字母替換錯(cuò)誤的情況,我們可以先對(duì)要匹配的片段最后四位進(jìn)行依次匹配,如果這四個(gè)后綴字母都不匹配,則放棄繼續(xù)匹配。此時(shí)再用BM 算法,即將最后一個(gè)后綴字母判為“壞字符”,然后將模塊字符直接移到壞字符后面一格,余下的所有片段按該步驟循環(huán)進(jìn)行。

6 結(jié)束語

該模型是從第一段文本段取15-20 的字母片段,如果在余下的每一文本段里找到了一個(gè)符合題意的字母片段,放棄繼續(xù)匹配,但這樣最后得到的詞根不知道其在30 段文本中出現(xiàn)的頻率次數(shù),所以數(shù)據(jù)利用價(jià)值不高,不太利于專家對(duì)外星語的研究。若將每一個(gè)字母片段賦予其權(quán)重,權(quán)重即是最后得到的詞根在30 段文本出現(xiàn)的頻率,使所得到的外星詞根按重要程度進(jìn)行排列。

猜你喜歡
詞根文本
藏在英文里的希臘詞根(二十四)
英語世界(2023年12期)2023-12-28 03:36:30
藏在英文里的希臘詞根(二十三)
英語世界(2023年11期)2023-11-17 09:24:50
藏在英文里的希臘詞根(二十二)
英語世界(2023年10期)2023-11-17 09:19:18
藏在英文里的希臘詞根(十八)
英語世界(2023年6期)2023-06-30 06:29:38
藏在英文里的希臘詞根(九)
英語世界(2022年9期)2022-10-18 01:11:48
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 亚洲国产高清精品线久久| 九九热精品视频在线| 国产精品女在线观看| 国产欧美成人不卡视频| 亚洲精品第一页不卡| 欧洲亚洲一区| 国产在线高清一级毛片| 国产91线观看| 伊人久久综在合线亚洲91| 欧美性精品不卡在线观看| 99热这里只有免费国产精品 | 欧美中出一区二区| 夜夜爽免费视频| 亚洲三级影院| 啊嗯不日本网站| 中文字幕有乳无码| 国产在线第二页| 97久久超碰极品视觉盛宴| 波多野结衣一区二区三区AV| 成色7777精品在线| 爱爱影院18禁免费| 国产激情第一页| 亚洲高清中文字幕在线看不卡| 国产一区二区影院| 久久毛片基地| 久久久久久久久亚洲精品| 久久精品人妻中文视频| 自拍中文字幕| 中文字幕人妻av一区二区| 久久美女精品| 日韩精品一区二区三区视频免费看| 国产亚洲现在一区二区中文| 久久精品中文字幕免费| 成人免费黄色小视频| 亚洲欧洲日韩综合色天使| 人妻无码AⅤ中文字| 国产精品一线天| 欧洲亚洲一区| 国产真实二区一区在线亚洲| 亚洲精品第五页| 亚洲精品麻豆| 免费久久一级欧美特大黄| 国产不卡一级毛片视频| 国产91精品久久| 久久亚洲精少妇毛片午夜无码 | 国产乱子伦无码精品小说 | 日本一区二区三区精品视频| 呦女亚洲一区精品| 欧美激情首页| 国产微拍一区二区三区四区| 国产精品第一区在线观看| 久久99国产综合精品女同| 激情爆乳一区二区| 国产永久在线观看| 国产成人夜色91| 日韩毛片在线播放| 国产真实乱子伦视频播放| 在线观看视频一区二区| 精品无码专区亚洲| 日韩视频精品在线| 久久美女精品| 亚洲欧美综合在线观看| 久久综合色视频| 丁香六月激情综合| 国产jizz| 99热这里只有成人精品国产| 日本午夜影院| 国产va在线观看免费| 91无码视频在线观看| 免费人成视网站在线不卡| 日韩精品一区二区三区免费在线观看| 在线观看无码av五月花| 她的性爱视频| 亚洲国产av无码综合原创国产| 日日摸夜夜爽无码| 亚洲天堂伊人| 久久精品无码一区二区日韩免费| 国产精品黄色片| 天天色综网| 国产亚洲精品资源在线26u| 国产福利微拍精品一区二区| 欧美国产视频|