999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法研究

2019-06-03 02:51:54
關(guān)鍵詞:文本

廣西壯族自治區(qū)科學(xué)技術(shù)情報(bào)研究所 廣西 南寧 530023

1 研究背景

目前,項(xiàng)目的重復(fù)檢測主要是采用萬方、知網(wǎng)、維普等檢測系統(tǒng),通過字符串匹配算法來計(jì)算待檢測的文件相對于文件庫中的目標(biāo)文件的相似比[1]。字符串匹配算法是以一段文字一致作為衡量內(nèi)容重復(fù)的標(biāo)準(zhǔn)[2],然而,由于中文語言的復(fù)雜性和表達(dá)方式的多樣性,對于實(shí)質(zhì)內(nèi)容相同的兩段文字,往往會因?yàn)橹虚g出現(xiàn)一些無意義的“停詞”或虛詞或者主謂賓順序不一致等情況,而將其錯誤地判斷為不屬于重復(fù)內(nèi)容,因此,采用現(xiàn)有技術(shù)中的字符串匹配算法可能會導(dǎo)致查全率和查準(zhǔn)率不高。而且,字符串匹配算法對字符串的選取要求嚴(yán)格,算法本身復(fù)雜度較高,需要相對大的資源開銷和較長的計(jì)算時間,因此,查重的效率也不高。此外,近年來,隨著科技項(xiàng)目申報(bào)、學(xué)術(shù)論文和學(xué)位論文等的數(shù)量大幅增長,迫切需要查重結(jié)果準(zhǔn)確、高效的文本數(shù)據(jù)查重的方法[3]。

2 科技項(xiàng)目查重方法

本文基于科技項(xiàng)目查重的需求背景,開展了自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法研究。基于深度學(xué)習(xí)算法自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法包括如下步驟:

步驟1:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;例如,選取目標(biāo)文件,指定字段設(shè)置為“技術(shù)內(nèi)容”,在目標(biāo)文件的“技術(shù)內(nèi)容”字段中提取了“應(yīng)用游戲引擎UDK技術(shù)將提取的特色元素虛擬化、數(shù)字化,利用三維建模Blender技術(shù)將虛擬化信息應(yīng)用于移動游戲端”的目標(biāo)文本,將目標(biāo)文本切分為“應(yīng)用/游戲/引擎/UDK/技術(shù)/將/提取/的/特色/元素/虛擬化/數(shù)字化/利用/三維/建模/Blender/技術(shù)/將/虛擬化/信息/應(yīng)用于/移動/游戲端/”多個關(guān)鍵詞;實(shí)施例中,指定字段還可以包括“標(biāo)題”、“負(fù)責(zé)人”、“承擔(dān)機(jī)構(gòu)”、“合作機(jī)構(gòu)”、“摘要”以及“正文”;在實(shí)施例中,將目標(biāo)文本切分為關(guān)鍵詞時,可以按照動詞、名詞、形容詞、副詞、介詞切分為關(guān)鍵詞,省略其他類型的關(guān)鍵詞;

步驟2:在數(shù)據(jù)庫中檢索含有單個關(guān)鍵詞的項(xiàng)目文件,設(shè)定關(guān)鍵詞的權(quán)重值;例如,在12564個項(xiàng)目文件的數(shù)據(jù)庫中檢索后,含“應(yīng)用”關(guān)鍵詞的項(xiàng)目文件9472個,含“游戲”關(guān)鍵詞的項(xiàng)目文件2761個,含“引擎”關(guān)鍵詞的項(xiàng)目文件958個,含“UDK”關(guān)鍵詞的項(xiàng)目文件8個,對項(xiàng)目文件個數(shù)進(jìn)行歸一化處理y=x-8/(9472-8),結(jié)果得出:“應(yīng)用”為“1”,“游戲”為“0.29089”,“引擎”為“0.10038”,“UDK”為“0.00085”;

步驟3:利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器對含有關(guān)鍵詞的待查文件進(jìn)行評估,權(quán)重評估器輸出待查文件的相關(guān)度,根據(jù)權(quán)重評估器的輸出結(jié)果進(jìn)行排序;如:權(quán)重評估器的輸出結(jié)果為:待查文件1的相關(guān)度為0.913,待查文件2的相關(guān)度為0.762,待查文件3的相關(guān)度為0.913,待查文件4的相關(guān)度為0.206,待查文件5的相關(guān)度為0.050,待查文件6的相關(guān)度為0;因此,排序?yàn)榇槲募?>待查文件3>待查文件2>待查文件4>待查文件5>待查文件6。

3 利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器

獲取關(guān)鍵詞的權(quán)重值,選取六篇待查文件作為訓(xùn)練樣本,其中三篇待查文件與目標(biāo)文件相關(guān),其他三篇待查文件與目標(biāo)文件不相關(guān),將相關(guān)的待查文件賦值為1,不相關(guān)的待查文件賦值為0;

獲取六篇待查文件含有的關(guān)鍵詞,根據(jù)相關(guān)性輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如表1所示;

表1 神經(jīng)網(wǎng)絡(luò)樣本訓(xùn)練表

從表1可以獲得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,輸入為關(guān)鍵詞權(quán)重值P=[0,0.29089,0.10038,0.00085;0,0.29089,0.10038,0;0,0,0.10038,0.00085;1,0.29089,0,0;0,0,0,0],輸出為相關(guān)性S0=[1,1,1,0,0,0];將以上樣本集代入式(1)的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合訓(xùn)練,擬合訓(xùn)練可獲得具有關(guān)鍵詞特性的權(quán)重評估器,如式(1)所示;

式(1)中,||P-c i||為輸入量P與神經(jīng)網(wǎng)絡(luò)權(quán)量c i的歐式距離,w i為神經(jīng)網(wǎng)絡(luò)隱層到輸出層之間的權(quán)量,w i=[w1w2w3w4w5w6]T=[0.050 0.315 0.465 0.585 0.835 0.975],c i=[c1c2c3c4c5c6]T=[0.3050 0.4528 0.6238 0.8029 0.9763]。

待訓(xùn)練完成后,神經(jīng)網(wǎng)絡(luò)組建的權(quán)重評估器可以根據(jù)關(guān)鍵詞的權(quán)重值P輸出該待查文件的相關(guān)度S0的值,如表2所示;

表2 待查文件的相關(guān)度

根據(jù)S0進(jìn)行待查文件的相關(guān)度排序,如表2所示。

步驟4:選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對文本;如:選取待查文件1,提取比對文本如下:“利用UDK虛幻引擎畫刷制作游戲四面墻,然后利用UDK虛幻引擎進(jìn)行初始游戲的基礎(chǔ)添加,通過四面墻的添加以及貼圖的附加,場景的初步搭建。在其中添加一些隔斷墻,并適當(dāng)?shù)奶砑右恍艄?給其符合場景的顏色,給一些比較暗的地方添加Sport Light,場景中只有墻體閉塞,可以適當(dāng)?shù)膭?chuàng)建天窗,并附上材質(zhì)”;

步驟5:將所述目標(biāo)文本與所述比對文本進(jìn)行字母化,建立比對矩陣,在比對矩陣中查找滿足相似字符串條件的子矩陣;

步驟6:根據(jù)子矩陣的規(guī)模計(jì)算所述目標(biāo)文本與所述比對文本的相似度,

計(jì)算比對文本的相似度的公式如下:

其中,BFB表示章節(jié)相似比,TXTLEN表示比對文本長度,n是比對文本中關(guān)鍵字的個數(shù),KEYLEN表示關(guān)鍵字的長度(即查找出的相似片度的長度)。該方法利用神經(jīng)網(wǎng)絡(luò)對相關(guān)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(查重)的任務(wù)。

5 結(jié)論

本研究提供了一種基于深度學(xué)習(xí)算法自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法,包括:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;在數(shù)據(jù)庫中檢索含有單個關(guān)鍵詞的待查文件,設(shè)定關(guān)鍵詞的權(quán)重值;利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器對含有關(guān)鍵詞的待查文件進(jìn)行評估和排序;選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對文本;建立比對矩陣,根據(jù)子矩陣的規(guī)模計(jì)算所述目標(biāo)文本與所述比對文本的相似度;該方法利用神經(jīng)網(wǎng)絡(luò)對相關(guān)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(查重)的任務(wù)。

科技項(xiàng)目重復(fù)立項(xiàng)問題會造成國家資助科技項(xiàng)目的資金浪費(fèi),同時損害科研精神,對科技創(chuàng)新造成較大的危害。本研究對大數(shù)據(jù)環(huán)境下的科技項(xiàng)目查重技術(shù)進(jìn)行了研究,提出了自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法,此類科技項(xiàng)目查重技術(shù)的研究,將使大數(shù)據(jù)技術(shù)在科技項(xiàng)目查重中得到更好的利用,輔助科技項(xiàng)目查的重高質(zhì)高效完成。

猜你喜歡
文本
文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
重點(diǎn):論述類文本閱讀
重點(diǎn):實(shí)用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 日韩欧美中文在线| 国产美女91呻吟求| 亚洲Av综合日韩精品久久久| 日本亚洲成高清一区二区三区| 亚洲精品午夜无码电影网| 少妇极品熟妇人妻专区视频| 欧美一区福利| 国产欧美日韩免费| 免费一极毛片| 久久久久青草大香线综合精品| 91欧美在线| 91黄色在线观看| 亚洲午夜福利精品无码不卡| 久久精品91麻豆| 99久视频| 欧美日韩国产成人高清视频| 亚洲无线视频| 国产精品手机视频| 亚洲天堂日韩在线| 亚洲成人一区二区三区| 亚洲天堂首页| 午夜激情福利视频| 国产乱人伦AV在线A| 久久精品中文字幕免费| 精品人妻无码中字系列| 玖玖免费视频在线观看| 日韩欧美国产中文| 久草青青在线视频| 18黑白丝水手服自慰喷水网站| 欧美日韩中文国产va另类| 久热re国产手机在线观看| 91国内在线观看| 国产亚洲男人的天堂在线观看 | 国产H片无码不卡在线视频| 成年人国产视频| 国产国语一级毛片在线视频| 亚洲AV无码久久天堂| 国产乱人乱偷精品视频a人人澡| 成人另类稀缺在线观看| 国产日韩久久久久无码精品| 亚洲国产欧美自拍| 国产黑丝视频在线观看| 波多野衣结在线精品二区| 91欧美在线| 五月天久久综合国产一区二区| 国产成年无码AⅤ片在线| 亚洲精品动漫| 波多野结衣一级毛片| 乱人伦99久久| 免费一级成人毛片| 青青草欧美| 四虎成人精品在永久免费| 国产精品久久久久婷婷五月| 青青操视频在线| 亚亚洲乱码一二三四区| 99久久无色码中文字幕| 欧美黄色a| 精品国产91爱| 91 九色视频丝袜| 国产人人乐人人爱| 91精品国产福利| 色综合成人| 亚洲成人高清无码| 无码精品一区二区久久久| 第九色区aⅴ天堂久久香| 一级成人a毛片免费播放| 亚洲AV无码久久精品色欲| 亚洲欧洲日韩综合| 精品综合久久久久久97超人该| 99在线观看精品视频| 国产精品女人呻吟在线观看| 亚洲精品无码AV电影在线播放| 无码国产偷倩在线播放老年人| av无码一区二区三区在线| 无码中字出轨中文人妻中文中| 亚洲人在线| 亚洲国产精品VA在线看黑人| 国产在线啪| 日韩一级二级三级| 亚洲成人高清无码| 一本久道热中字伊人| 亚洲最新地址|