999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于向量空間模型的項目申報書查重系統設計

2015-06-27 06:33:38胡偉偉王婷婷
天津科技 2015年8期
關鍵詞:文本模型

胡偉偉,孫 遜,王婷婷

(江蘇省生產力促進中心 江蘇南京210042)

應用技術

基于向量空間模型的項目申報書查重系統設計

胡偉偉,孫 遜,王婷婷

(江蘇省生產力促進中心 江蘇南京210042)

隨著國家及地方科研財政經費的增加,企事業單位對科技項目日益重視,項目申報數量也逐年遞增。為避免對類似項目的重復支持,造成科研經費的浪費,項目查重就顯得尤為必要。提出了基于向量空間模型的項目申報書查重系統設計方法,并介紹設計流程。

項目查重 向量空間模型 分詞

0 引 言

科技是第一生產力。近年來,隨著國家對科技創新工作重視程度的提升,各級政府科研經費投入逐年增加,各企事業單位更加積極地申報各類科研項目。但隨著科研項目申報數量的增加,科研成果重復申報、多頭申報現象日益突出。由于項目分屬不同的機構或部門管理,面對數量巨大的申報材料,傳統的人工形式審查工作量大,且效果也不理想。為避免對重復或相似科研內容的重復支持,本文將介紹一種基于向量空間模型的文本相似度算法,通過該算法來實現項目研究內容相似度的判斷。

1 理論介紹

向量空間模型VSM(Vector Space Model)是20世紀70年代由Salton等人提出的一種簡便、高效的文本表示模型。該模型的基本思想是把文檔簡化為以特征詞(關鍵詞)的權重為分量的多維向量表示。通過該方法將對文本內容的處理簡化為向量空間中向量的運算。文本向量化后,再利用余弦距離來計算兩向量之間的關系,余弦值越大,說明文本相似程度越大。當余弦值為1時,說明文本一致,反之則說明文本匹配度較低。通過向量計算法判別文本的相似性可以使問題的復雜性大為降低。

2 設計流程

項目申報書向量模型化需要經過分詞、詞權重計算、關鍵字提取等步驟,大致流程如圖1所示。

圖1 項目申請書向量模型設計流程Fig.1 Design flow of the VSM project application forms

2.1 申報書預處理

為便于將項目申報書內容進行分詞,可以通過正則表達式去除申報書中的文本格式化標識符(HMTL標簽)、公式、圖片等信息,將其純文本化。

2.2 分詞

分詞是將文本向量化表示的一個重要步驟,分詞的效率和準確度將對文本向量模型的建立和系統速度產生直接影響。

常用的分詞算法有基于字典的分詞方法、基于知識理解的分詞方法、基于詞頻統計的分詞方法等,各種方法各有優缺點。基于字典的分詞方法實現相對簡單,應用廣泛。分詞時可以采用中科院計算所研發的ICTCLAS分詞系統,兼顧效率和準確率。

2.3 特征詞提取和向量模型生成

利用分詞算法將經過預處理的文本進行分詞,并去除分詞后對文本內容識別意義不大但出現頻率很高的停用詞,如“的”、“是”、“在”等。經過分詞處理后,申報書就可以用由若干詞組成的集合來表示:

D表示被處理的文檔,Tj表示在D中出現的經分詞過濾后的詞。

如果把所有詞都作為特征集,那么特征向量的維數將十分巨大,從而導致計算量太大,耗時較長,這時需要進行特征詞提取。特征詞提取的主要功能是在不影響文本核心信息的情況下盡量減少關鍵詞的集合大小,以此來降低向量空間的維度,從而降低計算量,提高系統運行效率。

特征詞的提取可以結合特征詞權重一同進行。

詞在文檔中的權重可以由多種方式來計算,TF-IDF是一種常見的方法,該方法用于評估一個字詞對于一個文件集或者一個語料庫中的其中一份文件的重要程度,是一種常用的加權技術。該方法能過濾掉常見的詞語,而保留重要的詞。TF(Term Frequency)詞頻,指某個詞在文章中出現的頻率,體現了該詞描述文檔的能力。

有些常見非停用詞在文檔中出現頻率較高,它的TF值也相對高些,但是該詞對文章或語句的“話語權”不大,對語義的影響較弱,因此考慮到詞權重時還需要考慮到詞在區分兩文檔時起到的效果。IDF(Inverse document frequency)指逆向文本頻率。

IDF越大,說明該詞在文檔中出現的概率較小,利用該詞能較好地區分文檔。TF-IDF算法,是計算TF×IDF的值,體現了某個詞對文章的重要性,重要性越高,它的TF-IDF值就越大。因此關鍵詞的提取,可以采用TF-IDF值排在前面的若干詞。經特征詞提取及權重計算后,項目申報書的向量模型可以表示為:Dn(,……,Tn,Wn)(j>n,其中表示為關鍵詞Tn對應的權重)。

2.4 兩申報書相似度計算

通過將擬對比的申報書文本向量化后,計算申報書1和申報書2的相似度就是計算向量空間模型D1、D2的余弦值。

式中D1、D2表示文檔的特征集,W1k、W2k分別表示文本D1和D2第K個特征項的權值,1≤j≤N。

3 結 語

通過對項目申報書相似度對比,可以開展有針對性的查重,解決大海撈針式查重和印象查重,大幅提高項目查重的效率和準確率,但項目申報書相似度測算僅是從文本相似程度的角度去測算,對于相似程度較高或較低的較容易判斷,介于兩者之間的,研究內容是否相似還需要進行人工判斷。

[1] 殷耀明,張東站. 基于關系向量模型的句子相似度計算[J]. 計算機工程與應用,2014,50(2):198-203.

[2] 方延風. 科技項目查重中特征詞TF-IDF值計算方法的改進[J]. 情報探索,2012(1):1-3.

[3] 陳桂林,王永成. 一種改進的快速分詞算法[J]. 計算機研究與發展,2000,37(4):418-423.

Design of VSM-based Duplication Checking System for Project Application Forms

HU Weiwei,SUN Xun,WANG Tingting
(Productivity Centre of Jangsu Province,Nanjing 210042,Jiangsu Province,China)

With the growth of financial expenditures on scientific research from national and local governments,science projects have attracted more attention from enterprises and public institutions and the number of project applications is increasing year by year.To avoid repetitive support of similar projects and prevent the waste of scientific research funds,project duplication checking has become particularly important and necessary.A design method of Vector Space Model(VSM)-based project application form duplication checking system was presented and design procedures were elaborated.

project duplication checking;Vector Space Model(VSM);word segmentation

TP311.1

:A

:1006-8945(2015)08-0033-02

2015-07-03

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产波多野结衣中文在线播放 | 亚洲天堂网在线观看视频| 国产毛片基地| 日韩在线视频网| 精品视频第一页| 亚洲热线99精品视频| 欧美日韩亚洲国产| 亚洲第一黄片大全| 亚洲综合色婷婷中文字幕| 久久国产精品国产自线拍| 91麻豆国产视频| 第一区免费在线观看| 亚洲第一黄片大全| 亚洲高清无在码在线无弹窗| 毛片基地美国正在播放亚洲 | 久久久无码人妻精品无码| 中文字幕 欧美日韩| 亚洲人成网线在线播放va| 亚洲第一黄色网址| 毛片在线播放网址| 88av在线| 国产青青操| 国产精品密蕾丝视频| 黄色国产在线| 在线国产资源| 精品国产电影久久九九| 亚洲动漫h| 曰韩人妻一区二区三区| 国产精欧美一区二区三区| 全裸无码专区| 久久免费视频播放| 久久久波多野结衣av一区二区| AV在线麻免费观看网站| 国产成人精品亚洲77美色| 免费在线看黄网址| 99在线免费播放| 亚洲无码高清一区二区| 曰AV在线无码| 91偷拍一区| 综合亚洲网| 久久久久青草大香线综合精品| 久久婷婷综合色一区二区| 亚洲免费成人网| 亚洲三级电影在线播放| 久久精品中文无码资源站| 夜夜操国产| 国产成人综合日韩精品无码首页| 免费无码又爽又黄又刺激网站| 久久香蕉国产线看观看式| 2020久久国产综合精品swag| 亚洲AV电影不卡在线观看| 中文字幕人妻av一区二区| 亚洲免费黄色网| 免费视频在线2021入口| 57pao国产成视频免费播放 | 就去色综合| 亚洲小视频网站| 日韩高清成人| 999精品视频在线| 精品人妻系列无码专区久久| 成人av手机在线观看| 日韩经典精品无码一区二区| 色噜噜在线观看| 国产综合网站| 国产欧美日韩在线在线不卡视频| 亚洲美女高潮久久久久久久| 国产美女视频黄a视频全免费网站| 99尹人香蕉国产免费天天拍| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲中文无码av永久伊人| 免费看黄片一区二区三区| 国产日韩久久久久无码精品| 国产小视频a在线观看| 激情成人综合网| 曰AV在线无码| 2048国产精品原创综合在线| 国产精品自在线天天看片| 日韩精品一区二区三区免费| 中文字幕在线播放不卡| 免费一级毛片在线观看| 中文字幕第1页在线播| 亚洲综合色区在线播放2019|