999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量圖書館檔案信息的快速檢索方法

2018-10-24 04:39:04陳春陽
現(xiàn)代電子技術(shù) 2018年20期

陳春陽

摘 要: 海量圖書館檔案信息的快速檢索對實(shí)現(xiàn)圖書館的發(fā)展具有重要意義,成為加強(qiáng)圖書館檔案管理工作的主要策略和發(fā)展方向。傳統(tǒng)方法主要是利用圖書館檔案信息的分類順序進(jìn)行分析,忽略了檔案信息的查全率和查準(zhǔn)率。因此,提出一種基于模糊集的海量圖書館檔案信息快速檢索方法。利用多個向量代表檔案信息的對象,建立特征向量模型對圖書館檔案信息進(jìn)行處理,需要在數(shù)據(jù)庫中對檔案信息的語義索引和語義特征向量進(jìn)行處理。在對圖書館檔案信息處理完成的基礎(chǔ)上,計算索引項(xiàng)在檔案信息中的頻率,并且計算索引項(xiàng)的大小來決定檔案信息項(xiàng)位置的權(quán)重,對圖書館檔案信息檢索式進(jìn)行量化和劃分,并建立權(quán)重向量,獲得檔案信息向量,利用檔案信息向量計算相似度函數(shù),最終實(shí)現(xiàn)模糊集的圖書館檔案信息快速檢索方法。實(shí)驗(yàn)結(jié)果表明,所提方法具有查全率和查準(zhǔn)率高的優(yōu)點(diǎn),對海量圖書館檔案信息檢索起到重要作用。

關(guān)鍵詞: 圖書館檔案信息; 快速檢索; 模糊集; 分類順序; 查全率; 查準(zhǔn)率

中圖分類號: TN911.2?34; TP311 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)20?0042?03

Abstract: In the traditional method, the classification order of library archive information is mainly used for analysis, in which the recall rate and precision rate of archive information are ignored. Therefore, a rapid retrieval method of massive library archive information is proposed based on fuzzy sets, in which multiple vectors are used to represent the objects of archive information. The feature vector model is established to process library archive information, which needs to process the semantic indexes and semantic feature vectors of archive information in the database. On the basis of completion of library archive information processing, the frequency of the index item in archive information is calculated, and the size of the index item is calculated to determine the location weight of the archive information item. The retrieval formulas of library archive information are quantified and divided, and the weight vector is established, so as to obtain the archive information vector. The similarity function is calculated by using the archive information vector to realize the fuzzy set based rapid retrieval method of library archive information. The experimental results show that the proposed method has the advantages of high recall ratio and precision rate, which plays an important role in retrieval of massive library archive information.

Keywords: library archive information; rapid retrieval; fuzzy set; classification order; recall ratio; precision rate

0 引 言

在信息無序的社會中,有價值的檔案信息和無價值的檔案信息相互交錯并且混亂,需要從海量的圖書館檔案信息中檢索出所需要的檔案信息進(jìn)行整理[1],這一方法成為人們研究的難題和熱點(diǎn),信息快速檢索方法也是計算機(jī)科學(xué)與技術(shù)專業(yè)的重要學(xué)習(xí)方法。在信息豐富的時代,海量圖書館檔案信息的快速檢索方法能夠緩解檢索工具與圖書館檔案信息之間的問題,在圖書館的服務(wù)中心,信息的快速檢索方法起到不可替代的作用[2]。

文獻(xiàn)[3]提出一種基于關(guān)鍵詞關(guān)系算法的海量圖書館檔案信息快速檢索方法。對圖書館檔案信息建立模型,并計算模型的參數(shù),檢索到隱藏的檔案信息,對其進(jìn)行主題分布,在主題分布的基礎(chǔ)上計算并檢索檔案信息關(guān)鍵詞的相似度,得到檢索后的圖書館檔案信息。但該方法不能夠?qū)D書館的重要檔案信息全部檢索出來,說明存在查全率低的缺點(diǎn)。文獻(xiàn)[4]提出一種基于空間自相關(guān)統(tǒng)計算法的海量圖書館檔案信息快速檢索方法,對圖書館檔案信息中的數(shù)據(jù)在不同空間間隔上進(jìn)行相關(guān)計算,測試聚集程度,獲得檔案信息的自相關(guān)參數(shù)。檔案信息的檢索具有有序性,但該方法對檔案信息的檢索不夠準(zhǔn)確,說明查準(zhǔn)率較低。

針對上述兩種方法存在的問題,提出基于模糊集的海量圖書館檔案信息快速檢索方法。

1 海量圖書館檔案信息的快速檢索研究方法

1.1 圖書館檔案信息處理

在對圖書館檔案信息進(jìn)行處理時,可以參考向量空間模型,檔案信息的向量模型需要建立一個關(guān)鍵詞條字典,包括單詞、短語等[5]。把圖書檔案信息當(dāng)作多維向量,利用二進(jìn)制或者反轉(zhuǎn)檔案信息等不同的表示方式將圖書館檔案信息表示出來;利用本體庫來代替檔案信息關(guān)鍵詞;利用對檔案信息的描述,將信息屬性構(gòu)成的向量來代替圖書館檔案[6],對圖書館檔案信息進(jìn)行處理,處理方式與用戶查詢方式相似,每一份檔案信息都有固定的內(nèi)容和編號。檔案中的每一部分也可以對概念信息進(jìn)行描述,提取出圖書館檔案中的關(guān)鍵信息,使用關(guān)鍵信息的屬性和概念進(jìn)行概括,對于概念信息來說[7],在檔案中提取的信息屬性值,可以構(gòu)成描述圖書館檔案信息的語義向量。具體分析如表1所示。

為了提高圖書館檔案信息的處理效率,對檔案進(jìn)行分類,利用效率高的管理形式和檔案整理方式。在檔案語義特征向量處理的結(jié)果中[8],利用本體的檔案概念樹當(dāng)作信息分類的依據(jù)。分類處理后的圖書館檔案信息,通常每個檔案的特征向量都是由多個屬性和概念組成。在概念的類中對檔案信息進(jìn)行映射,為了對檔案信息進(jìn)行處理,在圖書館檔案信息庫中建立管理結(jié)構(gòu),并建立檔案信息的語義索引。將處理后的檔案信息進(jìn)行索引,按照順序排列。在此基礎(chǔ)上建立有序鏈表,包括檔案信息的語義特征向量[9]。在檔案信息索引文件中插入指針,可以利用指針快速了解和處理海量圖書館檔案信息。

1.2 基于模糊集的圖書館檔案信息快速檢索方法

在對圖書館檔案信息處理完成的基礎(chǔ)上,利用索引項(xiàng)在檔案信息中出現(xiàn)頻率和索引項(xiàng)的大小計算檔案信息項(xiàng)位置的權(quán)重;對圖書館檔案信息檢索式進(jìn)行量化,對圖書館檔案信息從結(jié)構(gòu)上進(jìn)行劃分,并建立權(quán)重向量[10],得到多層的檔案信息向量;利用檔案信息向量計算相似度函數(shù)。最終實(shí)現(xiàn)模糊集的圖書館檔案信息快速檢索方法。

假設(shè)有4個檔案信息[D1],[D2],[D3]和[D4],[T]表示信息索引項(xiàng),4個檔案中均包含[T],并且出現(xiàn)的次數(shù)一樣,在檔案信息[D1]中,[T]包含在檔案開頭;在檔案信息[D2]中,[T]包含在檔案信息中間部分,在[D3]和[D4]中,[T]包含在檔案信息的最后部分。檔案信息的信息搜索引擎會理解為4部分檔案信息的索引[T]作用相同[11]。根據(jù)上述分析,出現(xiàn)在檔案信息開頭的索引比出現(xiàn)在檔案信息中間部分的索引作用更大些,出現(xiàn)在檔案信息最后部分的[D3]和[D4]中的索引主要作用在結(jié)尾部分。

式中,[ηt]表示可以調(diào)節(jié)的參數(shù)。海量圖書館檔案信息的快速檢索分以下幾個步驟:

1) 利用查詢條件檢索出圖書館檔案中的信息權(quán)重,得到檢索后的信息表達(dá)形式。

2) 抽取圖書館檔案信息中索引項(xiàng)來代替原圖書館檔案,將其出現(xiàn)的頻率當(dāng)作權(quán)重,獲取檔案的表達(dá)形式。

3) 建立圖書館檔案信息的權(quán)重向量。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 查全率

本文利用模糊集的圖書館檔案信息快速檢索方法來進(jìn)行實(shí)驗(yàn)。選取www.ustc.edu.cn等網(wǎng)頁來對圖書館檔案信息進(jìn)行查詢,實(shí)驗(yàn)采用的計算機(jī)內(nèi)存為4 GB,計算機(jī)系統(tǒng)為Windows 7,測試提出方法的查全率和查準(zhǔn)率。檔案信息的檢索次數(shù)為52次,一共有1 000條實(shí)際的檔案信息,需要全部檢索出來。建立數(shù)據(jù)集對檔案信息進(jìn)行統(tǒng)計,統(tǒng)計如表2所示。

由表2可知,本文方法能夠把實(shí)際檔案信息數(shù)全部檢索出來,其他兩種方法只能檢索出800條和825條實(shí)際檔案信息。說明所提方法具有較高的查全率,可以避免有遺漏的檔案信息,且不存在信息丟失現(xiàn)象,實(shí)現(xiàn)了海量圖書館中實(shí)際檔案信息數(shù)的檢索,為圖書館檔案信息的管理提高效率。

2.2 查準(zhǔn)率

在此基礎(chǔ)上,利用檔案信息索引項(xiàng)的權(quán)重值對圖書館檔案信息檢索的查準(zhǔn)率進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)對比如圖1、圖2所示。

分析圖1、圖2可知,本文方法中權(quán)重為2時,檔案信息的查準(zhǔn)率為60%;權(quán)重為3~6時,檔案信息的查準(zhǔn)率為80%;當(dāng)權(quán)重為7和8時查準(zhǔn)率逐漸升高接近100%。文獻(xiàn)[4]方法中,權(quán)重為2~6時的檔案信息查準(zhǔn)率為40%;權(quán)重為6~8時,檔案信息的查準(zhǔn)率為40%~60%。對比結(jié)果得到,本文方法的查準(zhǔn)率更高,可以準(zhǔn)確檢索出圖書館的檔案信息。

3 結(jié) 論

本文對海量圖書館檔案信息進(jìn)行快速檢索,檢索出重要的檔案信息,并對其進(jìn)行統(tǒng)計,獲得所提方法檔案信息查全率高的優(yōu)點(diǎn)。在分析檔案信息檢索查全率基礎(chǔ)上,利用檔案信息索引項(xiàng)的權(quán)重值對圖書館檔案信息的查準(zhǔn)率進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,本文方法的圖書館檔案信息檢索具有較高的查全率和查準(zhǔn)率。

參考文獻(xiàn)

[1] 王莉軍.海量數(shù)據(jù)下的文本信息檢索算法仿真分析[J].計算機(jī)仿真,2016,33(4):429?432.

WANG Lijun. Text information retrieval algorithm simulation analysis under massive data [J]. Computer simulation, 2016, 33(4): 429?432.

[2] 程鋒利,胡文娟,楊瑞.基于概率統(tǒng)計的小差異數(shù)據(jù)的分類模型仿真[J].科技通報,2016, 32(3):114?117.

CHENG Fengli, HU Wenjuan, YANG Rui. The small difference data classification model based on probability and statistics simulation [J]. Bulletin of science and technology, 2016, 32(3): 114?117.

[3] 張曉民,祁薇,張俊,等.T?STAR:一種基于關(guān)鍵詞的關(guān)系數(shù)據(jù)庫時態(tài)信息檢索方法[J].計算機(jī)應(yīng)用研究,2017,34(10):3051?3056.

ZHANG Xiaomin, QI Wei, ZHANG Jun, et al. T?STAR: keywords?based temporal information retrieval method over relational databases [J]. Application research of computers, 2017, 34(10): 3051?3056.

[4] 季斌,周濤發(fā),袁峰,等.地球化學(xué)的空間自相關(guān)異常信息提取方法[J].測繪科學(xué),2017,42(8):24?27.

JI Bin, ZHOU Taofa, YUAN Feng, et al. A method for identifying geochemical anomalies based on spatial autocorrelation [J]. Science of surveying and mapping, 2017, 42(8): 24?27.

[5] 崔道江,陳琳,李勇.智能檢索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)優(yōu)化研究[J].計算機(jī)測量與控制,2017,25(6):189?191.

CUI Daojiang, CHEN Lin, LI Yong. Research on optimization of network data mining technology in intelligent retrieval engine [J]. Computer measurement & control, 2017, 25(6): 189?191.

[6] 曲朝陽,孫立擎,潘峰,等.基于流形排序的電網(wǎng)截面數(shù)據(jù)檢索[J].科學(xué)技術(shù)與工程,2016,16(15):239?244.

QU Zhaoyang, SUN Liqing, PAN Feng, et al. The grid section data retrieval based on manifold ranking [J]. Science technology and engineering, 2016, 16(15): 239?244.

[7] 谷參.基于分布式結(jié)構(gòu)的圖書館信息檢索服務(wù)系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2017,40(1):83?85.

GU Shen. Research on library information retrieval service system based on distributed structure [J]. Modern electronics technique, 2017, 40(1): 83?85.

[8] 閆瑤瑤,李永先.基于“稀缺理論”的信息檢索認(rèn)知模型研究[J].情報雜志,2016,35(11):136?140.

YAN Yaoyao, LI Yongxian. Research on cognitive information retrieval model based on the "scarcity theory" [J]. Journal of intelligence, 2016, 35(11): 136?140.

[9] 李愛勤.多級索引驅(qū)動的地名信息檢索方法[J].測繪科學(xué),2017,42(4):103?107.

LI Aiqin. Multilevel index?driven place name information retrieval method [J]. Science of surveying and mapping, 2017, 42(4): 103?107.

[10] 劉萍,李斐雯,楊宇.國外交互式信息檢索研究進(jìn)展[J].情報理論與實(shí)踐,2017,40(5):132?138.

LIU Ping, LI Feiwen, YANG Yu. Research progress of interactive information retrieval at abroad [J]. Information studies: theory & application, 2017, 40(5): 132?138.

[11] 韓其琛,李冬梅.基于敘詞表的林業(yè)信息語義檢索模型[J].計算機(jī)科學(xué)與探索,2016,10(1):122?129.

HAN Qichen, LI Dongmei. Semantic model with thesaurus for forestry information retrieval [J]. Journal of frontiers of computer science & technology, 2016, 10(1): 122?129.

[12] 程煜華,賴茂生.基于D?S證據(jù)理論的信息檢索模型研究[J].圖書情報工作,2017,61(21):5?12.

CHENG Yuhua, LAI Maosheng. Research on the information retrieval model based on D?S theory [J]. Library and information service, 2017, 61(21): 5?12.

主站蜘蛛池模板: 就去吻亚洲精品国产欧美| 日韩精品免费一线在线观看 | 欧洲亚洲一区| 欧美日韩国产综合视频在线观看| 日韩无码视频专区| 国产成人h在线观看网站站| 国产99精品视频| 在线日韩日本国产亚洲| 国产乱子伦视频在线播放| 亚洲丝袜第一页| 99福利视频导航| 青青草原国产精品啪啪视频| 嫩草影院在线观看精品视频| 亚洲天堂视频在线播放| 国产精品综合色区在线观看| 国内精自线i品一区202| 国产人免费人成免费视频| 在线va视频| 国产精品第| 欧洲极品无码一区二区三区| 67194成是人免费无码| 好吊色妇女免费视频免费| 中国丰满人妻无码束缚啪啪| 色哟哟国产成人精品| 男人天堂亚洲天堂| 亚洲成人免费看| 免费人成网站在线观看欧美| 国产麻豆91网在线看| 久久黄色视频影| 亚洲第一成人在线| 无码日韩人妻精品久久蜜桃| 国产精品自拍合集| 亚洲,国产,日韩,综合一区| 在线综合亚洲欧美网站| 69精品在线观看| 国产精品尤物在线| 热久久国产| 亚洲国产AV无码综合原创| 亚洲不卡网| 亚洲成人黄色网址| 亚洲精品国产成人7777| 成人噜噜噜视频在线观看| 97国产在线播放| 欧美一区二区福利视频| 国产xxxxx免费视频| 久久国产精品影院| 国产午夜精品一区二区三区软件| 国产区网址| 亚洲国产日韩欧美在线| 国产啪在线91| 国产在线观看人成激情视频| 狠狠做深爱婷婷久久一区| 亚洲色欲色欲www在线观看| 成人午夜网址| 日韩麻豆小视频| 精品国产美女福到在线不卡f| 国产微拍一区| 亚洲成人精品久久| 日韩福利在线观看| 97国产精品视频人人做人人爱| 五月婷婷激情四射| 欧美特黄一级大黄录像| 一区二区欧美日韩高清免费| 波多野结衣一二三| 亚洲国产高清精品线久久| 久久天天躁狠狠躁夜夜2020一| 日韩欧美中文字幕在线韩免费| 国产在线观看91精品| 亚洲欧美在线看片AI| 日本一本在线视频| 91麻豆精品国产91久久久久| 亚洲色图综合在线| 高清不卡一区二区三区香蕉| 国产一级一级毛片永久| 国产色婷婷| 国产精品香蕉在线| 一本大道香蕉中文日本不卡高清二区| 欧美午夜在线播放| 国产成人精品亚洲77美色| 欧美 亚洲 日韩 国产| 国产综合另类小说色区色噜噜| 国产精品九九视频|