999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術的讀者知識管理在學術圖書館中的應用

2013-07-14 08:26:30丁海德周曉梅青島科技大學圖書館山東青島266061
圖書館理論與實踐 2013年2期
關鍵詞:數據挖掘圖書館文本

●張 巖,丁海德,周曉梅(青島科技大學 圖書館,山東 青島 266061)

1 引言

圖書館數字化的迅猛發展給我們帶來了海量的讀者相關信息。[1]在數字化學術圖書館中,對海量非結構化讀者相關知識的管理問題已經成為學者感興趣的研究領域。

研究人員設計開發了許多挖掘算法和知識管理系統,其中,文本挖掘是一種基于自然語言處理、信息檢索、信息抽取和數據挖掘等技術,在海量非結構化文本中半自動的發現模式和趨勢的挖掘技術。[2-4]通常文本挖掘被視為面向功能的方法,它專注于數據挖掘任務的需求和目標。這種目標驅動的方法將文本挖掘研究和現實的應用緊密地結合起來。然而,由于數據類型的多樣化和知識存在的不同形式,文本挖掘不得不面對各種難題。對于不同目的的不同功能需要考慮使用不同的文本挖掘系統。

2 文本挖掘技術

文本挖掘是基于先進的信息技術,對“隱藏”于海量非結構化文本中的沒有檢測到的新穎的非結構化知識進行提取的過程。[5]它使得知識工作者得以揭示文本集中的關系并從中發現新的知識。因此,文本挖掘和數據挖掘是相似的,二者都要處理海量數據并獲得知識。但數據挖掘是從結構化的數據集中獲取,如數據庫等其他結構化形式。而文本挖掘所面對的是各種類型的不斷增加的文本數據流。

文本挖掘系統由三部分組成:最基本的部分包括機器學習、數理統計和自然語言處理;在此基礎之上五種基本技術構成了第二部分,分別為文本數據提取、文本分類、文本聚類、文本數據壓縮和文本數據處理;第三部分是在前者基礎之上的應用、信息獲取(如信息檢索、信息過濾等) 和知識發現(如數據分析和數據預測等)。

其中,文本數據提取可以自動發現和索引文本中的重要詞句,如標題、作者、關鍵詞等,同時還可以檢測存檔中出現的重復文件。

文本分類用以將文本文件歸為預先定義好的類別。例如,將不同的新聞分別歸類為“體育”、“政治”和“文藝”等。不論采用何種方法,文本分類過程總是由一個事先分類 l∈L的訓練集D=(d1,…,dn)開始。然后確定一個分類模型

用以將域內新文件d歸入正確的類別。這是一種可被用于很多應用中的監督學習。

文本聚類通過基于數據的屬性來計算聚類和比較相似度,將具有相似內容的文本分別聚集為不同的群組。最為常用的聚類方法有K均值算法、模型估計、混合模型估計、層次聚類和其他方法。[6]

3 基于文本挖掘技術的讀者知識管理

Alexandre等人提出的文本挖掘方法利用信息的提取、檢索和文本挖掘,通過估計協作網絡或知識地圖揭示實體中不同級別的連通性。這種網絡能夠有效洞察學術圖書館中諸如讀者知識(包括來自讀者的知識、關于讀者的知識和能為讀者提供的知識) 和讀者之間的關系,使具有相同研究興趣的讀者可以自動獲取各自所需的信息。

本文提出方案的具體流程:① 將讀者和學術圖書館提供的各種資源如論文、書籍、博客以及關于讀者的相關知識整理為待處理文本;② 文本經信息提取得到實體和索引數據庫;③ 對所得實體進行相關性計算得到實體的相關數據;④ 經數據挖掘、模式的形成及信息檢索完成對文檔的文本挖掘處理。隨后為可視化工具和評價工具以及讀者知識管理的知識管理系統。經以上兩個模塊的處理,讀者即可獲得完備、有序的與研究領域相關的讀者知識。

3.1 實體提取

實體提取階段被稱為命名實體 (Named Entity,NE) 識別,用于發現正確的名稱和它們的變化及所屬的類別。[7]這里NE是指能夠表達現實世界或抽象世界中的對象的文本元素。例如,一個實體可被定義為一個矢量,該矢量由描述、類別和附加信息構成E={description, class,<additional information>} 。 附加信息可以用來說明諸如模式在文本中的位置等信息。

實體提取過程由兩部分組成:有關字的結構和模式。其中,有關字的結構對于實體提取過程和知識庫的表達至關重要。[8]每一個納入考慮的類都和一個相關字表相對應,每一個相關字表都存儲了一組可自辨識的詞。模式在書面語言中得到廣泛應用,它們表達了可被分類的一系列的詞。

3.2 實體的相關

相關性方法是用以區分搭配的最常用方法,可用于其他文本元素的相近詞辨別和相關程度的度量。LRD(Latent Relation Discovery) 方法通過對三種因素的考慮來確定實體間的關系。① 共現性。如果兩個實體出現在同一文本中即為共現。② 距離。計算在同一文本中所有具有共現性之間的距離。③ 相關程度。給定實體E1,則實體E1和E2之間的相關程度可由式(2) 給出。均值距離越大說明二者的相關程度越低。一般而言,E1和E2之間的相關程度是不對稱的,其值取決與E1還是E2是目標實體。

式 中 f( Freqi( E1) ) =tfidfi( E1) ,( Freqi( E2) )=tfidfi(E2) , 且Freqi(E1) 和Freqi(E2) 存在于第i個文本之中。tfidfi即詞頻—逆文檔頻率法,是利用統計的方式計算出字詞與文件中的關聯性,進而推導出此次檢索該文件在整個資料庫中的重要程度。定義為:

在構造向量過程中,我們利用式(2) 計算每對實體之間的相關程度。

3.3 構造實體數據庫

為進行實體提取和相關過程,需要建立相關實體的數據庫。用LRD方法計算由源實體(Source Entity,SE) 和目標實體 (Target Entity,TE) 構成的實體對,從而將每一組給定實體對〈SE,TE〉其相關程度存儲在數據庫中。如表1所示,從三個文本中提取出七個實體,計算出了其相關程度。

因此,對于任意給定SE,可以依據相關程度檢索出所有相關的TE。例如,表1中的E3和E1之間的相關程度可由下式得出。

R(E1,E3) =2/3*(0.4938+0.5850) =0.7192 (4)

表1 三個文本中七個實體文本間相關權值清單

3.4 信息檢索與模式生成

為了可以查詢分級文本,計算每一文本的擴展向量和基于詞的查詢向量的余弦系數。其精度由檢索文本過程中余弦系數的閾值來控制。本方案采用聚類算法生成模式,以進一步分析文本和實體是如何相互關聯的,采用半徑參數方法來控制聚類形成。[9]

首先,選擇一個矢量形成第一個聚類。重復這個過程,選擇下一個矢量并通過如式 (5) 所示余弦方法和第一個聚類比較。

式中ti和tk是矢量t中第i個和第j個實體的歸一化的頻率,qi和qj是矢量q中第i個和第j個實體的歸一化的頻率。如果一個矢量和一個聚類質心被1減的差大于參數r則該矢量形成一個性聚類。否則,該矢量被分配如某一聚類且計算該聚類的質心值。

當聚類過程達到會聚,過程停止,這取決于與當前和前一個過程的平均差之和。聚類過程結束后我們得到包含矢量和聚類平均質心的聚類。

3.5 實驗結果

在實驗中,以來自讀者在圖像壓縮和傳熱學領域的3000篇研究論文為實驗對象,對每一篇論文進行實體識別處理并將結果以矢量的形式存儲。由此,矢量中的元素表達了由描述、類別和在文檔中的位置信息組成的實體。實驗共提取出了2101個實體,其中包含342個組織名稱,1283個個人和476個研究領域。通過實體分析工具對其進行分析以獲得它們之間的相互關系,并應用于知識管理系統。例如,對于給定的SE,我們可以得到最為相關的TE;對于每個類,分析最為相關的關系,從而提供一種簡單的方法來檢查性能,甚至用以檢索某一研究領域的專家。實體相互關系表達了不同的目標,從而對某一研究感興趣的成員就自然地形成了一個群組,由此而形成的社會網絡將使各個研究群組的成員受益。

4 結論與展望

在本研究中,我們致力于通過文本挖掘和知識管理技術的應用,在學術圖書館中構建一種各個研究領域都可以分享和學習的研究群體。通過基于共現性的文本挖掘方法來獲得文本元素間的相關程度,從而揭示隱藏的知識為知識管理中的決策提供支持。實驗結果表明,本文提出的方案可有效地用于處理海量文本,并且對于新增文本并不需要額外的操作。因此,本文方法能夠處理隱匿于學術圖書館或其他組織的海量文檔中的知識,并對其進行管理。

[ 1] DaneshgarF, BosanquetL.Organizingcustomerknowledge in academic libraries[ J].Electronic Journal of KnowledgeManagement, 2010, 8 ( 1) : 21-32.

[ 2] M Hearst.UntanglingTextDataMining[ C]//The37th Annual Meeting of the Association for Computer Linguistics( ACL’99).Stroudsburg, PA, USA: AssociationforComputationalLinguistica, 1999: 3-10.

[ 3] Gene Ontology Consortium [ EB/OL].[ 2010-06-22].http://www.geneontology.org.

[ 4] R Agrawal, R Srikant.Fast Algorithms for Mining Association Rules in Large Database[ C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB).SantiagodeChile, Chile: MorganKaufmamm, 1994: 487-499.

[ 5] Antonis Spinakis.Text Mining: A Powerful Tool for KnowledgeManagement[ EB/OL].[ 2010-07-29].http://www.quantos-stat.com/articles/Text_Mining.pdf.

[ 6] Xu L, et al.Maximum margin clustering[ J].Advances in Neural Information Processing Systems,2005(17) : 1537-1544.

[ 7] CunninghamHGate.Ageneralarchitecturefortextengineering [ J].Computers and the Humanities,2002, 36 (2) : 223-254.

[ 8] GuthrieL, etal.Theroleoflexiconsinnaturelanguage processing[J].Communications of the ACM, 1996,39(1) : 63-72.

[9] Alexandre G, et al.LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval[ C]//Proceedings of the 7th International Conference on Web-Age Information Management.Hong Kong:Know ledge Media Institute, 2006: 122-133.

猜你喜歡
數據挖掘圖書館文本
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 久青草网站| 成人免费午夜视频| 影音先锋亚洲无码| 精品国产美女福到在线不卡f| 韩国自拍偷自拍亚洲精品| 久久人人97超碰人人澡爱香蕉| 国产成人福利在线| 尤物视频一区| 欧美日韩国产高清一区二区三区| 99久久精品久久久久久婷婷| 成人av专区精品无码国产| 美女被操黄色视频网站| 亚洲色图欧美| 中文国产成人精品久久一| 夜夜高潮夜夜爽国产伦精品| 情侣午夜国产在线一区无码| 91色爱欧美精品www| 国产精品黑色丝袜的老师| 狠狠色综合久久狠狠色综合| 国产人妖视频一区在线观看| 99久久精品免费看国产电影| 青青草原国产精品啪啪视频| 色窝窝免费一区二区三区| 国产9191精品免费观看| 亚洲精品波多野结衣| 亚洲不卡无码av中文字幕| 凹凸国产分类在线观看| 99久久国产综合精品2020| 欧美一区二区人人喊爽| 91综合色区亚洲熟妇p| 国产成人三级| 91人妻日韩人妻无码专区精品| 四虎永久免费在线| 日韩精品一区二区三区视频免费看| 国产精品林美惠子在线观看| 亚洲成a人片77777在线播放| 亚洲不卡av中文在线| 亚洲精品人成网线在线| 国产91丝袜在线播放动漫| 日本一区二区不卡视频| 88av在线看| 亚洲精品无码日韩国产不卡| 久久性视频| 91麻豆精品国产91久久久久| 国产亚洲男人的天堂在线观看| 99久久免费精品特色大片| 欧美福利在线| 网友自拍视频精品区| 一级毛片免费不卡在线视频| 国产成人一区| 国产永久无码观看在线| 亚洲婷婷丁香| 看国产毛片| 超碰aⅴ人人做人人爽欧美| 亚洲天堂日韩av电影| 欧美一级高清免费a| 麻豆国产精品一二三在线观看| 欧美日韩综合网| 久久免费看片| 欧美成人综合在线| 日本欧美中文字幕精品亚洲| 亚洲精品第一在线观看视频| 在线看片免费人成视久网下载| 日韩高清中文字幕| 国产成人精品一区二区不卡| 麻豆国产在线观看一区二区| 色网站在线免费观看| 亚洲精品图区| 亚洲日韩国产精品综合在线观看| 另类欧美日韩| 国产制服丝袜91在线| 性69交片免费看| 亚洲一欧洲中文字幕在线| 日本道综合一本久久久88| 亚洲日韩高清在线亚洲专区| 特级精品毛片免费观看| 亚洲国产中文欧美在线人成大黄瓜| 精品人妻无码中字系列| 国产无码精品在线播放| 成人无码区免费视频网站蜜臀| 久久亚洲精少妇毛片午夜无码| 狠狠亚洲婷婷综合色香|