999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術的讀者知識管理在學術圖書館中的應用

2013-07-14 08:26:30丁海德周曉梅青島科技大學圖書館山東青島266061
圖書館理論與實踐 2013年2期
關鍵詞:數據挖掘圖書館文本

●張 巖,丁海德,周曉梅(青島科技大學 圖書館,山東 青島 266061)

1 引言

圖書館數字化的迅猛發展給我們帶來了海量的讀者相關信息。[1]在數字化學術圖書館中,對海量非結構化讀者相關知識的管理問題已經成為學者感興趣的研究領域。

研究人員設計開發了許多挖掘算法和知識管理系統,其中,文本挖掘是一種基于自然語言處理、信息檢索、信息抽取和數據挖掘等技術,在海量非結構化文本中半自動的發現模式和趨勢的挖掘技術。[2-4]通常文本挖掘被視為面向功能的方法,它專注于數據挖掘任務的需求和目標。這種目標驅動的方法將文本挖掘研究和現實的應用緊密地結合起來。然而,由于數據類型的多樣化和知識存在的不同形式,文本挖掘不得不面對各種難題。對于不同目的的不同功能需要考慮使用不同的文本挖掘系統。

2 文本挖掘技術

文本挖掘是基于先進的信息技術,對“隱藏”于海量非結構化文本中的沒有檢測到的新穎的非結構化知識進行提取的過程。[5]它使得知識工作者得以揭示文本集中的關系并從中發現新的知識。因此,文本挖掘和數據挖掘是相似的,二者都要處理海量數據并獲得知識。但數據挖掘是從結構化的數據集中獲取,如數據庫等其他結構化形式。而文本挖掘所面對的是各種類型的不斷增加的文本數據流。

文本挖掘系統由三部分組成:最基本的部分包括機器學習、數理統計和自然語言處理;在此基礎之上五種基本技術構成了第二部分,分別為文本數據提取、文本分類、文本聚類、文本數據壓縮和文本數據處理;第三部分是在前者基礎之上的應用、信息獲取(如信息檢索、信息過濾等) 和知識發現(如數據分析和數據預測等)。

其中,文本數據提取可以自動發現和索引文本中的重要詞句,如標題、作者、關鍵詞等,同時還可以檢測存檔中出現的重復文件。

文本分類用以將文本文件歸為預先定義好的類別。例如,將不同的新聞分別歸類為“體育”、“政治”和“文藝”等。不論采用何種方法,文本分類過程總是由一個事先分類 l∈L的訓練集D=(d1,…,dn)開始。然后確定一個分類模型

用以將域內新文件d歸入正確的類別。這是一種可被用于很多應用中的監督學習。

文本聚類通過基于數據的屬性來計算聚類和比較相似度,將具有相似內容的文本分別聚集為不同的群組。最為常用的聚類方法有K均值算法、模型估計、混合模型估計、層次聚類和其他方法。[6]

3 基于文本挖掘技術的讀者知識管理

Alexandre等人提出的文本挖掘方法利用信息的提取、檢索和文本挖掘,通過估計協作網絡或知識地圖揭示實體中不同級別的連通性。這種網絡能夠有效洞察學術圖書館中諸如讀者知識(包括來自讀者的知識、關于讀者的知識和能為讀者提供的知識) 和讀者之間的關系,使具有相同研究興趣的讀者可以自動獲取各自所需的信息。

本文提出方案的具體流程:① 將讀者和學術圖書館提供的各種資源如論文、書籍、博客以及關于讀者的相關知識整理為待處理文本;② 文本經信息提取得到實體和索引數據庫;③ 對所得實體進行相關性計算得到實體的相關數據;④ 經數據挖掘、模式的形成及信息檢索完成對文檔的文本挖掘處理。隨后為可視化工具和評價工具以及讀者知識管理的知識管理系統。經以上兩個模塊的處理,讀者即可獲得完備、有序的與研究領域相關的讀者知識。

3.1 實體提取

實體提取階段被稱為命名實體 (Named Entity,NE) 識別,用于發現正確的名稱和它們的變化及所屬的類別。[7]這里NE是指能夠表達現實世界或抽象世界中的對象的文本元素。例如,一個實體可被定義為一個矢量,該矢量由描述、類別和附加信息構成E={description, class,<additional information>} 。 附加信息可以用來說明諸如模式在文本中的位置等信息。

實體提取過程由兩部分組成:有關字的結構和模式。其中,有關字的結構對于實體提取過程和知識庫的表達至關重要。[8]每一個納入考慮的類都和一個相關字表相對應,每一個相關字表都存儲了一組可自辨識的詞。模式在書面語言中得到廣泛應用,它們表達了可被分類的一系列的詞。

3.2 實體的相關

相關性方法是用以區分搭配的最常用方法,可用于其他文本元素的相近詞辨別和相關程度的度量。LRD(Latent Relation Discovery) 方法通過對三種因素的考慮來確定實體間的關系。① 共現性。如果兩個實體出現在同一文本中即為共現。② 距離。計算在同一文本中所有具有共現性之間的距離。③ 相關程度。給定實體E1,則實體E1和E2之間的相關程度可由式(2) 給出。均值距離越大說明二者的相關程度越低。一般而言,E1和E2之間的相關程度是不對稱的,其值取決與E1還是E2是目標實體。

式 中 f( Freqi( E1) ) =tfidfi( E1) ,( Freqi( E2) )=tfidfi(E2) , 且Freqi(E1) 和Freqi(E2) 存在于第i個文本之中。tfidfi即詞頻—逆文檔頻率法,是利用統計的方式計算出字詞與文件中的關聯性,進而推導出此次檢索該文件在整個資料庫中的重要程度。定義為:

在構造向量過程中,我們利用式(2) 計算每對實體之間的相關程度。

3.3 構造實體數據庫

為進行實體提取和相關過程,需要建立相關實體的數據庫。用LRD方法計算由源實體(Source Entity,SE) 和目標實體 (Target Entity,TE) 構成的實體對,從而將每一組給定實體對〈SE,TE〉其相關程度存儲在數據庫中。如表1所示,從三個文本中提取出七個實體,計算出了其相關程度。

因此,對于任意給定SE,可以依據相關程度檢索出所有相關的TE。例如,表1中的E3和E1之間的相關程度可由下式得出。

R(E1,E3) =2/3*(0.4938+0.5850) =0.7192 (4)

表1 三個文本中七個實體文本間相關權值清單

3.4 信息檢索與模式生成

為了可以查詢分級文本,計算每一文本的擴展向量和基于詞的查詢向量的余弦系數。其精度由檢索文本過程中余弦系數的閾值來控制。本方案采用聚類算法生成模式,以進一步分析文本和實體是如何相互關聯的,采用半徑參數方法來控制聚類形成。[9]

首先,選擇一個矢量形成第一個聚類。重復這個過程,選擇下一個矢量并通過如式 (5) 所示余弦方法和第一個聚類比較。

式中ti和tk是矢量t中第i個和第j個實體的歸一化的頻率,qi和qj是矢量q中第i個和第j個實體的歸一化的頻率。如果一個矢量和一個聚類質心被1減的差大于參數r則該矢量形成一個性聚類。否則,該矢量被分配如某一聚類且計算該聚類的質心值。

當聚類過程達到會聚,過程停止,這取決于與當前和前一個過程的平均差之和。聚類過程結束后我們得到包含矢量和聚類平均質心的聚類。

3.5 實驗結果

在實驗中,以來自讀者在圖像壓縮和傳熱學領域的3000篇研究論文為實驗對象,對每一篇論文進行實體識別處理并將結果以矢量的形式存儲。由此,矢量中的元素表達了由描述、類別和在文檔中的位置信息組成的實體。實驗共提取出了2101個實體,其中包含342個組織名稱,1283個個人和476個研究領域。通過實體分析工具對其進行分析以獲得它們之間的相互關系,并應用于知識管理系統。例如,對于給定的SE,我們可以得到最為相關的TE;對于每個類,分析最為相關的關系,從而提供一種簡單的方法來檢查性能,甚至用以檢索某一研究領域的專家。實體相互關系表達了不同的目標,從而對某一研究感興趣的成員就自然地形成了一個群組,由此而形成的社會網絡將使各個研究群組的成員受益。

4 結論與展望

在本研究中,我們致力于通過文本挖掘和知識管理技術的應用,在學術圖書館中構建一種各個研究領域都可以分享和學習的研究群體。通過基于共現性的文本挖掘方法來獲得文本元素間的相關程度,從而揭示隱藏的知識為知識管理中的決策提供支持。實驗結果表明,本文提出的方案可有效地用于處理海量文本,并且對于新增文本并不需要額外的操作。因此,本文方法能夠處理隱匿于學術圖書館或其他組織的海量文檔中的知識,并對其進行管理。

[ 1] DaneshgarF, BosanquetL.Organizingcustomerknowledge in academic libraries[ J].Electronic Journal of KnowledgeManagement, 2010, 8 ( 1) : 21-32.

[ 2] M Hearst.UntanglingTextDataMining[ C]//The37th Annual Meeting of the Association for Computer Linguistics( ACL’99).Stroudsburg, PA, USA: AssociationforComputationalLinguistica, 1999: 3-10.

[ 3] Gene Ontology Consortium [ EB/OL].[ 2010-06-22].http://www.geneontology.org.

[ 4] R Agrawal, R Srikant.Fast Algorithms for Mining Association Rules in Large Database[ C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB).SantiagodeChile, Chile: MorganKaufmamm, 1994: 487-499.

[ 5] Antonis Spinakis.Text Mining: A Powerful Tool for KnowledgeManagement[ EB/OL].[ 2010-07-29].http://www.quantos-stat.com/articles/Text_Mining.pdf.

[ 6] Xu L, et al.Maximum margin clustering[ J].Advances in Neural Information Processing Systems,2005(17) : 1537-1544.

[ 7] CunninghamHGate.Ageneralarchitecturefortextengineering [ J].Computers and the Humanities,2002, 36 (2) : 223-254.

[ 8] GuthrieL, etal.Theroleoflexiconsinnaturelanguage processing[J].Communications of the ACM, 1996,39(1) : 63-72.

[9] Alexandre G, et al.LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval[ C]//Proceedings of the 7th International Conference on Web-Age Information Management.Hong Kong:Know ledge Media Institute, 2006: 122-133.

猜你喜歡
數據挖掘圖書館文本
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 男人天堂伊人网| 天天操天天噜| 国产丰满大乳无码免费播放| 国产精品视频猛进猛出| 国产内射在线观看| 亚洲天堂网视频| 国产高潮视频在线观看| 国产精品亚洲а∨天堂免下载| 午夜福利免费视频| 国产手机在线小视频免费观看| 亚洲一区二区精品无码久久久| 美女无遮挡拍拍拍免费视频| 小说 亚洲 无码 精品| 高清码无在线看| 国精品91人妻无码一区二区三区| 波多野结衣国产精品| 亚洲日本一本dvd高清| 国产精品区网红主播在线观看| 日韩无码视频专区| 国产成人高清精品免费软件| 99国产精品国产| 婷婷六月综合| 精品国产自在在线在线观看| 国产一区在线视频观看| 亚洲成在线观看| 国产丝袜一区二区三区视频免下载| 黄色网站不卡无码| 五月激激激综合网色播免费| 日韩毛片免费| 精品一区二区三区中文字幕| 欧日韩在线不卡视频| 伊伊人成亚洲综合人网7777| 国产成人无码久久久久毛片| 亚洲国产在一区二区三区| 亚洲日韩AV无码精品| 久久96热在精品国产高清 | 亚洲第七页| 国产一级二级三级毛片| 人人爱天天做夜夜爽| 色婷婷亚洲十月十月色天| 波多野结衣一区二区三区AV| 欧美成人怡春院在线激情| 免费国产一级 片内射老| 久久精品中文字幕少妇| 亚洲国语自产一区第二页| 性网站在线观看| 国产爽妇精品| 久久综合激情网| 日韩在线欧美在线| 国产欧美视频在线| 中国国产A一级毛片| 高清无码不卡视频| 国产成人高清精品免费5388| 成人午夜免费观看| 久草青青在线视频| 国产流白浆视频| 91久久夜色精品国产网站| 亚洲黄色成人| 国产污视频在线观看| 黄色一级视频欧美| 性欧美精品xxxx| 天天色天天操综合网| 99re在线视频观看| 久热re国产手机在线观看| 中文字幕无码av专区久久| 亚洲欧洲综合| 午夜啪啪福利| 国产网站免费观看| 国产成人高清在线精品| 亚洲视频二| 国内精品小视频在线| 亚洲成在人线av品善网好看| 色爽网免费视频| 亚洲成人网在线观看| 亚洲最猛黑人xxxx黑人猛交| 国产成人综合欧美精品久久| 欧美成人精品一区二区| 成人福利在线免费观看| 在线免费无码视频| 欧美日韩国产在线观看一区二区三区| 国产尤物视频网址导航| 免费高清a毛片|