999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識發現的高校圖書館機構知識庫模型的建立

2016-09-23 07:59:37王芙蓉
圖書館學刊 2016年8期
關鍵詞:數據挖掘數據庫資源

王芙蓉

(山西傳媒學院圖書館,山西 晉中 030619)

基于知識發現的高校圖書館機構知識庫模型的建立

王芙蓉

(山西傳媒學院圖書館,山西 晉中 030619)

機構知識庫是學術機構將成員產生的學術資料進行收集、保存、管理,以開放和共享為目的,實現資源的永久保存和傳播。介紹了機構知識庫的概念和高校圖書館建立機構知識庫的必要性及原則。為了避免數據冗余,便于深層次數據挖掘,以題錄實體和機構實體為元數據,構建了基于知識發現的三層架構的機構知識庫模型,并闡述了該模型的實現過程。

機構知識庫 高校圖書館 數據挖掘 知識發現 題錄

1 機構知識庫的概念

機構知識庫(IR,Institutional Repository)又稱為“機構典藏庫”“機構存儲庫”“機構倉儲庫”等,美國網絡信息聯盟(Coalition of Networked Information)執行總監Clifford Lynch[1]定義機構知識庫為“高校的機構知識庫是高校為其成員提供的一套服務系統,用于管理和傳播高校各個部門及其成員創作的數字化資料”。因此機構知識庫就是學術機構利用計算機技術,將成員產生的學術資源進行收集、規范、組織、存儲,形成可以運用計算機保存、管理、檢索的數字資源,以開放和共享為目的,實現資源的永久保存和傳播。國外機構知識庫的建設已成為學術機構的一項基礎教育設施,而在我國機構知識庫建設比較落后,具有代表性的是廈門大學建設的學術典藏庫以及香港大學的機構知識庫。

機構知識庫中收納的學術資料包括公開發表和未公開發表的各種形式的學術成果,這些學術資料包括論文、專著、專利、研究報告、課件、實驗報告等,以及所有格式的圖像、視頻資料、音頻資料、文本、藝術作品等。學術資料的收集是機構知識庫建設中一項繁重的任務,建立合理的征收制度,提高機構知識庫的文獻資源服務質量,吸引更多的教師使用機構知識庫,從而激發教師主動提交學術成果,擴大收錄范圍和形式。對公開發表的學術資料可以運用轉換工具直接將現有數據庫導入機構知識庫中,未公開發表的灰色文獻可以運用個人自主提交的方法導入機構知識庫。

2 高校圖書館建立機構知識庫的必要性

機構知識庫收錄各種內容、不同格式的文獻資源,尤其收錄諸如實驗報告、預印本文獻、測試數據等灰色文獻,這些資源也具有很高的學術價值。機構知識庫可以存儲成員產生的學術資料,以便得到很好的保存利用,同時成員可以通過機構知識庫進行學術交流,拓展視野,提升科研能力。機構知識庫也成為高校與高校之間進行學術交流的橋梁。

圖書館重要功能之一是對文獻資料進行收集、加工、保存并傳播文化資源。因此,圖書館在文獻資源收集整理方面具有豐富的工作經驗、完善的工作流程以及相關技術人員。另一方面,數字圖書館與機構知識庫在服務目的上是統一的,在信息技術平臺上是相似的,例如元數據倉庫的建設、中間件技術、信息交換協議、RSS技術、智能代理等,運用這些技術可以建立相關的數據資源系統以及對分布式系統進行集成,從而實現對文獻資源的有效整合以及跨庫、跨平臺的精確檢索。

3 機構知識庫構建原則

3.1 數據資源應不斷更新、完善

機構知識庫中收集的數據資源應充分體現學校教學科研的方向、特色以及水平,對學校成員產生的學術成果進行收集、過濾、整理、評價、入庫,從而不斷更新知識庫,同時,要對知識庫中的數據進行備份。機構知識庫建設是一個長期、可持續、不斷完善的過程,應堅持“開放存取”(Open Access)的服務理念。

3.2 具有統一標準的元數據

元數據的存儲是機構知識庫建設的基礎,良好的元數據格式為機構知識庫的二次開發與數據挖掘打下了堅實的基礎。目前,我國大多數高校是使用軟件工具(NoteExpress、DSpace)將數據管理系統(高校自建數據庫、商業數據庫)批量導入到機構知識庫中,知識庫中的數據標準不一、關聯準確性差,不利于對機構知識庫進行深層數據挖掘,這是機構知識庫發展過程中面臨的一個重要問題。因此,具有統一標準的元數據格式是機構知識庫底層資源整合中至關重要的問題。

3.3 保護版權,合法使用文獻資源

機構知識庫中的文獻資源按照所有權可以分為3類:機構所有、提交者所有、其他權利人所有[2]。所有權屬于學術機構的文獻資源一般不會產生版權糾紛問題。對于提交者具有所有權的文獻資源,高校應與提交者達成協議,獲得使用權利。對于其他個人或組織具有所有權的文獻,高校應依據相關法律規定,制定合理的收繳與使用制度。

4 基于知識發現的圖書館機構知識庫模型的建立

知識發現(Knowledge Discovery in Database,KDD)是指從數據庫、數據倉庫或其他資源庫中運用數據挖掘技術發現數據之間潛在的關聯、規則、趨勢等,并將數據及其關系轉換為知識模式,通過對模式進行評價,得到對用戶有用的知識,并通過可視化界面展示出來。

知識發現過程可分為:搜集數據、數據預處理、數據挖掘、知識評價與表示4個步驟。①搜集數據:根據目標搜集有關數據建立數據庫,筆者所討論的數據搜集對象是數據資源系統和個人灰色資源,此時建立的數據庫沒有統一標準的元數據模型。②數據預處理:由于上一階段所建立的數據庫沒有統一標準格式、關聯不精準、存在冗余數據,因此需要對數據進行加工、轉換。本文設計的機構實體模型,能夠消除冗余數據,并保證數據完整性與一致性,建立有利于挖掘算法的數據庫。③數據挖掘:采用挖掘算法對數據庫進行挖掘。④知識評價與表示:對上一階段數據挖掘產生的數據集合運用可視化的方法表示出來,并運用可信度與興趣度對知識模式進行分析,去除冗余模式,更新或修改知識庫內容,使知識庫處于不斷更新狀態,決策支持達到最優。

圖1 基于知識發現的機構知識庫模型流程

機構知識庫的建設在技術上是以現有的數字圖書館信息平臺為基礎,在管理上是以圖書館文獻資源管理模式為基礎。用戶可以通過機構知識庫提交、獲取、共享學術資源,為用戶提供一個面向不同知識服務、開放的人性化平臺。筆者設計的機構知識庫模型總體架構分為3層:數據處理層、知識發現層、知識表示層,這3層是相互聯系、相輔相成的整體,其流程如圖1所示。

4.1 數據處理層

數據處理層是將原始數據經過數據預處理得到可以進行數據挖掘的具有統一標準的數據庫,可以對該數據庫進行數據挖掘。機構知識庫中的源數據包括兩個部分:數據資源系統和個人灰色資源。數據資源系統按照內容主要包括高校科研系統數據庫、學位論文數據庫、外購數據庫、學生作品庫等。個人灰色資源是指學者自己保存,未經發表的文獻資料。數據管理系統通過NoteExpress工具將數據完整無損地導入到數據庫中,個人灰色資源通過自主存檔技術將數據導入到數據庫中。

由于從不同數據管理系統中導出的題錄數據的表達、格式、分類體系不同,表達各異的同一個體會被識別成不同的個體,從而產生冗余數據和不完整數據。例如:學者、機構、主題等實體在不同數據庫管理系統中有不同的名稱和寫法,這樣的實體導入到數據庫中會被識別為不同的實體;不同的數據管理系統依據不同的學科分類體系,例如中文數據庫普遍使用《中國圖書館分類法》《中國科學院圖書館圖書分類法》[3],外文數據庫普遍采用《杜威十進分類法》《國際十進分類法》,因此筆者設計了機構實體關系模型,用戶看到和使用的是機構實體的數據。該模型與題錄實體一并作為元數據來存儲機構知識庫文獻資源,支持數據挖掘與知識發現。題錄實體如圖2所示,機構實體如圖3所示。

圖2 題錄實體

圖3 機構實體

題錄實體具有主題詞、標引詞、作者、文獻來源等屬性,題錄實體數據來源于對題錄數據的預處理,即對不同來源題錄數據的抽取。機構實體具有機構名稱、地址、學者、主題、學科等屬性,機構實體數據來源于與學校信息中心的對接,同時由教學秘書或學科館員人工關聯題錄實體與機構實體的對應關系。

該模型可以將半結構化的文本信息轉換為具有統一標準的結構化關系數據模型,才能進行更深層次的數據挖掘來支持用戶的個性化需求和決策。該模型的另一個優點是易擴充,增加了系統的穩定性和可移植性,減少開發人員工作量。例如:學者變換了所在單位機構,只需在機構實體中做修改,題錄實體不需變動。又如:題錄實體中若有眾多表達不同的數據,不會對機構實體產生影響。

4.2 知識發現層

知識發現層是機構知識庫平臺的核心,采用數據挖掘算法,并通過知識表示與評價得到面向不同專題的知識庫。運用關聯分析、分類分析、聚類分析、回歸分析、序列模式、特征分析等挖掘算法從數據庫中挖掘出數據之間潛在的關聯、規則、趨勢等關系,并結合智能代理、中間件技術、數據庫技術等,將文獻資源進行選擇、重組、整理、開發,從數據庫中發現新的模式、知識和規則,并用可視化的方法將新知識表示出來。

經過數據挖掘得到的新知識很可能與常識或某一領域的知識不相容、重復,通過知識評價模塊,根據興趣度值去掉重復和矛盾的知識,同時根據知識的可信度修改或更新已有的知識,最終實現文獻資源的整合化、專題化,構建出具有不同學術特征的知識庫。依據前面的步驟不斷提取新知識并進行測試,從而更新、擴充知識庫,使知識庫的學術價值達到最優。本文在知識發現層中通過數據挖掘與知識評價最終構建的知識庫有:特色知識庫、學科知識庫、學科導航庫、專家知識庫,這4個知識庫構成了機構知識庫在知識體系層面的數據基礎,運用JSP、XML、HTML等信息網絡技術,同時以上述4個知識庫為數據基礎,設計知識表示層。

特色知識庫的內容代表學校學術研究的發展方向,重點、特色專業的學術成果,在一定程度上反應出學校的科研實力。學科知識庫是按照學科類別組織文獻資源,能夠為用戶更加快捷、準確地提供所需學科專業的知識服務。學科導航庫是將文獻資源按照學科類別建立分類目錄式資源體系,通過導航可以提高文獻資源的查準率與查全率。專家知識庫是專家學者長年所積累的學術經驗、成果、智能的集合,是學科知識的精華,專家知識庫的內容應擴展到全體教師,通過數據挖掘將高產和活躍學者的學術成果組織起來,從而擴大專家知識庫的覆蓋范圍以及學術影響力,為學??蒲刑峁└尤?、權威的決策支持。

4.3 知識表示層

知識表示層是用戶與機構知識庫系統交流的平臺。根據用戶的不同需求,經過知識發現產生不同的新知識模式,用戶的參與在知識庫內容的擴充和更新方面起著至關重要的作用。本文從邏輯結構上將知識表示層分為4個模塊:個性化服務模塊、參考咨詢模塊、知識交流與服務模塊、知識檢索模塊。

個性化服務模塊是讓用戶感覺在“自己的機構知識庫”中查閱文獻資源,一方面對于用戶新提交的論文,根據高頻主題詞、投稿刊物等信息,通過知識發現得到用戶感興趣的最新學術動態;另一方面,根據用戶經常檢索的關鍵詞,通過知識發現技術得到用戶所需的相關信息,通過郵件、微信等方式主動推送給用戶。同時,該模塊能向用戶提供個性化定制服務,包括信息資源定制和網頁版面設計定制,根據不同需求生成定制的動態網頁。

參考咨詢模塊是圖書館員與用戶交流的平臺,圖書館員根據用戶在利用文獻資源、尋找知識、情報等方面中遇到的問題提供幫助。用戶可以在個人學術資源上傳方法、文獻要求、文獻資源檢索、機構知識庫使用方法等方面進行咨詢。圖書館應配備專業學科館員進行實時與非實時解答。

知識交流與服務模塊是用戶提交論文并參與知識交流的渠道。用戶通過身份認證后登陸該模塊并提交學術資源,經學科館員審核后方可提交到數據處理層,采用系統設定的元數據格式存儲和管理資源,在知識發現層運用數據挖掘技術發現新的知識模式,從而將用戶的學術成果以知識模式的形式存儲到知識庫,使得隱形知識顯性化,便于用戶進行學術資源的交流。另一方面,通過用戶提交學術資源,增加了知識庫的內容,提高了知識庫的服務能力。

知識檢索模塊提供用戶檢索所需信息的窗口,在該模塊中可以設定按照文獻類型、文獻來源、學科、機構、語種、年份、學者、主題等檢索條件進行基本信息檢索。同時也可以在該檢索頁面中根據主題、關鍵詞、篇名、發表時間、文獻來源、作者、跨庫檢索等具體的檢索條件進行高級檢索。該模塊運用本體理念從語義、概念層面上進行檢索,避免字面的機械匹配,提高計算機理解用戶查詢需求的能力,實現更好的人機交互。

5 結語

通過設計機構實體,消除不同數據管理系統中題錄數據產生的冗余與不完整信息,從而建立有利于數據挖掘的具有統一標準的關系數據庫。筆者設計了基于知識發現的3層架構的機構知識庫模型:數據處理層、知識發現層、知識表示層,并闡述了機構知識庫模型的實現技術以及功能模塊。該機構知識庫模型以用戶需求為中心,讓用戶感覺在“自己的機構知識庫”中查找所需資料。通過用戶的需求指導知識發現過程,創建新的知識模式,更新機構知識庫內容。隨著用戶需求的變化,在知識表示層可以增加新的功能模塊。機構知識庫包含文獻資源種類、數量繁多,如何在已有知識庫基礎上進行基于知識庫的知識發現,建立多維度知識元,能夠在現有機構知識庫基礎上進行更深層次的知識發現,建立更加科學化、人性化的機構知識庫,這是今后努力研究的方向。

[1] Lynch C A.Institutional repositories:essential infrastruc?ture for scholarship in the digitalage ARL,no.226,pp.1-7 [EB/OL].[2008-10-27].http://www arl.org/newsltr/226/ir. htm l.

[2]于佳亮,吳新年,賈彥龍.機構知識庫資源建設中的產權策略研究[J].情報理論與實踐,2008(3):353-355.

[3]周婕,等.基于文獻數據規律的機構知識庫關鍵技術研究[J].情報資料工作,2015(1):68-69.

[4]馮研,王馨.國內圖書館數據挖掘技術實踐應用進展分析[J].圖書館學研究,2011(10):3-4.

[5]陳學進.Web結構挖掘研究[D].合肥:合肥工業大學,2006.

王芙蓉 女,1984年生。碩士,館員。

G258.6

2016-05-11;責編:王天泥。)

猜你喜歡
數據挖掘數據庫資源
基礎教育資源展示
探討人工智能與數據挖掘發展趨勢
一樣的資源,不一樣的收獲
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 高清视频一区| 特级aaaaaaaaa毛片免费视频| 国产精品欧美在线观看| 日本在线欧美在线| 国产91小视频在线观看| 亚洲成人在线免费| 搞黄网站免费观看| 国产剧情国内精品原创| 伊人久久青草青青综合| 亚洲乱强伦| 国产91九色在线播放| 国产高清国内精品福利| 国产在线一区视频| 丁香六月综合网| 欧美日韩国产在线观看一区二区三区| 日韩精品无码免费专网站| 日本精品中文字幕在线不卡| 亚洲天堂视频网站| 91成人在线免费观看| av免费在线观看美女叉开腿| 欧美精品亚洲精品日韩专区| 中文字幕在线免费看| 亚洲高清无在码在线无弹窗| 亚洲免费人成影院| 99成人在线观看| 一级黄色欧美| 欧美亚洲国产一区| 国产在线观看91精品| 国产免费高清无需播放器| 国产无码精品在线播放| 人妻一区二区三区无码精品一区| 美女扒开下面流白浆在线试听| 免费观看国产小粉嫩喷水| 亚洲中文无码h在线观看| 亚洲欧美在线综合图区| 久久精品娱乐亚洲领先| 亚洲天堂久久久| 久久精品最新免费国产成人| 国产凹凸视频在线观看| 亚洲欧美成aⅴ人在线观看| 美女视频黄频a免费高清不卡| 亚洲天堂在线视频| 亚洲精品va| 久久情精品国产品免费| 性做久久久久久久免费看| a级毛片免费在线观看| 国产美女叼嘿视频免费看| 一级毛片中文字幕| 国产噜噜噜视频在线观看| 国产精品久久久久久影院| 亚洲国产成人无码AV在线影院L| 亚洲高清无在码在线无弹窗| 欧美色亚洲| 茄子视频毛片免费观看| 老汉色老汉首页a亚洲| 亚欧成人无码AV在线播放| h网站在线播放| 日本a级免费| 日韩精品无码免费一区二区三区| 一级黄色网站在线免费看| 天天干天天色综合网| 亚欧美国产综合| 97se亚洲综合在线天天| 中文字幕波多野不卡一区| 午夜一区二区三区| 99热这里只有精品在线观看| 国产久操视频| 婷婷六月天激情| 国产91成人| av大片在线无码免费| 国产十八禁在线观看免费| 国产一区二区三区在线观看免费| 国产H片无码不卡在线视频| 国产成人8x视频一区二区| a级毛片网| 亚洲综合狠狠| 在线99视频| 国语少妇高潮| 日韩在线视频网站| 日韩国产亚洲一区二区在线观看| 好吊日免费视频| 国产午夜小视频|