999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Alfresco的出版社資源庫系統的研究與實現

2015-08-22 08:17:59李亞芬李征
軟件 2015年5期

李亞芬 李征

摘要:針對出版社內資源采集渠道不便,資源管理混亂等問題,本文使用開源資源庫Alfresco開發全新的資源庫系統,實現了對社內資源的重新整合與統一管理。特別是,提出詞語語義相似度加權的TextRank方法對采集到的文本資源進行自動標注,這對數字出版中教材的創作有著非常大的幫助作用。

關鍵詞:數字出版;資源庫;Alfresco;TextRank

中圖分類號:TP311 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2015.05.008

0 引言

隨著計算機技術、通訊技術和網絡技術的發展,數字出版業務相對傳統出版業務,逐漸顯示出獨特的優勢。外研社正處在由傳統出版到數字出版的轉型期。數字出版是為數據庫而編寫內容,更強調了內容數據的重要性和內容的可重復利用性。它將內容拆分成一個個的獨立的內容單元,通過模板對這些內容單元進行按需重組,最后由動態發布引擎,生成紙質書、電子書、光盤等一系列的出版產品,實現按需出版業務。因此,資源的采集和初步加工是實現數字出版的前序環節。

目前,外研社的出版業務中存在以下一些問題。作者編寫內容的結構差異,導致了出版社在處理作者交稿的時候,需要占用很大的精力去處理內容結構差異,同時,資源采集渠道的不便也會影響資源采集的數量和質量,也不便于出版社實現采集的資源的全社使用和統一管理。社里目前只是對資源進行簡單地存儲和基于文件夾的分類,缺乏對資源的描述,使資源的可利用性差。所以,本文設計實現了一個面向互聯網和內網的資源采集、資源標注等綜合型的資源庫系統,可以提供方便快捷的資源上傳、資源轉換功能,在很大程度上減少出版社收集資源的時間和人工成本。本文還使用詞語語義相似度加權的TextRank方法對社內的教育資源進行基于知識點的自動標注,方便創作者按照教學目的對內容資源進行檢索和重新組織,這對數字出版中教材的創作有著非常大的幫助作用。

1 系統功能設計

1.1 總體功能模塊

本文重點對外研社的出版生產業務過程進行了詳細的調研,設計出的資源庫系統由資源管理、資源加工、用戶管理、日志管理四大功能模塊組成。詳細見圖l所示。

(1)資源管理模塊主要提供資源的上傳下載、查看預覽、查詢等;

(2)資源加工模塊主要提供對資源的格式轉換拆分和資源的知識點標注;

(3)用戶管理模塊主要提供對用戶的權限、信息的編輯和查詢;

(4)日志管理模塊負責記錄用戶行為,包括登陸、查看數據、下載數據、使用數據等。

1.2 資源知識點標注

資源加工模塊提供對資源的知識點標注。資源知識點標注是資源智能化的重要體現方式之一。外研社資源主要包括各類大中小學教材教輔,文本資源占絕對大部分,每個文本資源內部都有一定的知識結構。經過知識點標注的資源具有功能上的獨立性。方便創作者按照教學目的對內容資源進行組織。編輯人員的專業領域知識往往不夠完備,知識點標注易受主觀因素影響,使標注的準確度降低。人工標注還要耗費一定的精力和體力,工作效率會降低。因此,本文提出了資源的知識點自動標注。

關鍵詞是表達一個文檔核心意義的最小單元。本文選擇文本關鍵詞作為知識點。選擇適當的關鍵詞提取方法就顯得非常重要。目前的關鍵詞提取方法分為有監督的方法和無監督的方法兩大類。有監督的方法需要通過訓練語料構建模型實現,無監督的方法僅借助于詞語之間的關系直接從文本本身提取,無需訓練過程,計算速度快,應用較為方便。考慮到在上傳文檔資源時,自動完成關鍵詞的提取,無監督方法既可以保證提取關鍵詞的準確性,又能保證計算的快速性,因此本文選用無監督的方法實現關鍵詞的提取。TextRank方法其中的代表,在眾多無監督關鍵詞提取方法中表現出卓越的性能。本文對傳統的TextRank進行改進,使用詞語語義相似度加權的TextRank關鍵詞提取算法,使其更加適用于知識點的標注。

資源庫提供基于知識點的查詢。在輸入查詢檢索詞后,首先將檢索詞與知識點關聯網中的知識點進行匹配。知識點關聯網是以樹形結構表示知識點之間關聯的網絡。若匹配成功,則選擇該知識點的上一級知識點一同作為檢索詞拋給搜索引擎,進行資源的知識點檢索,這樣可以檢索到相關資源。

2 資源庫架構設計

本系統主要是基于外研社內網和互聯網,除了為社外人員提供提交資源的入口外,主要為社內工作人員搭建一個共享社內數字資源的平臺。因此決定采用browser/server(簡稱B/S)結構的設計思想。Alfresco一款優秀的開源資源庫,是一個完全的Java應用程序,基于J2EE框架,如圖2所示。它是B/S結構。Alfresco中的內容應用程序和web應用程序都是基于內容存儲庫的服務上開發的,內容存儲庫處于資源庫的最底層,由數據庫、索引和內容文件組成,是資源庫的核心。

Alfresco是基于Java開源框架Spring開發的,它提供了一系列可以通過不同接口調用的數據存儲服務,通過以下三個基本服務實現存儲訪問內容:節點服務、內容服務和搜索服務。內容是信息數據的載體,通過內容服務,元數據及內容都可以根據內容模型的規則定義被結構化。

本文通過對Alfresco進行開發與定制,使其滿足本文的需求。Alfresco中,資源的元數據存儲在關系型數據庫里,而內容本身則以二進制文件的形式存儲在文件系統中,數據庫存儲提供高效的查詢、事務處理及管理功能,而文件系統則保存比較大的內容數據。根據Alfresco的架構形式,本文對資源庫進行架構設計,如圖3所示,使用內容存儲庫提供的基本服務實現資源加工模塊、資源管理模塊,用戶管理模塊功能的開發。關系數據庫中主要提供資源元數據信息的存儲、用戶信息的存儲、機構組織信息以及知識點關聯信息的存儲。物理文件系統提供對資源的二進制形式文件存儲。

3 資源庫實現的關鍵方法和技術

3.1 詞語語義相似度加權TextRank

關鍵詞提取算法

TextRank的思想來源于PageRank,通過把文本分割成若干組成單元并建立圖模型,結點代表詞語,邊代表詞語之間的關聯,利用投票機制對文本中的重要成分進行排序,一個結點鏈人的結點集表示其投票支持者,投票者越重要,數量越多,則被投票者的排名越靠前。僅利用單篇文檔本身的信息即可實現關鍵詞提取。傳統TextRank中,某個詞語的影響力分值是均勻傳遞到與其相鄰的詞語中,構建的圖模型是一種無項無權圖,考慮到本文要處理的是自然語言文本,部分詞語之間的關聯度會更高一些,因此,本文引入邊權重計算。由于教育資源中,知識點易共現,同時知識點之間存在較大語義相似度,本文考慮將相關聯的詞之間的語義相似度,加入邊權重計算中,夏天等考慮詞語本身的重要性差異,提出了考慮詞語結點影響力的相關因素的詞語位置加權的TextRank方法,該方法引入詞語的覆蓋影響力、位置影響力和頻度影響力用于計算詞語之間的影響力概率轉移矩陣。本文考慮到知識點往往出現在文章標題中,往往是文中的高頻詞匯,因此本文在邊權重計算中加入位置影響力和頻度影響力,提出了詞語語義相似度加權的TextRank方法。

令G=(V,E)為結點集和邊集構成的有向圖,V為結點集,由文本中的候選關鍵詞構成,候選關鍵詞指經過中文分詞、詞性過濾、去停用詞處理后,獲得的詞語集。對于任意一個結點vi

資源加工模塊中的知識點標注是在上傳文檔的動作中自動完成的。本文創建新的java類TextAnalyser,該類封裝了讀取文本內容、關鍵詞提取、關鍵字存儲的功能。將其加入上傳文檔時對應的spring配置文件中。該類首先調用內容服務ContentService獲取資源的文本內容,接著調用使用詞語語義相似度加權的TextRank方法對文本內容進行分析,提取后的關鍵詞通過節點服務(NodeService)和內容服務(contentService)獲取資源在數據庫中的存儲位置信息,將關鍵詞保存到相應的元數據數據庫中。

通過對Alfresco中的相應頁面的JSP文件進行擴展或重寫,可以定制實現資源管理前臺界面。實現上述功能的Spring Beans、java class、iava script、JSP等文件將作為Alfresco的應用程序進行重新打包和部署,Alfresco提供AMP(Alfresco Module Packages)來實現打包,可以實現定制代碼與Alfresco核心代碼的分離,打包部署后,新的功能就加入到Alfresco中了。

4 結論

本文中,本文使用開源資源庫Alfresco開發全新的資源庫系統,實現了對社內資源的高效存儲、加工與管理。提出了詞語語義相似度加權的TextRank關鍵詞提取算法,將其應用到資源知識點標注中,使資源庫成為面向教育的知識庫,更加滿足數字出版業務的需求。

主站蜘蛛池模板: 91精选国产大片| 在线视频97| 成人福利免费在线观看| 国产探花在线视频| 亚洲精品午夜无码电影网| av色爱 天堂网| 91久久天天躁狠狠躁夜夜| 国产乱子伦手机在线| 欧美亚洲另类在线观看| 在线a视频免费观看| 国产在线观看精品| 午夜成人在线视频| 美女被躁出白浆视频播放| 视频一区视频二区日韩专区| 午夜视频在线观看免费网站 | 国产成人h在线观看网站站| 国产午夜在线观看视频| 广东一级毛片| 无码aⅴ精品一区二区三区| 国产一区在线视频观看| 999精品色在线观看| 国产精品真实对白精彩久久| 亚洲—日韩aV在线| 在线精品视频成人网| 久久女人网| 久久99国产精品成人欧美| 国产a网站| 亚洲成aⅴ人在线观看| 亚洲国产精品日韩专区AV| 妇女自拍偷自拍亚洲精品| 亚洲最新在线| 亚洲国产精品一区二区第一页免 | A级毛片高清免费视频就| 國產尤物AV尤物在線觀看| 午夜小视频在线| 亚洲男人的天堂久久精品| 中文字幕人妻无码系列第三区| 国产国产人成免费视频77777| 国产杨幂丝袜av在线播放| 欧美精品成人一区二区在线观看| 亚洲天堂在线免费| 国产成人免费| 宅男噜噜噜66国产在线观看| 欧美日韩成人| 曰韩免费无码AV一区二区| 国产在线第二页| 国产网友愉拍精品视频| 亚洲综合片| 午夜综合网| 人人爱天天做夜夜爽| 亚洲一区二区在线无码| 欧美第二区| 国产成人91精品| 亚洲国产精品不卡在线| 日本91在线| 日本午夜影院| 国产激情无码一区二区三区免费| 91精品国产一区自在线拍| 国产一区免费在线观看| 成人在线第一页| 久久99精品国产麻豆宅宅| 精品国产免费观看一区| 成人国产免费| a级毛片免费播放| 四虎精品免费久久| 91在线高清视频| 日本高清在线看免费观看| 亚洲AV无码一二区三区在线播放| 伊人狠狠丁香婷婷综合色| 国产日韩欧美一区二区三区在线| 欧美一区精品| 国产一二三区在线| 国产网站免费观看| 国产永久无码观看在线| 亚洲精品桃花岛av在线| 成人午夜亚洲影视在线观看| 国内精自线i品一区202| 国产精品lululu在线观看 | 国产性生交xxxxx免费| 国产精品免费p区| 国产精品3p视频| 啪啪啪亚洲无码|