竇芳



摘 要: 傳統的科研成果管理多利用數據庫將成果數據存儲起來,由于科研成果的數據類型多,存儲方式不統一,在決策分析時會成為獲得有效成果數據的障礙,同時傳統的科研成果系統只能單一提取成果信息。針對上述問題,研究提出了基于數據倉庫的科研成果管理決策支持系統,結合數據倉庫,聯機分析處理以及關聯規則挖掘算法,該系統支持管理人員發現成果的潛在趨勢、評估科研項目工作組的能力、合理分配人力資源等,通過對學校論文庫中的數據進行關聯規則的挖掘,發現了論文數量與時間維度之間的關系,且與實際培養情況符合,驗證了Apriori在系統中的有效性。
關鍵詞: 科研成果管理; 決策支持; 數據倉庫; 聯機分析處理; 數據挖掘
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)07?0120?04
Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.
Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining
0 引 言
傳統的科研項目管理過程費時費力,且浪費了大量的人力資源。科研過程中產生的有價值的信息,也被這樣死板的管理方法給淹沒了,人們不能也不愿意從紙質的資料文獻中去發現價值。科研管理方式效率低會嚴重影響到科研項目開發的進度。隨著科學技術的快速發展,科研單位雖然對傳統方法進行了改進,開始建立管理系統,但是還遠遠不能滿足要求[1]。
近年來,國內研究機構也開始重視科研項目管理方面的研究,目的多是為了提高項目管理的水平,對優秀的科研成果進行公示,共同分享研究信息[2]。科研成果管理決策支持系統的目的是為了解決傳統科研管理系統對成果資源的浪費情況,加強對科研成果信息中潛在知識的利用,提高科研項目管理中對成果管理的有效性,利用數據挖掘充分發揮成果數據的潛力,為管理層提供決策支持依據[3]。
1 SRAM?DSS的需求分析
1.1 功能需求
科研成果管理決策支持系統主要面向科研項目的成果進行管理,這些成果包括學術論文、著作、期刊、專利等。數據倉庫的應用可以對成果數據采取智能的分析,將成果數據進行歸類和按照成果數據的分析要求進行整理,從中發現成果與項目、人員之間的聯系和潛在的規律,幫助決策者調整科研定位,做出科學的決策。
基本管理功能要求用戶可以利用本系統完成對成果的基本管理,包括成果提交、 審核、審批等流程的規范管理,還有對保密項目成果的加密處理,不僅要系統能夠保存使用過程中存入的成果,還可以導入外部數據庫的成果數據,為數據挖掘功能提供數據基礎,對數據的集成程度要求很高,因此需要利用數據倉庫存放成果數據[4]。
1.2 用戶需求
系統的主要角色包括科研員,科研管理員,決策員,數據管理員,系統管理員。
2 總體設計
2.1 科研成果數據倉庫的設計
對于科研成果數據倉庫從概念模型、邏輯模型、物理模型三方面進行建模。需要根據不同的主題把數據倉庫中的數據劃分好具體的維度[5]。以成果主題為例,成果數據包括成果名稱,成果類型,成果來源,成果性質,成果作者,成果審核結果,所屬項目,成果完成時間,成果數量等,以此作為分析的依據。因為數據倉庫是多維的,OLAP要在多維數據集之上才能進行,成果數據要滿足分析的要求可以根據維層次繼續劃分,成果類型包括論文,專利,專著,軟件成果等;成果性質包括科技,醫藥,航天等[6]。
(1) 邏輯模型
系統主要用戶利用成果信息進行分析,以此來評估科研項目,并為決策者提供決策支持。分析成果事實表中的數據信息有用戶維、成果維、時間維。在OLAP分析時可以按照不同的層次進行分析,如圖2所示。
(2) 物理模型
在設計數據倉庫的物理模型時,定義成果數據的數據標準是需要注意的重點,目的是使成果數據在數據倉庫中都有一個統一的格式,定義表示成果的相關屬性來描述成果邏輯關系,得到對成果數據倉庫的特征進行完整描述。系統采用SQLServer2008建立數據庫[7]。利用AnalysisServices獲得后臺數據庫里面的信息,這樣建立的數據倉庫可以滿足需求。
2.2 SRAM?DSS功能的設計
為實現科研成果管理科學,全方位管理,設計成果管理,決策支持,用戶管理,系統管理四個模塊的內容,并且用戶在登陸系統之前要進行身份驗證。
(1) 成果管理模塊
成果管理主要包括成果查詢,添加成果,申報成果,成果審核,成果加密以及成果導出等功能,系統采用分組加密方式進行加密。
(2) 決策支持模塊
數據倉庫是決策支持功能的數據基礎,有了數據就需要更多的操作來完成決策支持。對于系統中不同的數據來源,包括外部導入數據利用ETL過程,實現規范化。然后將符合標準的數據裝入數據倉庫中。然后針對用戶的要求進行聯機分析處理和關聯規則挖掘。
(3) 用戶管理模塊
用戶在Web地址欄輸入URL進入登錄,用戶名文本框內輸入用戶姓名,在密碼框內輸入密碼。系統認證平臺會判斷用戶身份,若是新用戶要完成注冊才能登陸,注冊時要填寫用戶真實的信息,才能獲得登陸權利,若用戶輸入的用戶信息正確,登錄成功。用戶可以在用戶管理中進行創建,添加到用戶數據表中,也能獲得系統的使用權限[8]。
(4) 系統管理模塊
系統管理模塊主要是針對系統的權限分配,系統維護以及一些常用工具的設計。不同的用戶進行的操作不同,能夠看到的信息不同,就要求系統控制權限,建立權限分配制度,有利于對用戶權限進行合理的分配也保證了系統的安全運行。系統維護是管理系統中必不可少的關鍵功能,包括對系統用戶數據,成果信息數據等的備份工作,實現數據庫的安全管理,管理相應功能結構規范性,為系統的更新與升級提供支持。
3 系統實現
3.1 基于數據倉庫的OLAP模型
聯機分析處理技術能夠高效的分析數據,發現事物發展規律,捕獲異常和細節。OLAP支持數據分析,而數據倉庫里的數據是經過ETL處理后集成到一起,保證了分析在一個快速的時間內給予響應。所以本階段就是基于數據倉庫建立OLAP模型,從而得到更為可靠的數據立方體,既降低了刷新代價又提高了響應速度。
OLAP包括了維和度量,在前面建立數據倉庫時已經完成。利用SQL Server中的Analysis Services項目模板建立多維數據集,定義數據源以及建立事實表與維表之間的關系。
OLAP模型對數據倉庫中的數據利用MDX進行多維查找,可以有效分析多維數據集。MDX是OLAP的查詢語句,語法與結構化查詢語言SQL很類似。在成果管理系統中,通過MDX語言把科研員和決策者需要的成果數據查詢出來,展現在前臺界面里。
利用OLAP模型進行分析,決策者可以依據分析要求,選擇更多角度去分析數據,能得到的分析也更多,如下:
(1) 由科研成果的類型分布來看整體項目的側重重點,以及在成果突出領域的發展機會和潛力;
(2) 由科研成果參與者和第一申請單位作者與項目之間的關系,可以看到參與者職稱水平,技術支持水平對成果完成數量與質量的關系,并不是參與者越多的成果越完善,可以以此作為合理分配人才資源參與項目開發的依據,也可以以此評估參與人員的水平,作為考核參考;
(3) 以科研成果在一定時間內的增長,作為項目進度和發展的一個參考標準。也可以看到成果的趨勢和項目完成單位的能力和業務的提升;
(4) 可以利用數據庫,對以往成果信息進行分析,由于在傳統的數據庫中不具備OLAP的功能。
3.2 基于數據倉庫的關聯規則挖掘
基于數據倉庫的關聯規則挖掘,Apriori算法的核心是提高關聯規則產生的效率。利用Apriori算法對科研成果數據進行分析的時候要明確成果的特征,根據成果特征描述來看,適合利用Apriori算法進行關聯規則的挖掘。科研成果數據的特征如下:成果數據是按照項目進程時間節點進行錄入的,存儲在成果庫中;成果評估方式不統一,對成果的評估應采取統一的標準;科研成果的數據存儲在數據庫中,每一個成果都對應一條記錄,每一個記錄的屬性都一樣。
以本校論文庫的數據為實驗數據,在論文管理系統中可導出相關TXT文檔數據,利用系統成果導入功能,添加到系統中,對數據進行統一的處理。選取2012—2015年間,數學、物理、計算機、兵器學科的論文成果數據。論文所屬學科層次劃分到一級子學科,時間層次按照年→學年,繼續劃分下去。
(1) 數據預處理
數據經過清洗,轉換,去掉無效的數據,采用統一的數據編碼規則,用離散字母代替時間層次,同時將學科按照統一的編碼規則,重新編碼。進一步按照論文數量劃分等級,五份為一級,等級越高代表論文數量越多。
(2) 算法實現
設置最小支持度 min_sup=4,支持度=40%,置信度=80%,通過Apriori算法計算出的關聯規則信任度見表2。
(3) 結果分析
采用的實驗數據來自于論文數據庫,由于學校畢業論文按照培養計劃有周期性,學術性碩士的培養周期為2.5學年,所以碩士畢業多集中于第一學年3月份左右,工程碩士的培養周期為第二學年9月份,所以對數據的分析結果多集中于上半年。
規則1表示,在2012年第一學年發表論文在5篇以內且2013年第一學年畢業論文在5篇以內的學科專業,則在2013年第二學年發表論文在5篇左右的支持度為40%,信任度為80%。
規則2表示,在2013年第一學年發表論文在5篇以內且2013年第二學年畢業論文在5篇以內的學科專業,則在2012年第一學年發表論文在5篇左右的支持度為40%,信任度為80%。
規則3表示,在2012年第一學年發表論文在5篇以內且2013年第一學年畢業論文在5篇以內的學科專業,則在2014年第二學年發表論文在5篇左右的支持度為40%,信任度為80%。
3.3 關聯規則說明
由于系統中的測試數據多來自網絡和本校的數據庫,對關聯規則的挖掘也許存在偏差,但是整體提供的關聯規則數據信息還是符合實際的。簡要介紹以下幾點:
(1) 選取成果完成人的職稱級別和所提交的成果類型與數量作為關聯規則挖掘的維度,發現成果完成人職稱較低的發表論文數量較多,存在關聯規則;
(2) 選取固定時間內論文數量和專利數量進行關聯規則挖掘,發現時間維度與論文數量多,關聯較高;
(3) 對不同高校的成果數量進行關聯分析,985與211高校的科研論文,期刊發表數量多具有關聯規則。
4 界面展示
用戶登陸界面:輸入正確的用戶名和密碼登陸系統,用戶可以選擇“記住我”,在下次進入系統時可以免登陸,若是新用戶第一次登陸系統,需要注冊,完成注冊后即獲得登陸權限。
登陸后看到的首頁,左側導航欄顯示了主要的功能,成果展示系統中的成果數量以及系統中的成果列表。
5 結 論
本文在調研了解科研成果管理的決策分析需求的基礎上,認真研究了數據倉庫的有關技術知識,聯機分析處理技術的應用以及數據挖掘關聯規則算法的原理。提出了基于數據倉庫的科研成果管理決策支持系統。
開發系統應用的主要技術包括OLAP和Apriori算法,將OLAP和Apriori算法結合運用于實際的系統開發中,關聯規則計算在OLAP物化了的多維數據集基礎上進行,減少了重新計算的時間,使決策分析更加智能化,使數據挖掘的步驟更具目標化,全面提升輔助決策在科研成果管理中的實用價值。
參考文獻
[1] 賀建英.大數據下MongoDB數據庫檔案文檔存儲去重研究[J].現代電子技術,2015,38(16):51?55.
[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.
[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.
[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.
[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.
[6] 趙維寧.運用數據倉庫技術構建電信企業經營分析系統[J].中文信息,2014(8):22?26.
[7] 辛金國,柯芳,李紹君,等.數據挖掘技術在經濟統計中的應用探索[J].財經界(學術版),2014(5):24?27.
[8] 王輝鵬,董春游.決策支持系統發展研究[J].應用能源技術,2009(6):48?50.