999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark 技術的高校校史編研系統研究與實現

2022-11-23 00:01:20楊珍珍張堅君浙江中醫藥大學
浙江檔案 2022年1期
關鍵詞:數據處理系統

楊珍珍 張堅君/浙江中醫藥大學

近年來,校史編研工作得到了許多高校的重視,高校出版了大量的編研成果,校史編研取得了積極的成績,形成了當代歷史研究的一個新領域。隨著各個高校電子校務、智慧校園等項目的建設,校史編研工作也出現了新的趨勢,研究內容更豐富,不再局限于高校自身的歷史,開始關注同一歷史時期不同高校的共性及差異性研究;研究方法有創新,校史研究從傳統的手工資料收集、史料整理向計算機數據分析處理、專題研究轉變,并利用多媒體手段探索校史成果的多樣化展示及多元化傳播。但是距離世界一流大學的建設要求,或是與其他領域的編研工作水平相比,都存在一定的差距,主要表現為史料收集工作效率低、編研成果挖掘深度不夠、展示形式有待進一步拓展、編研成果無法有效利用等。

為提高高校校史編研工作效率、充分挖掘高校校史資源價值,充分利用新技術手段探索校史成果展示形式,本文擬選擇當前熱度比較高、應用比較廣泛的Apache Spark這一大數據處理框架,構建高校校史編研模型,探索高效、靈活的校史編研方法,最終形成準確、完整、生動的校史編研成果。

1 校史編研

校史即學校的歷史,校史編研顧名思義就是對學校的歷史進行編寫和研究[1]。校史編研是高校檔案工作的一項重要內容,是校史檔案信息資源開發利用的一種高級形式,自1984年8月教育部下發《關于編寫校史的通知》以來,校史研究隊伍逐步壯大,研究內容不斷拓展,研究方法和手段也日趨多樣,研究成果日益豐富[2]。

傳統的校史編研多以書籍資料、畫冊、展覽等的實體展示為主。隨著學校信息化及智慧校園建設的不斷深化,校史資源散存在數量龐大、數據冗余的各類信息系統中。這一方面給校史編研帶來了新的機遇,高校能夠運用各類信息化工具整合校史資源、挖掘校史之間的內在聯系、多樣化地呈現校史編研成果;另一方面也給校史編研帶來了新的挑戰,傳統的校史編研如何改進、如何適應新的技術進步成為難點。目前傳統校史編研主要存在以下四個方面的問題。

一是史料收集工作效率低下。校史編研依托于海量的校史資料,盡管高校檔案館(室)保存著大量學校第一手史料,但是仍不能滿足校史編研的需要。高校各部門、學院有獨立的信息系統,甚至出現一個部門有多個系統的情況,各個信息系統并不互通,還會出現“數據打架”的情況,底層數據結構也不盡相同。這就給數據資源的收集、鑒別與整合帶來了一定的難度。

二是編研成果挖掘深度不夠。由于校史編研起步較晚,基礎相對薄弱,不少高校也不夠重視校史編研這項工作,沒有投入充足的人力物力,尤其是校史編研隊伍的專業化水平有待提高。校史編研人員多是辦公室人員或檔案人員,他們缺乏專業的編史修志知識,也不具備各類數據庫系統知識或數據分析與挖掘能力等。校史編研的成果主要為校史檔案的匯編或選編,編研方法多是編史修志、史料匯編等,多“編”少“研”的問題突出,深入的研究分析不足。

三是編研成果展示形式單一、新技術應用不足[3]。大部分校史編研成果為史料匯編,多為圖片加文字說明,有些則全部是文字,很少為音頻、視頻展示;網上展廳也只是單純的在線展示線下展覽的內容,缺乏與觀眾互動或應用新技術。特別是各類可視化、動態化的技術如可視化技術Html5、圖表繪制工具Chart.js的應用較少,人機交互等人工智能技術的應用也很少。

四是編研成果無法有效利用。一方面校史編研成果沒有很好地宣傳,受眾面狹窄,多是在檔案系統內部傳播,其內容也未必能“深入人心”[4]。另一方面校史編研成果多是固化的書籍資料、畫冊、展覽等,一次編完很難及時更新內容,與公眾的互動有待加強。

2 Apache Spark技術分析

Apache Spark 是一個在集群上運行的統一計算引擎以及一組并行數據處理軟件庫[5],是一個圍繞速度、通用和復雜分析構建的大數據處理框架。2009年它誕生于加州大學伯克利分校AMP實驗室,2010年成為Apache的開源項目之一,2013年已經得到了廣泛的應用。

作為目前應用最廣泛的開源大數據處理框架,Spark的最大優勢在于擁有數量龐大的資源、工具和社群力量。Spark生態系統以Spark Core為核心,這是一個包含了交互式查詢(SparkSQL)、實時流處理(Spark Streaming)、機器學習(SparkMLlib)和圖計算(GraphX)等多個子項目的集合。它是在借鑒主要運行在計算機集群上的并行計算引擎Hadoop Map Reduce之上發展起來的,繼承了其分布式并行計算的優點并進行了改進,能高效支持更多的計算模式,如流處理、交互式查詢、迭代算法等。通過Spark這一統一的框架,原本需要多種不同分布式平臺的處理流程得以整合在一起,大大減輕了管理多個平臺的負擔。

Spark主要使用Scala語言進行編寫,并支持多種編程語言運行Spark代碼,應用程序由一個驅動器進程(Driver)和一組執行器(Executor)進程組成,以彈性分布式數據集(RDD)為工作核心,通過DAG圖和Stage作業劃分完成組織、運算和調度等一系列計算任務。Spark主要有以下四個特點。

一是速度更快。大數據處理中速度往往被置于第一位,Spark實現了高效的DAG執行引擎,中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS。與Hadoop Map Reduce相比,Spark基于內存的運算速度要快100倍以上,基于硬盤的運算速度也要快10倍。

二是易于使用。Spark底層支持多種數據存儲模式,Spark不但能夠訪問多個數據庫,如HDFS、Cassandra、Hbase、AmazonS3,還支持多種常用的編程語言,提供了Scala、Java、Python以及R四種語言的API接口,并支持超過80種高級算法,以便于更多的開發者在自己熟悉的語言環境下進行工作, Spark的應用范圍得以普及。此外,Spark可以非常方便地與其他開源產品進行融合,如部署在已有的Hadoop系統上,同Yarn進行集群調度,不需要做任何的數據遷移,最大限度地利用Hadoop系統[6]。

三是降低成本。針對原本需要多種不同分布式平臺才能實現的算法,如批處理、迭代算法、交互式查詢、流處理等,Spark提供了統一的解決方案,使各種處理流程得以簡單而方便地整合在一起。這在實際的應用場景中,大大減少了部署多個平臺的物力成本以及開發和維護的人力成本。

四是適用于機器學習及復雜數據處理。使用Spark批量處理計算任務,其基于內存的特點使得它更適用于大量迭代的機器學習和復雜數據處理,支持交互計算和復雜算法,提供支持SQL、流處理、機器學習等多種任務的軟件庫,可以直接用于批量數據分析。

3 運用Spark技術進行校史編研的優勢分析

校史編研的前提是準確、全面的校史數據。一直以來我國高校校史編研工作仍以傳統模式為主,主要依賴學校檔案資源,檔案收集的完整程度直接關系校史編研成敗。校史編研者如想要收集第一手數據,需要走訪校內各部門,這不僅費時費力,而且資料的正確性、完整性也無法保障。隨著信息化不斷發展以及“智慧校園”的建設,高校各部門、學院紛紛建設自己的信息系統,信息資源從數量上來說呈指數級增長,從類型上來講也是多種多樣。如何在大數據環境下全面收集、分析、整合學校信息資源,開展校史編研工作,成為校史編研工作亟待解決的問題。

從數據收集層面講,Spark平臺解決了集群環境下并行處理大數據的效率問題,這使得各業務系統之間的整合成為可能,能夠保障校史編研資料的全面性。Apache Spark這一大數據處理框架,能夠很好地整合校內檔案系統、OA系統、教務系統、科研系統、郵件系統等異構數據庫,不僅從空間維度上而且從時間維度上確保了學校信息資源收集的完整性,為校史編研工作的開展打下了較好的物質基礎。

從數據處理層面講,使用Spark SQL、Spark Streaming、Mllib、GraphX等多種框架對數據進行分析與處理。根據選定的校史專題,如圍繞學校知名人物、學校重大事件等抓取、分析、分類海量平臺數據,快速獲取與該專題相關的所有文件材料,呈現素材全面、內容準確的校史編研成果,進一步提高校史編研的效率、拓展校史編研的形式。

從數據應用層面講,Spark平臺更適用于大量迭代的機器學習和復雜數據處理,能夠對平臺數據進行多維度分析,通過不同的圖表、動畫甚至虛擬現實技術、人工智能技術,豐富校史編研成果的展示形式,擴大校史編研成果的應用場景。

4 校史編研系統構架

校史編研系統預期整合校內檔案管理系統、OA系統、教務系統、科研管理系統等各業務系統,對學校大數據進行采集、存儲、計算、分析、應用,構建校史編研系統。系統核心采用Spark技術,搭建的校史編研系統分析如下。

4.1 系統總體架構

為了實現從一臺計算機到多達數千臺計算機的伸縮計算,同時獲得最大的靈活性,Spark支持在各種集群管理器上運行。管理和協調集群中多臺計算機設備的集群管理器主要有三個,即Spark的獨立集群管理器、Hadoop Yarn、Apache Mesos。結合校內各業務系統的實際,校史編研系統擬采用Hadoop Yarn集群管理器,Yarn是Hadoop2.0中引入的集群管理器,可以在一個共享的資源池里運行多種數據處理框架,而且和Hadoop的分布式存儲系統(HDFS)安裝在同一個物理節點上,這樣當Spark程序運行在存儲節點上的時候可以快速訪問HDFS中的數據。

根據數據的流向自底向上劃分,校史編研系統主要分為三個層面,即數據采集層、數據處理層、數據應用層。

其中,數據采集層使用Hadoop架構的分布式存儲模塊HDFS,采集并整合校內各部門的業務系統數據,形成結構化、半結構化、非結構化的數據集;數據處理層采用Spark技術,對底層數據進行清洗、整合、關聯、轉換、匯總、存儲等操作;數據應用層為校史編研提供數據查詢、統計、分析、可視化顯示等功能。數據應用層與數據處理層之間進行數據交互,數據采集層采用分布式數據庫存儲,數據處理層采用Spark計算框架,這樣有效提升了系統的響應效率,降低了系統的負載壓力,使系統順暢運行。

4.2 數據采集層

校史編研系統的數據主要來自于高校檔案管理系統及各部門、學院使用的業務系統,調研顯示基本為關系型數據庫,即結構數據。除此之外,我們還面臨著大量的結構化、非結構化數據,如工作郵件、關系數據庫中的文本附件等。

我們通過SQL Server的Hadoop連接器,使用Hadoop架構,整合檔案館、學校各部門數據庫及其他非結構數據,對大量數據進行分布式處理。Hadoop有兩個核心模塊,即分布式存儲模塊HDFS和分布式計算模塊Mapreduce。由于Spark本身并沒有提供分布式文件系統[7],因此Spark的分析大多依賴于Hadoop的分布式文件系統HDFS。Hadoop連接器提供了Hadoop非結構數據與SQL Server結構化數據之間的雙向遷移能力。

4.3 數據處理層

校史編研系統應用Spark框架進行數據處理。Spark除了Spark Core基礎框架之外,還有Spark SQL、Mlib、GraphX、Spark Streaming、Spark R等子框架,用來滿足不同的工作需求。Spark Core包含Spark的基本功能,其他Spark的庫都是構建在RDD和Spark Core之上的[8]。

Spark SQL是Spark用來處理結構化數據的一個模塊,它提供一個編程抽象Data Frame作為分布式SQL查詢引擎。Spark SQL把校史編研系統內的每個數據庫表都被當做一個RDD,Spark SQL查詢被轉換為Spark操作,提交到集群執行,從而提高系統運行效率。

MLlib是Spark的機器學習(Machine Learning)算法庫,提供了常用數據挖掘算法的分布式實現功能。這個庫包含一些通用的學習算法和工具,包括分類、回歸、聚類、協同過濾等對大批量數據進行迭代的操作。機器學習使校史編研選題更加豐富、成果更加多樣。

GraphX是一個分布式圖處理框架,用于圖和并行圖的計算,在Spark之上提供了一棧式數據解決方案[9],但GraphX并不提供對數據可視化的支持,我們可以通過第三方庫GraphStream和Breeze來實現這一目標,為校史編研成果提供更豐富更直觀的表現手段。

4.4 數據應用層

校史編研系統建成以后,用戶根據選題范圍或者關鍵詞,在系統上提交編研請求,系統依靠Spark計算框架,對系統所包含的各個數據庫(各業務系統)進行檢索,分析、處理用戶輸入的信息,并根據統計指標、數據組合關系、數據間相互影響關系,建立數字模型,呈現編研結果。除使用GraphX、Mllib等Spark自帶的子框架外,系統還可使用主流的可視化技術Html5、圖表繪制工具Chart.js等[10],將抽象的數據編碼成用戶所需的可視化數據、文字、圖表或動畫,進一步豐富校史編研成果的呈現形式。

5 小結

本文提出一種依靠Spark大數據框架構建的校史編研系統,以期能夠對高校各業務部門及學院的系統數據進行采集、整合存儲、分析計算,促進校史編研向全面、準確、豐富的目標進一步發展,為信息化時代的校史編研提供一種可行的思路;探索更加快速、便捷、個性化的校史編研模型,滿足用戶實時、多元化的校史編研需求,以期能將理論運用于實踐,為師生及校友提供個性化編研服務,為高校發展決策及文化建設提供基礎和依據,并能在其他高校進行推廣,促進校史編研進一步發展,提高校史編研的整體知名度和社會影響力。

猜你喜歡
數據處理系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
主站蜘蛛池模板: a亚洲天堂| a级毛片免费在线观看| 国产在线视频欧美亚综合| 久久人人97超碰人人澡爱香蕉| 中国一级毛片免费观看| 国产中文一区a级毛片视频| 热99精品视频| 喷潮白浆直流在线播放| jizz在线观看| 久久五月视频| 国产福利微拍精品一区二区| 色综合成人| 91最新精品视频发布页| 91精品情国产情侣高潮对白蜜| 日韩欧美中文字幕一本| 国产丝袜精品| 欧美性天天| 精品国产成人av免费| 日韩无码黄色| 国产一区二区三区精品久久呦| 国产区福利小视频在线观看尤物| 人妻21p大胆| 天天综合天天综合| 青青草91视频| 亚洲成网777777国产精品| 激情午夜婷婷| 亚洲欧美日韩中文字幕在线一区| 亚洲人网站| 国产办公室秘书无码精品| 啊嗯不日本网站| 97av视频在线观看| 99r在线精品视频在线播放| 福利片91| 欧美中文字幕在线播放| 精品人妻AV区| 国产精品一区二区无码免费看片| 天堂网亚洲综合在线| 国产亚洲精品97在线观看| 成人福利在线看| 米奇精品一区二区三区| 欧美成人h精品网站| 亚洲国产看片基地久久1024| 精品无码一区二区在线观看| 国产午夜一级淫片| 国产视频久久久久| 五月天在线网站| A级毛片无码久久精品免费| 无码中字出轨中文人妻中文中| Jizz国产色系免费| 久久久受www免费人成| 综合色亚洲| 97狠狠操| 美女扒开下面流白浆在线试听| 午夜小视频在线| 99热这里只有精品免费| 一本大道视频精品人妻 | 91精品亚洲| 欧美亚洲第一页| 99在线视频免费观看| 久草国产在线观看| 久久综合伊人77777| 成年人国产视频| 亚洲水蜜桃久久综合网站| 一级一级一片免费| 国产精品久久久精品三级| 久久久久久久蜜桃| 在线视频一区二区三区不卡| 国内毛片视频| 少妇精品网站| 蜜桃视频一区| 国产浮力第一页永久地址 | 一区二区三区四区精品视频| 中文字幕调教一区二区视频| 91小视频在线播放| 亚洲视频黄| 免费无码网站| 色欲国产一区二区日韩欧美| 四虎国产成人免费观看| 99久久国产综合精品2020| 免费视频在线2021入口| 国产天天射| 成人日韩视频|