【摘要】學生信息管理是高校管理工作的重要組成部分,本文抓住了學生信息管理的基礎是集成與查詢,對大數據背景下學生信息集成管理做了探討,以期對高校學生管理工作有所幫助。
【關鍵詞】大數據 學生管理 lucene
【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2015)01-0009-02
信息化的不斷發展,為管理提供了便利。現已存在的教務系統、就業信息系統、學生信息采集系統等記錄了學生在校期間的所有信息,數據的管理利用和查詢就顯得尤為重要,而目前高校在這方面還存在著不足,具體表現在以下幾個方面:
一、對信息化手段掌握不足
絕大部分高校和部門仍局限在手工填寫報表和簡單的excel報表等。規范性較差,基礎工作較薄弱。已有的原始數據資料和新增的數據資料都不完善不規范,需要數據時無法及時的提供,工作效率大大降低。
二、大數據
全球知名咨詢公司麥肯錫,在“大數據”研究報告中指出,數據已經滲透到每一個行業和業務職能領域,對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。
不同行業對大數據的定義有所區別,每種定義都有他們的共性所在: 大數據中所指的數據是全部數據。大數據最終的用途和關鍵點是“預測”。
“大數據”是目前呈現出的一種現象而不是一項新產生的技術。“大”有兩個深層次的含義:首先是數據量大。通常定義10TB的數據量為是大型數據集,但是在現實高校與企業中,多個數據集集合在一起,就已經遠遠超于10TB的數量;其次是數據種類多,數據來源多。這些數據生產于不同的系統,不同的應用,不同的部門背景,并且數據的種類和格式也各種各樣,呈現出多元化的特點。因此大數據并不等同于海量數據,并且處理大數據,要面臨更大的挑戰。
高校大數據是高校信息化中重要的進一步發展,將對高校各部門的決策支持、個性化服務、人性化管理、預警服務及預測等領域產生巨大的推動作用。
三、大數據背景下的學生信息分類
從大數據的視角入手并結合高校學生信息數據的特點,可以將高校收集的數據劃分為兩大類。一類存在于關系型數據庫中,包括每位學生的學號,姓名,課程成績等信息,這些信息用統一的數字類型和符號類型來表示,稱為結構化業務數據;另一類存在于高校各部門辦公室,或者是高校管理人員的電腦中,存在的格式也多種多樣,有文本信息,圖片,音頻,視頻等等,這些信息無法用統一的數字類型和符號類型來表示,稱為非結構化業務數據,是高校大數據研究的重點。此外,高校中還有一些數據是介于這兩者之間,稱為半結構化業務數據,本文不做重點討論,高校數據分類如圖所示:
圖1 高校信息數據分類
四、處理非結構化學生信息的方式
在高校存在的非結構化數據中,幾乎是以文本信息的形式存在,管理員迫切需要一個高效的檢索工具。全文檢索(Full-text Retrieval)技術是一種面向全文、提供全文的新型檢索技術。它克服了傳統順序索引在多文獻集和和復雜查詢查詢條件下檢索效率低的不足。文海撈針是對全文檢索的形象描述,全面、準確和快速是衡量全文檢索系統的關鍵指標。
(1)采用B/S模式
B/S模式即瀏覽器/服務器模式,管理員只需要一個瀏覽器就可以獲得想到的資料,。B/S模式優于C/S(客戶端/服務器)模式最大的一個特點是,無需采用專門定制的客戶端,減少數據的中間訪問層次,進而提高了數據的訪問速度與效率。
(2)構建學生信息索引
圖2高校索引機制架構圖
從圖中可以看到,構建索引的整個過程分為三步:將高校學生信息原始WORD格式、PDF格式、EXCEL格式的業務數據轉換成文本、分析文本、將分析好的文本保存至高校學生信息索引庫中這三個主要操作步驟:
將原始文檔轉換成文本
使用Lucene索引高校學生信息前,對索引的數據進行預處理操作,即從不同格式的業務數據中提取純文本格式信息,以便識別該文本并建立對應的文檔。即從非文本文檔中提取文本信息,然后用這些提取出來的數據建立文檔和域[8]。
分析文本
分析文本前,將高校學生信息進行分割成語匯單元串,對語匯單元串執行一些可選操作:如,統一將語匯單元中的英文轉換為小寫,方便搜索系統不對大小寫敏感;去掉語匯中一些頻率很高但是卻沒有實際意義的詞,比如,的,地等等。
將分析好的文本保存至索引
對文本分析完成后,要將得到的段寫入高校業務數據的索引文件庫中,寫入的時候要采用倒排索引的數據結構進行存放。
(3)搜索學生信息索引
圖3搜索系統模型圖
如上圖所示,搜索子系統的作用是搜索學生信息索引,即對高校管理員輸入的各種搜索命令進行搜索和響應。根據前期對西安科技大學的調研報告顯示,本系統主要提供的搜索方式有如下幾種:詞條搜索,范圍搜索,布爾搜索,模糊搜索和短語搜索。詞條搜索是最基本的搜索方式;范圍搜索為高校管理員提供了可供選擇的關注點,縮小了搜索范圍。通過選擇時間段2010年到2012年,查看該時期內的學工部的文件;布爾搜索也是一種基本的搜索方式,各種復雜搜索,經過轉化可以成為一個布爾搜索;模糊搜索是對西安科技大學高校管理人員需求調研后特意添加的一種搜索方式,當管理員并不是很清楚要搜索的范圍時,模糊搜索是很好的選擇方式,而且管理員可以在此基礎上再次搜索;短語搜索是在用戶輸入多個詞條時一種比較有效的搜索方式。
五、結語
高校信息管理手段已無法短時間內在海量信息中找到所需。本文在分析了信息集成管理存在的不足后,給出了大數據背景下學生信息的分類,介紹了大數據背景下學生信息集成管理的方法。
參考文獻:
[1]吳代文,詹海生.西安市數字方志全文檢索系統的設計與實現[J].計算機技術與發展.2011,10(21).121-123.
[2]張維剛,徐永東,雷小強等.web全文檢索中間件的設計與應用[J].計算機應用.2011,8(31).2261-2263.
作者簡介:
朱艷潔(1987-),女,漢,內蒙古烏蘭察布人,碩士,助教,研究方向:思想政治教育。