摘 要: 針對目前網絡金融課程教學內容陳舊、教學方法老套以及不能滿足學生對新知識需求等缺陷,探討大數據環境下網絡金融課程教學體系,提出基于大數據挖掘的網絡金融課程內容設計方法、基于MOOC理念的網絡金融課程教學平臺以及大數據環境下的網絡金融動態教學模型。其目的是滿足學生對教學內容的個性化需求;引導教師針對性教學,豐富教學手段,實時更新教學內容,提高教學效果。
關鍵詞: 大數據; 網絡金融; 課程教學; 數據挖掘
中圖分類號:TP311 文獻標志碼:A 文章編號:1006-8228(2015)10-56-03
Abstract: Aiming at the obsolete teaching content and teaching method of network finance course and unable to meet the students' demand for new knowledge, and other defects, this paper discusses the network finance course teaching system in Big data environment, proposes the design method for network finance course content based on Big data mining, the teaching platform for network finance course based on MOOC concept, and the dynamic network financial teaching model in Big data environment. The purpose is to meet the students' individualized needs for the teaching content, to guide the teachers to the targeted teaching, enrich the teaching method, update the teaching content in real time, and improve the teaching effect.
Key words: Big data; network financial; course teaching; data mining
0 引言
大數據時代,對數據分析提升至戰略高度,數據表現出規模大、結構復雜、動態性高和價值密度低四大特點。大數據的產生來源于Web2.0及語義Web的廣泛普及與應用,隨著博客、社交網絡、基于位置的服務LBS的新型信息發布方式的不斷涌現,以及云計算、物聯網等技術的興起,數據正以前所未有的速度增長和積累,大數據時代已經來臨[1]。大數據改變了傳統決策模式,使任何工作流程變得智能化、科學化,課程教學也不例外。其對課程教學的影響表現為:大數據環境下課堂教學手段豐富化、大數據環境下課堂教學內容精準化、大數據環境下課堂教學形式多樣化,以及大數據環境下教學過程動態化。
網絡金融是互聯網與金融領域理論和技術相互結合最為緊密的學科,也是融合管理、人工智能、信息等其他學科知識的交叉學科,因此,大數據的出現必將改變網絡金融教學體系[2]。鑒于目前網絡金融教學效果不佳,教學手段、形式單一,教學內容跟不上時代發展,以及教學過程靜態化等缺陷,本文主要研究大數據環境下網絡金融課程教學內容改革、大數據環境下網絡金融課程教學手段及形式改革,并提出大數據環境下網絡金融課程教學模式,以適應教學環境的動態變化,最終提升網絡金融課程的教學效果。
1 基于大數據挖掘的網絡金融課程教學內容設計
設計目標是針對不同學生對課程的需求,設計“一對一”的個性化課程內容。設計的可行性來自于大數據的本質及大數據技術,大數據分析有別于傳統數據分析在于全面收集數據,而不采用抽樣方法[3],提升了對客觀事物語義級別認知的能力。其設計流程為:以學生提出的有關課程內容的問題訴求為中心,挖掘課程教學內容主題及主題之間的關聯,構建主題文本集數據庫A;全面收集有關該主題集的數據,再次挖掘相關主題及主題之間的關聯,構建主題文本集數據庫B;利用語義相似度計算方法,集成主題文本集數據庫A與數據庫B,構建以學生對課程內容需求為核心的,知識內容全面化、精準化及個性化的教學內容。其流通如圖1所示。
1.1 課程主題挖掘
本文利用文本挖掘層次聚類方法對兩部分數據實施挖掘分析。一部分數據是學生對課程內容的問題訴求;另一部分是學生所關注的主題集的數據,這部分數據主要來源于教材、評論、微博、博客等平臺。首先對這些數據進行分詞處理、文本特征標引、詞頻降維等預處理;其次利用潛在語義標引方法(LSI)的奇異值分解技術(SVD)進行詞頻降維,得到“概念—文檔”矩陣N,矩陣的每一行表示一個概念、每一列表示一篇文檔,則矩陣中的元素Nij表示概念ti在文檔dj中的權重。該矩陣的行向量可表示為V(t)=(Wt(d1),…,Wt(di),…,Wt(dn))。di表示第i個文本, Wt(di)表示第i個文本在概念t中的權重。主題聚類步驟[4]如下。
⑴ 確定要生成的簇的數目K(K ⑵ 依據領域本體所對應的概念,在矩陣N中找出K個上位概念作為聚類中心的種子S={s1,…,sj,…,sk},其中V(sj)=(Wsj(d1),…, Wsj(di),…, Wsj(dn))。 ⑶ 對每個特征項ti,依次計算它與各個種子sj的相似度sim(ti,sj)。其中特征項ti和概念sj之間的相似度可以用向量V(ti)和V(sj)的余弦來計算,公式如下[5]: Sim(ti,sj)= (公式1) ⑷ 選取具有最大相似度的種子arg max sim(ti,sj),將ti歸入以sj為聚類中心的簇Cj,從而得到特征項集的一個聚類C={c1,…,cj,…ck}。 ⑸ 重新確定每個簇的中心點。 ⑹ 重復步驟⑵、⑶、⑷、⑸,直到中心點不再改變,文本中的特征項不再重新被分配為止。 1.2 課程主題間關系挖掘 關聯規則分析是數據挖掘的一個重要方法,將文本集D看作事務集,其中每個文本d視為一個事務;對于每一個文本d,用SVD方法篩選得到的特征項組成新的向量,替換原有的文本特征向量,新向量組成的特征項集視為項集。具體算法如下[6]。 ⑴ 設置最小支持度閾值Smin和最小置信度閾值Cmin,運用Apriori算法找出文本集D中所有的頻繁特征項集W={t1,…,ti,…tn},并由該頻繁特征項集直接產生強關聯規則集R={r1,r2,…,ri,…},ri={ti?tj},其中ti,tj∈W,且P(ti∪tj)>Smin,P(tj|ti)>Cmin。 ⑵ 對于ti,tj∈W,若同時滿足ti?tj和tj?ti,那么特征項ti和tj的關系為等價關系,筆者認為該等價關系包含同義或反義關系。 ⑶ 整體部分關系和上下位關系都為層次結構。對于ti,tj∈W,且{ti?tj}∈R,P(tj|ti)>P(ti|tj),則tj出現的文檔集合是ti出現的文檔集合的子集的概率,要大于ti出現的文檔集合是tj出現文檔集合的子集的概率,那么概念ti,tj之間存有層次結構,且ti是tj的上位概念。 ⑷ 從R中刪選具有層次結構關系的強關聯規則集R1={r1,…,ri,…rn},其中ri={ti?tj},且P(tj|ti)>P(ti|tj)。從R1中人工選出具有繼承關系的強關聯規則訓練集Ris-a,和整體部分關系規則訓練集Rpart-whole,計算它們各自關于P(tj|ti)的最大值和最小值區間,及平均值。作為具有層次結構概念間關系學習分類的標準。 ⑸ 對任意ri={ti?tj}∈R1,若P(tj|ti)∈Ris-a[Pmin,Pmax],且P(tj|ti)~Ris-a()。則ri應歸屬于上下位關系。同理可推斷整體部分關系。 1.3 文本集數據庫A與B的語義相似度計算 本文參照我國學者劉群等人所提出的義原相似度計算方法。義原是描述概念的最小單位,由虛詞和實詞概念構成,義原相似度計算是建立在“整體相似要建立在部分相似的基礎上”的假設上,其計算公式如下[7]: 其中s1和s2為兩個進行語義映射的概念;sim(s1,s2)為兩個概念的語義相似度;βi(1≤i≤4)為可調節的參數,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4,后者反映了Sim1到Sim4對于總體相似度所起到的作用依次遞減。simj(s1,s2)分別是第一獨立義原相似度、其他獨立義原相似度、關系義原相似度和符號義原相似度的加權平均值來計算實詞相義原相似度。而對于這四種義原相似度的計算即為詞語相似度的計算。 2 基于MOOC理念的網絡金融課程教學平臺 MOOC是“大規模在線開放課程”的英文簡稱,具有大規模、開放、在線等特點。MOOC的推廣得益于其獨特的教育理念:“以學生為中心”,注重微型知識單元的設計及形成性評價,發揮學生的主體作用及盡量借用技術支持教學及評價等手段[8]。本文利用該理念構建大數據環境中的網絡金融課程教學平臺,將云計算、數據挖掘等大數據技術融入到課程教學中,關注學生喜好,實現教學方式人性化、教學手段智能化,最終提高教學效率。構建的平臺如圖2所示。 該平臺主要由數據集成、云計算、數據挖掘、知識服務模塊四大部分組成,以下介紹各部分的功能。 2.1 數據集成 大數據環境下,關于同一客觀事物的數據量大、數據結構多樣化、語義起義化。數據集成是將這些海量、異構及歧義的數據遞交給云計算平臺之前,先將這些數據進行預處理即語義整合。數據集成的目標是實現各個異構數據源之間的數據共享,并在分布式環境下給用戶提供一個單一系統映像SSI(Single System Image),從而有效利用資源,提高整個異構數據集成系統的性能。數據集成的主要內容是基于網絡的由不同硬件、操作系統、數據庫管理系統和應用軟件組成的異構數據處理環境下的數據模型、數據庫模式、事務處理、查詢語言、并發性控制與數據庫狀態一致性維護等一系列問題的集成[9]。 本文收集有關網絡金融教學內容的各種相關數據,如教材、用戶評論、微博、博客、銀行實訓數據等,這些數據來自于不同平臺且具有不同的數據結構類型,通過數據集成方法整合到網絡金融數據倉庫中,以待進一步計算處理。本文采用基于本體的數據集成方法,它是充分利用本體技術來進行知識組織,解決多個數據源之間的語義異構問題,實現語義集成,即起到公共語義描述的作用,很好解決了大數據中的語義異構問題。 2.2 云計算 在云計算模式下,計算能力可以像煤氣、水電一樣作為商品進行流通,即云計算可把網絡上的服務資源虛擬化,把整個服務資源的調度、管理、維護等工作交由專門的人員負責,用戶不必關心“云”內部的實現,按需計算服務,整個過程方便、快捷、費用低廉。 本文將語義集成后的數據提交給云計算平臺,融合數據挖掘技術,提供快速有效地滿足客戶個性化需求的服務模式。具體來說,以“云計算”為核心的網絡金融教學平臺具有以下優點[10]。 ⑴ 虛擬化課程資源管理。云計算實現的關鍵技術是虛擬化技術,可使單個服務器支持多個虛擬機運行多個操作系統和應用,從而大大提高服務器的利用率,為用戶提供靈活可變、可擴展的平臺服務。 ⑵ 提供課程教學服務質量(Quality of Service,QoS)保證。云計算可根據用戶對硬件配置、網絡帶寬、存儲容量等需求對系統做出調整。 ⑶ 教學平臺具有高可靠性、可度量性和可擴展性。可自動檢測失效節點,提供高質量的服務;服務資源的使用可以被監控;用戶可以隨時隨地根據實際需求,擴展處理能力。 ⑷ 教學服務自治性。云計算系統對用戶來講是透明的,自動完成不同的管理任務,系統的軟件、硬件、存儲能夠自動進行配置,從而實現用戶按需提取。 2.3 數據挖掘 數據挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。數據挖掘的核心技術包括:數理統計、人工智能、機器學習等多個領域的知識。根據所分析數據結構類型的不同,數據挖掘又可分為數據庫挖掘、文本挖掘、Web挖掘等多種類型。數據挖掘的方法主要有概念描述、關聯分析、分類、聚類等,主要完成描述和預測的功能。 本文運用文本挖掘方法中層次聚類和關聯規則挖掘算法,主要算法如上文所述(見1.1和1.2節內容)。 2.4 知識服務模塊 將通過云計算平臺所獲取的知識模式推送到客戶端,主要包括四大模塊。①網絡金融智能化服務模塊:該模塊主要實現基于云計算的網絡金融課程實時實驗平臺,可根據學生、教師的不同需求、分組及個性化、多樣化地實現實驗操作,兼容后臺數據倉庫,實現高質量、高效、高可靠性、高可擴展性的實現平臺。②學生智能化咨詢模塊:該模塊實現對學生有關教學內容問題的智能實時回答,形式諸如淘寶咨詢平臺。③在線個性化教學內容設計模塊,該模塊主要實現針對不同學生的需求,進行個性化課程知識單元及主題設計,以便教師有針對性的開展高質量、高效的教學過程。該過程可智能化的獲取學生感興趣的知識主題,教師可智能化地獲取有關該知識主題詳細的知識地圖,輔助教師展開智能化、個性化教學。④教師教學評價模塊:該模塊主要是獲取學生對教師教學效果的評價,包括教學內容是否全面、教學內容是否準確、教學內容是否有趣味性、溝通是否及時、問題反饋是否響應度高等各方面。由于是基于智能化信息平臺展開的教學模式,所以有效地避免了學生與教師課堂面對面式的“情緒匹配”不對應,進而消除教學效果評教不公等弊端。 3 大數據環境下的網絡金融課程動態教學模型 鑒于目前在高等教育教學過程中普遍存在教學方法手段老套、教師教學思維停步不前、教學內容陳舊不變、教材大綱落后等問題,本文提出一種適合于大數據時代的動態式的網絡金融課程教學模型,該模型融合數據挖掘、云計算等多種大數據處理技術,以教師引導、學生自主學習為前提,圍繞知識挖掘、知識共享及創新為核心,以動態輸入最新課程數據、輸出最有價值課程知識為目標,最終實現滿足學生個性化需求的智能化教學過程。該模型如圖3所示。 4 結論 網絡金融是融合計算機、網絡、信息等新型技術發展與金融領域知識的交叉學科,大數據時代必將對網絡金融產生影響。鑒于目前網絡金融教學中所出現的教材陳舊、內容老化、方法及手段跟不上需求等缺陷,提出了大數據環境下網絡金融課程教學內容設計、教學方法創新以及動態的教學模型,構建了以學生對課程內容需求為中心,以知識挖掘、創新與共享為目標的,并能實時結合社會金融發展最新動態的網絡金融教學體系。本文的研究旨在為大學“網絡金融”課程探索滿足大數據環境需求的新型教學方法和教學模式,為師生雙向交流與溝通提供有效途徑,充分調動雙方課題積極性,使教學信息化設備發揮應有的作用,最終取得良好的教學效果和課堂滿意度。本文還提出了滿足學生個性化需求的教學主題挖掘,以及主題之間關聯挖掘的系列算法,但該算法的有效性還有待驗證,這將是以后研究的重點。 參考文獻: [1] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013.50(1):146-169 [2] 金陵.大數據與信息化教學變革[J].中國電化教育,2013.321(10):8-13 [3] 馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013.34(2):10-16 [4] 張玉峰,蔡皎潔.基于數據挖掘的Web文本語義分析與標注研究[J].情報理論與實踐,2010.33(2):85-89 [5] 唐濤.基于文本挖掘的領域本體學習研究[D].武漢大學博士論文,2009. [6] 蔡皎潔,張玉峰.Web環境下基于用戶興趣本體學習的文本過濾研究[J].情報雜志,2010.7(29):153-156 [7] 劉群,李素鍵. 基于《知網》的詞匯語義相似度計算[C]// Processingof Cpmputer Linguistics and Chinese Language Processing,2002.2:59-76 [8] 石冬凌.MOOC對教學帶來的思考與啟示[J].計算機教育,2014.9:13-16 [9] 羅偉其.信息大系統的信息集成結構模型設計與實現[J].計算機工程與應用,2001.37(2):9-12 [10] 張建勛等.云計算研究進展綜述[J].計算機應用研究,2010.27(2):430-433