張笑言
(1.湖南大眾傳媒職業技術學院管理學院,湖南長沙410100;2.中南大學,湖南長沙410001)
基于貝葉斯與FCM的金融教學資源庫構建與推送研究
張笑言1,2
(1.湖南大眾傳媒職業技術學院管理學院,湖南長沙410100;2.中南大學,湖南長沙410001)
隨著互聯網和信息技術的快速發展,有必要建立完善的金融教學資源庫,促進資源交流和社會服務。針對目前國內金融類教學資源零散、低效的情況,研究大數據背景下基于貝葉斯模型的金融教學資源的構建與推送。通過分析金融教學資源的內容,利用模糊C均值聚類算法 (FCM)分析教學資源間的關聯關系,構建教學資源網絡,并用實例驗證了該模型對資源庫的管理水平和用戶的檢索效率的有效性。
貝葉斯模型;模糊C均值聚類;金融教學資源庫;推送系統;大數據
現代社會強調大學特別是職業學院的社會服務和資源共享功能。隨著互聯網和信息科技的發展,越來越多的大學將自己的教學資源,如電子課件、教學視頻等放在網上共享,甚至還出現了專門為大眾提供網絡學習的課程。金融專業作為經濟管理類的老牌專業,隨著我國金融市場的不斷開放與發展,不僅在大學里受到廣泛親睞,社會上對金融知識的需求也日益強烈。國外很多世界知名大學已經把金融的相關教學資源放在互聯網上供公眾學習,如美國西南大學的投資學入門、哥倫比亞大學的房地產金融學、耶魯大學的金融理論等,全球領先的開放課程平臺提供者Coursera免費提供金融工程與風險管理、企業金融學概論等課程,學生可以在線學習、寫作業和考試,甚至還可拿到相應的證書。我國近年來在金融教學資源的共享上也做出了一些嘗試,如北京交通大學的網上公開課“金融與生活”,武漢理工大學公開課“改變世界的電子支付”,以湖南省大專院校為依托的“世界大學城”等。但隨著金融教學資源越來越多,來源越來越廣,人們很難從中快速檢索到自己所需要的資源,往往耗費大量時間卻沒有找到自己需要的資源。
目前國內已有不少關于教學資源庫建設的研究,如朱維巍[1]分析了高職院校教學資源庫網絡化建設和應用的現狀與問題,并在此基礎上提出了幾點建議。方東傅[2]就高職共享型專業教學資源庫的體系架構、資源庫網絡信息資源建設、實驗實訓資源共享平臺建設等方面進行探討。大部分文獻主要定性為對資源庫的架構進行探討,實踐指導意義不大,也有一些學者從數據庫等技術角度探討了資源庫的構建,如梁斌、巫于斌[3]設計了知識管理工具開發模型圖,同時,探討了知識管理工具在網絡教學中的應用。徐佳寧[4]從服務目標、信息組織原則、資源采集、本地化技術、數據庫結構、網站框架等方面探討高校教學信息資源平臺的構建策略和實現方法。然而,這些研究中缺少對教學資源進行整合優化和推送的研究,基于金融方面的教學資源庫建設和推送研究更是寥寥無幾。因此,本文通過分析金融相關教學資源的內容和特點,利用模糊C均值理論(FCM)和貝葉斯模型研究金融教學資源的知識推送模型和面向推送的資源庫的構建,讓用戶能快速、準確、高效地找到其需要的資源。
1、金融教學資源庫的內容
金融資源庫的內容應包括:(1)課程教學類資源,包括課程大綱教案、多媒體課件、電子教材參考書等;(2)素材工具類資源,包括換算表、應用軟件、工具書等;(3)習題試題類資源,包括與教材配套習題、試題庫等;(4)實訓實踐類資源,包括實訓計劃要求、頂崗實習指導、考核要求等;(5)研究論文類資源,包括期刊論文、學位論文、教學心得等。(6)多媒體案例資源,包括文字型和多媒體案例、討論要求等[4]。
2、資源的融合與資源網絡構建
金融教學資源庫匯集了全國多家學校上百位教師的教學資源,且不斷處于更新中,這就要求將不同來源的資源進行整合,找出資源之間的相互關系,構建資源網絡。本文通過模糊C均值聚類,實現資源融合和網絡的構建。
FCM算法是一種柔性的模糊劃分,劃分區域之間互相重疊,數據是否隸屬于某一聚類是由隸屬程度決定的,隸屬程度在0到1之間[5]。從形式上看,假設有N組數據,其中n代表數據個數,h代表每個數據的維度,FCM就是把這n組數據劃分到C個聚類中,隸屬度為uij∈[0,1],代表第i組數對聚類j的隸屬度。隸屬度的計算采用目前最廣泛使用的模糊加權目標函數J作為優化約束:

其中V為聚類中心向量,代表歐氏距離。運用迭代方法不斷尋找最佳聚類中心,直到目標函數J達到指定數值或迭代次數完成。
這樣我們就可以得到一個隸屬矩陣U=[uij]。通過模糊聚類,將相似程度高的資源融合在一起,并利用隸屬度構建資源網絡。聚類數的選取是FCM的關鍵問題,一般評價函數[6]對其進行判別。使評價函數最小的聚類結果所對應的聚類數作為最優聚類數,評價函數為公式(2)。

以上獲得的聚類結果,用歐氏距離計算各資源間的距離,即關聯關系,就構成了資源網絡[7],用于存儲和快速搜索相關資源。
1、推送系統構建
為了實現金融教學資源的快速有效推送,首先需要對用戶的資源需求進行分解。用戶由于不同的目的對教學資源有所需求,該需求又可以分解為若干子需求。不同的用戶,根據其知識構成、所處行業等的不同,同樣的目標所需的資源內容層次也是不一樣的。在金融教學資源推送系統中,用戶輸入查詢目的,系統根據用戶的自身情況推送出最適合的教學資源。知識推送可以采用基于語境框架的文本相似度模型[8],但該方法檢索準確率低,不適用于模糊性大的需求檢索。利用案例推理進行知識推送適用于檢索本體差異性小的情況[9],而教學資源本身差異性大,很難計算出它們之間的相似度。鑒于大部分教學資源都是在互聯網平臺呈現和實現交互式服務,本文利用大數據預測推理思想,從互聯網已有的金融教學資源檢索使用數據利用貝葉斯方法建模,分析用戶信息與教學資源間的相關關系,從而達到快速準確推送的目的。具體推送系統如圖1所示。該系統包括6個模塊:資源存放模塊、資源管理模塊、資源檢索模塊、資源推送模塊、資源需求模塊和推送任務模塊。

圖1 金融教學資源推送系統框架構建
2.大數據背景下基于貝葉斯分類模型的資源推送規則
隨著互聯網的發展和數據存儲處理能力的提高,利用網上的海量數據進行商業管理、學術研究等已經成為大勢所趨。利用大數據,不用分析出數據間的因果關系,只要找到它們之間的相關關系,就能進行預測,且一般來說數據越多預測效果越好[10]。本文利用貝葉斯分類模型求解資源推送規則。
貝葉斯分類算法首先將用戶信息I轉化為特征向量,其中代表用戶的某一個屬性或需求。設相應的概率向量為,表示每一特征向量對應的概率。將教學資源也轉換成特征向量和相應的概率。當某一用戶信息I出現時需要資源Ri的概率可表示為:

其中,為信息I發生的概率,表示資源Ri被檢索到的先驗概率,為Ri被檢索時信息I發生的條件概率。上述公式都關鍵在于如何計算,本文利用貝葉斯多項式模型求解。
以某網站推出的公開課中與金融有關的課程驗證本文提出的數據庫構建和推送模型的有效性。在網站首頁搜索關鍵詞—“金融”,共搜索出37門課程,提取出課程相關屬性,包括關鍵詞、課時、學校和時間,如表1所示。另外,根據網站內部資料,得到100,000用戶的個人信息和所學習的課程,根據相關數據可以預測某一用戶適合的教學資源。

表1 金融課程屬性
1、數據預處理
由于表1中課程的大部分屬性為文本型數據,需要首先對數據進行處理。對于“關鍵詞”這個文本屬性,由于里面包含很多符號型數據,且數目不等,可以將每一個關鍵詞作為一個屬性,將其轉化為0-1型數據,“學校”可相應轉化為整數型數據“1,2,3,4,……”或單字符型數據“a,b,c,d……”。整理后的數據如表2所示:

表2 調整后的課程資源屬性
圖2課程資源網絡與聚類
2、課程資源推送規則驗證
利用貝葉斯方法用戶根據個人信息預測其金融教學資源需求。采用100,000個用戶的資料,其中90,000組資料為訓練數據,10,000組資料為測試數據。預測結果顯示預測誤差為18.7%。將貝葉斯預測方法與神經網絡方法[11]、線性回歸法和案例推理法[12]進行比較,比較結果如表3所示。

表3 預測誤差比較
由表3可見,本文所提的貝葉斯方法在預測的準確率上要明顯優于其他預測方法。但本方法主要適用于數據量很大的情況,運行速度快,準確率高,對于基于網絡的金融資源庫來說是合適的預測方法。利用該方法可以較快、準確地預測用戶的教學資源需求,為其推送適合的資源,提高資源庫的查詢速度和利用效率。
本文結合金融教學資源特點,提出基于貝葉斯模型的資源推送模型和基于FCM的資源融合和網絡構建機制,注重金融教學資源的開放性、擴展性和更新性,用數據挖掘方法找出資源間的關聯關系,有效實現資源融合,使其能快速有效地推送給需要的用戶手中。本文利用先進的數據分析方法構建金融教學資源的推送系統,使資源庫的構建維護從僅憑“經驗”轉為“經驗加系統支持”的模式,使其更自動化與智能化,提高構建和維護的效率。
[1]朱維巍.高職院校教學資源庫網絡化建設與應用研究[J].中國職業技術教育,2011,(11):68-72.
[2]方東傅.高職共享型專業教學資源庫建設策略的研究[J].實驗室研究與探索,2007,26(6):157-159.
[3]梁斌,巫玉斌.網絡教學資源庫系統中知識管理工具的設計與應用[J].中國遠程教育,2007,(2):71-75.
[4]徐佳寧.面向對象的學科教學資源平臺的構建研究[J].現代情報,2007,27(3):192-194.
[5]Ceylan,R.,Y.?zbay.Comparison of FCM,PCA and WT techniques for classification ECG arrhythmias using artificial neural network[J].Expert Systems with Applications,2007,33(2):286-295.
[6]Xie,X.L.,G.Beni.A validity measure for fuzzy clustering[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1991, 13(8):841-847.
[7]曹霞,劉國巍,付向梅等.基于網絡視角的知識整合過程機理及仿真[J].科學學研究,2012,30(6):886-894.
[8]趙楊.基于語義網格的數字圖書館知識推送服務系統研究[J].情報科學,2008,25(12):1869-1873.
[9]蔣翠清,李斌生,陸文星.基于實例庫的機械產品協同設計知識推送研究[J].機械設計與制造,2012,(1):257-259.
[10]Junqué de Fortuny,E.,D.Martens,F.Provost.Predictive Modeling With Big Data:Is Bigger Really Better?[J].Big Data,2013,1(4):215-226.
[11]張德豐.MATLAB神經網絡編程[M].北京:化學工業出版社, 2011.
[12]韓敏,王心哲,李洋等.基于貝葉斯粗糙集和混合專家模型的CBR系統[J].控制與決策,2013,28(1):157-158.
G40-057
A
1671-5136(2016)03-0118-03
2016-09-12
本文為湖南大眾傳媒職業技術學院教研教改課題《高職金融類教學資源庫整合與推廣研究》(項目編號:14JY15)的階段性研究成果。
張笑言(1984—),女,湖南長沙人,湖南大眾傳媒職業技術學院講師、中南大學商學院在讀博士。研究方向:金融投資、信息系統與決策支持技術、現代成本管理。