張亮 趙娜
摘 要:高校學生的綜合素質是影響高校畢業生就業的一個關鍵因素,高校社團是素質教育的一個重要途徑,可以提高高校學生職業規劃意識和職業素養。如何讓新入學的高校新生選擇合適的社團,是本文需要研究解決的問題。從用戶的角度出發,推薦系統可有效地幫助用戶做出決策。本文把學生的相似度計算、K-中心點算法聚類分析以及招收指數結合在一起,最終得到社團的推薦排序值,并將其推薦給新生用戶。本系統能夠實現為新生推薦社團服務,具有一定的應用價值。
關鍵詞:推薦系統;相似度;聚類分析;PageRank
中圖分類號:TP311.52 文獻標識碼:A
1 引 言
高校畢業生就業難這個問題由來已久,其中一個主要原因是高校畢業生綜合能力較差,而高校社團是綜合素質培養的一個重要途徑。近年來,高校社團的數量和種類呈現快速增長的趨勢,如何讓高校新生選擇到合適的社團,信息化的高校社團推薦系統給出了這個問題的解決方案。
2 系統的構建
2.1 系統的軟硬件設計
推薦系統是基于.NET的三層架構體系,選用B/S模式進行架構,使用高性能PC作為服務器,采用Microsoft SQL Sever 2008企業版作為數據庫服務器,采用ADO做為數據訪問的基礎。Cluster[1-2]為網絡服務提供了靈活高效的軟件環境和硬件設施,為SQL Server提供了良好的性能擴展。
2.2 系統的整體架構
高校社團推薦系統就是根據特定的算法,以學生和社團的各項特征為基礎,建立學生和社團的二元關系,以二者之間的相似關系作為依據,為新生推薦合適的社團。下面是社團推薦系統實現的主要流程主:
1.構造學生數據庫(包括新生數據庫、老生數據庫)和社團數據庫;
2.依據新生數據庫和老生數據庫中的數據獲得新生和老生之間的相似度關系;
3.獲得社團數據庫中各社團之間的關系;
4.將2和3的結果相互結合,得到最終的排序權值;
5.對新生數據庫中的每個學生,社團數據庫中的社團按4得到的權值將排序后顯示給新生用戶。
社團推薦系統的框架結構圖如圖1所示。
3 核心算法
3.1 基于SimRank算法的相似度計算
為了挖掘新生和老生之間的相似關系,根據SimRank提供的“無向圖模型”,首先將學生數據庫中的“學生”與“特征”用一種二元關系來表示,如表1所示。接著將<學生,特征>的關系轉換成無向關聯圖模型。本文綜合考慮了專業、性別、特長、愛好、年級、級干、獲獎情況、計算機級別、英語級別等多項特征屬性,其中計算機級別與英語級別按照高考時成績劃分A(128<分數)、B(105<分數≤128)、C(分數≤105)三檔。
由上可以看出,一名新生與一家社團之間的相似度,需要考慮兩個方面,一是這名新生與加入這家社團的老生之間相似度,二是與這個老生類中所有加入這家社團老生的相似度,這樣可以避免噪音數據給結果帶來比較嚴重的影響,可以使結果更加合理。
3.4 基于PageRank算法的社團招收指數計算
事實上,某些社團招收社員時,會指定招收某類社員,而且多年來只招收這類社員。此時對于某一新生,再根據Sco得到的推薦社團,盡管排名靠前,確沒有任何意義。因此,在社團推薦系統設計過程中可以引入“招收指數”的概念,對于Sco值很高,但“招收指數”很低的社團,推薦時的排名不一定會靠前。
PageRank算法[9-10]的思想源于學術引文分析,它僅僅從頁面間鏈接結構出發,分析出頁面的重要程度。因此,可以認為將一家社團看做一個網頁,將基于社團特征屬性的相似關系看做網頁之間的鏈接,這樣就可以利用PageRank算法計算值得到社團的“PR值”,即所需要的“招收指數”。根據PageRank算法,社團“招收指數”的計算公式為:
其中d為阻尼系數,且0 3.5 最終排序權值的計算 根據前文得到的新生與社團之間的相似度Sco和社團的“招收指數”PR,通過下式計算得到最終排序權值W。 式中,W(i,w)表示社團w在新生i的推薦社團中的排序權值,PRmax 為所有社團PR值的最大值。 4 系統推薦顯示實例 一名新生在注冊登錄到本系統后,根據新生注冊的基本信息,按照上面所述的算法,系統將為新生推薦6家權值最高的社團,并直觀顯示在社團推薦的頁面中,新生只要點擊頁面中顯示的社團名稱,就可以獲得這家社團的招收社員的信息以及這家社團的簡介。 5 結束語 本文以高校新生社團選擇為研究課題,詳細介紹了設計高校新生社團推薦系統過程中的關鍵技術,從系統的使用測試來看,本系統基本滿足新生社團選擇的推薦要求,達到設計目的,但未加入就業方向等方面的信息。今后探索研究的方向是,如何將高校學生就業方向等信息與高校新生社團的選擇相結合,以便更好的提高高校學生綜合素質,減少高校畢業生就業難的成因。 參考文獻 [1] 魏茂林.Windows Server 2003網絡服務管理與使用[M].北京:電子工業出版社,2007. [2] 張志友.計算機集群技術概述[J].實驗室研究與探索,2006,25(5):607-609. [3] Glen Jeh,Jennifer Widom.SimRank:A Measure of StructuralContext Similarity[J].Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining.New York:ACM,2002:538-543. [4] 田玲,曾濤.基于SimRank的中藥“效-效”相似關系挖掘[J].計算機工程,2008,34(12):242-244. [5] 劉萍,黃純萬.基于SimRank的作者相似度計算[J].情報理論與實踐,2015,38(06):109-114. [6] 劉玉華,陳建國,張春燕.基于數據挖掘的國內大學生就業信息雙向推薦系統[J].沈陽大學學報:自然科學版,2015,27(03):226-232. [7] BOUTSIDIS C,MAGDONISMAIL M.Deterministic Feature Selection for KMeans Clustering[J].IEEE Transation on Information Theory,2013,59(09):6099-6110. [8] 呂小剛.基于Kmeans文本聚類算法研究[J].電腦編程技巧與維護,2014,(24):33-35. [9] 吳迪.高校畢業生就業推薦系統的設計與開發[D].大連:大連理工大學,2010:29-33. [10]徐鍵.基于PageRank的科技論文推薦系統[J].電子世界,2013,(01):103-105.