黃姿 胡小忠 徐杭 秦圓 陳磊



摘要:針對部分大學生自身定位不準、參加創新活動難以找到合適伙伴或團隊等問題,該文通過用戶畫像、數據挖掘和推薦算法等概念展開了對大學生創新匹配平臺開發的探討。利用軟件工程等技術,分析設計了平臺的系統功能模塊、工作流程、軟件架構及頁面設計等,其內容可為我國教育事業創新性研究提供參考。
關鍵詞:用戶畫像;大學生創新平臺;匹配算法;軟件開發
中圖分類號:TP399? ? ? ? 文獻標識碼:B
文章編號:1009-3044(2019)16-0044-03
開放科學(資源服務)標識碼(OSID):
1 背景
近年來,隨著時代和網絡的發展,類型多樣的活動使得大學生課余生活變得更加豐富多彩。然而,這些活動在提高學生綜合素養同時也帶來了一些問題。調查顯示,由于大多數活動的組隊賽制、學生個人定位不準確及交際網過窄等,超過三分之一的人不知如何找到合適的隊友或團隊。
作為日益成熟的數據分析工具,用戶畫像能全面細致地抽象出用戶的信息全貌,了解并跟蹤用戶需求變化并分析探求用戶需求變化的根本原因[1],其在生活中得到了廣泛運用。商界內,以京東、淘寶及亞馬遜等電商平臺為典型。學界內,楊帆[2]在研究中以讀者的行為偏好為中心,實現了圖書館的個性化推薦;國外學者 Iglesias 等[3]對 Web 站點的網絡日志進行了深度挖掘,通過對用戶行為模式進行聚類來刻畫不同群體的用戶畫像等。
盡管如此,在國內卻鮮有人基于用戶畫像等概念對如何促進大學生創新進行研究。本項目充分考慮大學生對組隊比賽的需求,旨在通過用戶畫像、數據挖掘和推薦算法等技術,開發一套大學生創新匹配平臺,以此準確定位學生個人能力,向其推薦心儀的活動、團隊和伙伴等,使得團隊效益最大化,為我國創新創業助力。
2 系統總體設計
按照軟件工程的方法,項目首先進行了需求分析,重點對數據需求和功能需求進行了相關研究,通過分析,總結出平臺主要解決“推薦活動”和“推薦人員”兩個核心問題,由此衍生出多個為其服務的功能模塊。如登錄注冊、信息管理、聊天通知及匹配推薦等,其功能模塊如圖1所示。
圖1中,登錄注冊、信息管理與通知及聊天為基礎功能模塊。登錄注冊建立用戶與平臺的聯系,為后期收集用戶信息、生成用戶畫像及個性化服務做準備;信息管理高效安全地存儲用戶信息,為精準推薦匹配功能提供數據基礎;查詢讓用戶快速獲取所需信息;通知及聊天為用戶相互了解提供渠道,使得人與人之間的合作機制更加高效。
自動打標簽與報名及匹配為平臺核心功能模塊,前者可根據信息管理模塊提供的基礎信息,分析和挖掘數據間關系,為實體標注標簽,同時動態更新用戶畫像;后者除實現報名外,還可借助前者生成的標簽、權重與用戶畫像,依據一定的推薦算法進行活動與人員的推薦。其中,由于人員組成類型的多樣,又可將其分為志趣相投的伙伴、有目標活動的隊伍及隊員三類。
3 核心功能工作流程
圖1給出了系統所包含的主要功能模塊,其中自動打標簽、報名和匹配功能模塊的設計與優化是提升本系統實用性的關鍵。其中,雖然報名與匹配同屬一個大模塊,但報名功能相對較為獨立,可單獨進行分析。
1)自動打標簽流程
自動打標簽模塊分為2個部分,分別負責活動和人物的標簽分析。
由圖2可知,自動打標簽模塊由時間周期觸發運算更新標簽操作,系統內置計算規則決定運算標簽的權重及內容。而用戶畫像主要由標簽組成,一旦實體標注的標簽內容準確,畫像的分析則可通過調用接口實現。
2)報名工作流程
報名工作將意向用戶或活動加入匹配池,為后續匹配工作提供數據源。
由圖3知,報名方式分兩種,若是個人報名,在確定之后將加入目標活動的人員匹配池;若是團隊報名,則在選擇隊伍之后加入目標活動隊伍匹配池。這2個池為匹配推薦功能中的隊員推薦和隊伍推薦提供基礎。
3)匹配推薦工作流程
匹配推薦分為活動、伙伴、隊伍和隊員推薦四個子塊。為了實現精準推薦,每個模塊都將基于實體的標簽表進行運作。
由圖4知,不同匹配子模塊之間的運作流程基本類似,只不過它們所基于的運算數據源和算法不一樣,從而劃分成了不同子塊。匹配推薦的流程可以抽象概括為:系統先判斷用戶當前的匹配類型,再根據匹配類型獲取所需的數據與計算規則進行運算,在得到了相應的匹配數目的集合之后,按照匹配度從高到低的順序從優呈現給用戶。其中,推薦隊員和推薦隊伍實質上是一個逆向的計算過程,僅在數據源、結果集的處理上有所不同,因此它們共用一個匹配度計算功能子塊。
4 系統開發環境
為優化系統性能、提高開發速率及降低功能耦合等,本系統采用微服務架構提供業務服務。以五臺微服務服務器提供業務服務,一臺數據服務器提供數據源,Redis緩存數據庫加快訪問速率及Mysql數據庫實現數據持久化;利用Jenkins可以監控軟件開發流程等;Docker容器中創建和部署各個應用,以實現軟件系統服務隔離等。其具體性能和搭載的服務組件如表1所示。
在該硬件配置方案下,僅一臺服務器負責數據存儲工作,這容易造成服務器性能瓶頸。對此,通過配置及帶寬升級可在一定程度上解決該問題。基于以上配置和思想,可得系統運作基本架構如圖5所示。
由圖5可見,微服務器各負責不同的業務功能,它們之間可以進行通訊服務。Master DB負責數據的存取,Nginx實現服務器之間的負載均衡。如此架構,系統便具有了高擴展、松耦合、易部署和易理解等特點。
5 系統實現主要界面
在總體設計和詳細設計的基礎上,進行了編程和測試,下面給出系統開發的主要功能界面。
1)個人中心
圖6個人中心集中展現了目標用戶的信息,除本人用戶可對其進行修改外,訪客也可通過此了解目標用戶的大致情況。本人用戶可以通過我管理的隊伍、我參加的活動進入匹配功能進行推薦隊友、隊伍等。
2)伙伴推薦
圖7展示了進行伙伴推薦之后的結果頁面,只要向上拉動伙伴推薦頁面就可以拉取最新推薦內容。其中,科技成就值和可靠度正是通過內置算法計算得出,其數值可直觀地為用戶提供選擇隊友或活動的依據。
3)活動推薦
圖8展示與伙伴推薦類似,只是此處并沒有更細節的展示匹配度,取而代之的是與活動相關的細節信息,有助于用戶篩選符合目標條件活動。
6 結束語
本項目屬于國家級大學生創新訓練項目,開發靈感來源于生活,將用戶畫像等概念運用在大學生創新上,具有較強實用性。目前該系統正處于系統運行與維護階段,雖然實現了預期的目的,但仍然存在一些不足,如推薦算法效率和精度不高等問題,后續將會繼續深入研究。
參考文獻:
[1] 王凌霄, 沈卓, 李艷. 社會化問答社區用戶畫像構建[J]. 情報理論與實踐, 2018, 41(1): 129-134.
[2] 楊帆. 以畫像分析為基礎的圖書館大數據——以國家圖書館大數據項目為例[J]. 圖書館, 2018(2).
[3] IGLESIAS J A, ANGELOV P, LEDEZMA A, et al. Creating evolving user behavior profiles automatically[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(5): 854-867.
【通聯編輯:謝媛媛】