摘 ?要:隨著時代的發展和進步,大數據理念已經逐漸為人們所熟知,并無時無刻不在影響著人們的生活和工作。通過利用大數據能夠有效促進校園管理和建設的開展,能夠對校園就業情況進行用戶畫像建設,一方面實現校園就業用戶的更好管理,另一方面也能夠促進校園就業工作的更好開展。
關鍵詞:大數據;校園就業;用戶畫像;數據收集
中圖分類號:TP311.13;TP391.1 ? ? 文獻標識碼:A 文章編號:2096-4706(2019)17-0110-03
Abstract:With the development and progress of the times,the concept of big data has gradually become known to people,and has always been affecting people’s lives and work. The use of big data can effectively promote the development of campus management and construction,and can build user portraits of campus employment. On the one hand,it can achieve better management of campus employment users,on the other hand,it can also promote better development of campus employment work.
Keywords:big data;campus employment;user portrait;data collection
0 ?引 ?言
伴隨著大數據時代的到來,社交網絡與互聯網的應用范圍處于持續擴大之中。在整個互聯網中,社交發揮著重要的基礎作用。對于各個重大網站而言,其重要課題之一就是采集用戶數據,并對其開展科學推薦工作。在開展個性化推薦工作的過程中,其包括許多步驟,用戶畫像提取過程發揮著關鍵作用。
1 ?畫像的定義和用途
1.1 ?畫像的定義
畫像與profile為同一概念,均是通過不同的維度,來對一個人進行描述,這些維度可以是事實的,亦可以是抽象的;可以是性別、年齡等自然屬性,亦可以為職業、社交特征等社會屬性;可以為是否高收入人群、是否有固定資產等財富情況,亦可以為是否已婚、是否有子女等家庭情況;可以是喜歡網購、喜歡逛商場等購物習慣,亦可以是位于在城市生活等位置特征;也可以是其他行為習慣。總而言之,在畫像的范圍中,將各個大家能夠想象到的表達一個人特征的都包括進來,實際上,畫像就是利用各種方法,通過數據來對人的特征進行描述。
1.2 ?畫像的用途
(1)能夠精確開展相關營銷工作,對產品潛在用戶進行科學分析。通過短信郵件等形式,針對特定群體,開展相關營銷工作。
(2)針對對用戶進行相關統計,例如:全國就業高等院校有哪些、中國大學購買書籍人數TOP10等。
(3)進一步挖掘相關數據,建設智能推薦系統,通過關聯規則,開展相關計算工作,比如,就業崗位更喜歡什么樣的學生。通過聚類算法,開展相關分析工作,了解就業學生的特點以及行業分布狀況等。
(4)開展效果評估工作,健全產品運營情況,以此來實現服務質量的提升。換而言之,就是開展市場與用戶調研活動,在短時間內對服務群體做出定位,并提供具備較高水平的服務,
(5)針對特殊用戶開展私人定制工作,換而言之,對某類群體,甚至每位用戶提供個性化服務。
(6)可以科學分析業務經營情況,亦可以合理分析競爭情況,上述分析結果會對企業發展戰略的制定與實施,造成一定的影響。
2 ?大數據的校園就業用戶畫像的構建和應用
2.1 ?數據收集
通常情況下,在數據收集方面,可以分為四種類型,即:基本用戶數據、就業行為數據、就業行業數據以及未來發展數據。
(1)基本用戶數據。其主要內容包括就業學生的姓名、性別、年齡、年級、學習的專業等。
(2)就業行為數據。其主要包含:就業中的表現、就業的情緒、就業過程中的經歷、面試的單位、參與面試的心理狀態、進入就業市場到成功就業時間等。
(3)就業行業數據。其主要包括:就業的行業、就業的類別、就業崗位、就業之后的薪資待遇、走入工作崗位的心理感受、就業環境等。
(4)未來發展數據。此部分數據主要包括學生就業行業的未來發展趨勢、就業崗位的未來發展趨勢、自身的就業成長前景等。
這些所收集的數據信息具備一定的不確定性,其準確率不能夠達到百分之百,在后臺階段之中,需要開展相關建模工作,并在此基礎上,做出相關判斷。例如:在性別一欄中,某用戶所填寫的為“男”,但是利用其他數據,能夠有80%的概率判斷其性別為“女”。值得注意的是,針對用戶行為數據信息,在開展相關儲存工作的過程中,應當最大限度地對發生該行為的場景進行存儲,這樣有助于數據分析工作的順利開展。
針對這一階段所收集的數據,應當開展行為建模工作,以此來將用戶標簽抽象出來。在該階段中,應當高度關注大概率事件,利用數學算法模型,最大限度地排除用戶偶然行為。在這個過程中,也應當通過機器學習,針對用戶的行為以及偏好,開展相關猜測工作。
在這個階段中,為了能夠針對用戶貼標簽,需要運用許多模型,行為建模這一階段的深入,就是基于大數據校園就業用戶畫像基本成型,應當從大體上,標簽化用戶基本屬性、購買能力、行為特征、興趣愛好、心理特征,以及社交網絡。其中,其基本屬性主要指的是性別、年齡、地域等。這里所指的基本成型,究其緣由就是在對個人進行描述的過程中,用戶畫像不可能對其進行百分之百的描述,只能夠不斷貼近實際情況。所以,針對基于大數據的校園就業用戶畫像,能夠依據變化的基礎數據,持續開展相關修正工作。與此同時,還能夠依據已知數據,對新標簽進行抽象,進而提升用戶畫像的立體性。
針對“標簽化”而言,通常情況下,會運用多級標簽與多級分類。其中,年齡、性別、地域等基本信息屬于第一級標簽,消費習慣與用戶行為屬于第二級標簽。在第一級分類中,將人口屬性包括進來。在二級分類中,除了基本信息與地理位置之外,還將人口屬性等內容包括進來。在地理位置方面,可以劃分為工作地址與家庭地址三級分類。
針對基于大數據校園就業用戶畫像,要想將其真正利用起來,就需要采用數據可視化分析。在該步驟中,相關工作的開展,通常是針對群體分析來進行的。例如:能夠依據用戶價值,對相關核心用戶開展細致劃分工作,并對某一群體的潛在價值空間進行相關評估,進而不斷提高相關運營工作的針對性,確保運營工作的高效開展。
2.2 ?常用算法
在對模型設計與數據計算處理方式進行確定的過程中,應當以業務目標與原材料為基礎來進行。在面對不同行業與應用情景的情況下,應當利用不同的數據源,開展不同的標簽設計和計算工作。
(1)人口屬性主要指的是人的基本特征,例如:年齡、性別等;
(2)資產情況主要指的是資產特征,例如:房產、收入、車輛等;
(3)興趣特征主要指的是興趣偏好,例如:運動健康、閱讀資訊等;
(4)消費特征主要指的是網上消費類別品牌、線下消費類別品牌等;
(5)位置特征主要指的是職住距離、常駐城市等;
(6)設備屬性指的是所運用終端的特性等。
要想對上述標簽的設計進行計算與支持,離不開多種維度的數據源:
(1)針對產生維度而言,包括線下數據、移動終端數據、PC端數據;
(2)針對數據擁有者而言,包含市場采集數據、外部官方渠道數據以及一方客戶自身數據;
(3)針對數據類型而言,包括交易數據、位置數據、運營商數據、社交數據等。
通過這些不同源的數據,在對處理業務所需要的標簽進行計算的過程中,通常包括以下步驟:
(1)抽取數據:通過不同數據源,將需要計算標簽的數據原材料抽取出來;
(2)數據標準化:清洗所抽取的數據使其成為標準格式,并提出錯誤與無效數據;
(3)數據打通:數據來源不同,其所具備的主鍵與屬性就有所不同,數據打通的關鍵就是怎樣將這些數據關聯起來;
(4)模型設計:在構建模型的過程中,針對不同的數據內容與業務目標,對不同的規則與算法進行設計。
常用算法方面,主要包括線性回歸、邏輯回歸與多分類邏輯回歸。
2.3 ?重點難點
(1)怎樣對畫像主體進行定義。在現實世界中,每個人均為一個獨立實體。然而,在虛擬世界中,個人可能進行變身,不再是一個獨立個體,可以成為多個。例如:每個人的身份ID只有一個,但是可能具備多部手機,這樣對應的手機號為多個,設備終端ID為多個,所對應移動終端的使用行為同樣為多個。對于這個實體而言,多個終端ID所對應的特征不同,只有拼接起來這個實體,才能夠將整體畫像體現出來。一個人的QQ號可能為多個,倘若通過QQ行為角度做出相關分析,其所運用的邏輯基本相同,充分表現出終端實體多對一。反而言之,一對多的情形也會存在。例 如:對于一個家庭用的iPad而言,兒童可以通過iPad進行游戲,父親可以通過iPad來查收有關郵件,母親可以通過iPad來開展相關購物活動,通過這一個iPad,能夠將多個實體的行為特征體現出來,并且很難將其拆分開來。因此,要想對實體進行完整的定義,其所存在的難度系數非常高。這就要求,在相關業務領域中,部分情況下,要追求標簽的整體性,要想實現該目標所存在的難度系數非常高,反之,應當不斷提高對標簽代表性的關注度,不論是在一對多的情況下,還是在多對一的情況下,只要能夠利用標簽,將所需要尋找的受眾群體篩選出來即可。即使是面對家庭共用的iPad,雖然具備相關游戲標簽,這能夠充分體現出,在該家庭中,其成員具備相關方面的興趣愛好。
(2)怎樣將不同源的數據打通。針對一些不同源的數據,主要包括PC端的行為信息、移動終端的行為信息,以及TV端的行為信息,怎樣關聯起上述信息內容?在上述問題中,居于核心地位的問題就是怎樣打通這些終端的唯一標識ID。在Talking Data的數據體系中,已經完成了ID關聯圖譜的建設工作。在該ID關聯圖譜中,TD ID居于核心地位,發揮著至關重要的作用。通過Talking Data的ID-Mapping能力,已經促進了跨設備ID關聯映射工作的完成。因此,只需要將一家與Talking Data類似的數據接入,就能夠解決不同源ID的打通問題。
3 ?結 ?論
伴隨著社交網絡突飛猛進的發展與進步,媒體類型變得更加豐富多彩,正在持續降低用戶參與門檻。用戶表達的數據模態變得更加多樣化,進而促使用戶畫像提取空間變得更加寬廣。伴隨著用戶畫像數量的持續增長,越來越多的用戶開始通過大數據技術,開展高效的存儲以及用戶畫像計算工作。相關人員及院校也需要在大數據掌握基礎上做好校園就業用戶畫像的構建和應用,使校園就業工作得以更好推動。
參考文獻:
[1] 袁軍.大數據環境下用戶畫像在高校圖書館的應用研究 [J].圖書館研究與工作,2019(6):22-26.
[2] 汪強兵,章成志.基于手勢行為的社交網絡用戶興趣畫像構建及應用 [J].圖書與情報,2019(2):114-119+132.
[3] 劉漫.基于用戶畫像的高校圖書館閱讀推廣模式構建 [J].圖書館理論與實踐,2019(1):1-8.
[4] 茶利強,余添李,施菡,等.用戶畫像在企業人才標準構建中的應用 [J].管理觀察,2019(6):39-40+47.
[5] 姚遠,張蕙,郝群,等.基于本體的用戶畫像構建方法 [C] //中國計算機用戶協會網絡應用分會2018年第二十二屆網絡新技術與應用年會.北京:北京聯合大學北京市信息服務工程重點實驗室,2018.
作者簡介:劉艷(1982-),女,漢族,湖南長沙人,講師,碩士,研究方向:移動應用、大數據。