張薇
默默是一家知名IT公司的HR經理。前兩天的一件事情,讓這位叱咤職場10年的精英在面試現場差點亂了分寸。
一位剛畢業的大學生來應聘公司數據分析師的職位,這位學習應用統計的文靜小伙子從上萬份簡歷中脫穎而出,又和其他49名幸運兒一起通過了第一輪的筆試。筆試結束后,作為HR負責人,默默召集這些職場新人們開了一個簡單的說明會,提示了筆試后第一輪面試的注意事項。“我叫默默,大家有什么問題,可以問我。”默默不知道,就是這句話,讓自己開啟了一場不為人知的歷險。
5個工作日后,第一輪面試開始,HR部門是主考官。那位小伙子走進房間,拿出了一個文件夾,說:“雖然我沒有相關工作經驗,但是這份報告可以證明,數據分析師的職位很適合我。”默默接過文件夾,倒吸一口涼氣,封面上赫然寫著“默默女士的2.0洞察報告”。報告不厚,只有十幾頁,可是關于默默的興趣愛好、常去的地方、最關注的人(經常@的人),親密圈子(互相關注的博友),包括經常談論的話題,以及網絡口頭禪等等,一一用數據、圖表展現無遺。
默默肯定是呆了幾秒鐘,內心翻江倒海,難以形容。因為,這份報告描繪出的自己,既熟悉又陌生。
難道我最愛吃的是麻辣香鍋,3月內提及這個詞匯10次?難道我如此渴望得到某個人的回應?3個月內@了他12次?難道,一個素未謀面的小伙子,比自己更加了解自己?
默默的經歷,也許以后將會在無數個普通網民身上上演。
和迄今為止都很盛行的星座算命不同,社會化媒體的個人軌跡不是前瞻性的,是日復一日累積的推演,也是最真實自我的記錄和展現。
很多時候,這些隱藏在電腦背后的龐大數據就像一個麻亂的大線團,只需要找到那個線頭一拎,就能清晰再現一個個的網絡人格,就能再現一個個連你都不知道的自己。
據統計,互聯網上的信息總量正以每年50%的增速不斷膨脹,其中90%的信息來自近三年,包括每個月Facebook上分享的30億條內容,每天12TB的Twitter信息。在中國,新浪微博、騰訊微博每天也在由數億用戶創造大量的數據,新浪微博發送峰值時每分鐘就能產生73萬條數據。這些社會化媒體的數據中,近80%是由個人用戶產生的。這些龐大、繁多、復雜的數據,在多種算法模型的演繹下,就能產生超出人類頭腦和感知的洞察結果。
比較近的一個例子是,英劇《黑鏡》第二季中,女主角在痛失男友后,加入了一個高科技的測試項目。該項目利用其男友在Facebook、Twitter等社交網絡上留下的大量數據,重建了一個模擬人格的AI(即人工智能)。這個“復活”了的男朋友,模仿逝者生前的語調、語氣,以及思維模式,和女主角聊天,最后甚至變成了一個具有行動能力的機器人。
而整個過程,全賴于這位男友在社交網絡上留下的大量個人信息和行為軌跡。利用大數據的方式,科研人員對這些個人數據進行分析,獲得模型、發現規律、統計比較,最終實現了“預測”——如果他活著,會怎么做。
作為大數據最有名的例子,一位美國17歲少女懷孕的事情傳播到了世界各地。某日,美國一名男子向一家零售連鎖超市投訴,稱給他17歲的女兒發嬰兒尿片和童車的優惠券。一個月后,這個憤怒的父親打來電話道歉,因為嬰兒用品促銷廣告并不是誤發,他的女兒的確懷孕了。
原本屬于個人私事的信息,通過某些購物機構數據庫的整合和計算,產生了巨大的商業價值,同時也造成了上述家庭啼笑皆非的經歷。
近日《紐約時報》網絡版撰文稱,人類即將迎來大數據時代,在大數據的發展過程中,隱私問題不容忽視。
美國一家著名的醫療機構利用大數據的方式,已經積累了900萬名病人的超級大數據庫。
利用這份數據庫,新的患者能迅速找到和自己接近的病患用藥方案,老的病患可以追蹤病情并提高醫療質量。顯然,大數據將推動醫療科學進入黃金時代,但也有醫生擔心,各界對隱私的關注,很有可能會推遲這一時代的到來。
無論如何,人類已經無法阻擋大數據滾滾前進的步伐。
我想,再過幾年,也許大家都不再癡迷于星座大師的運程預測,而是找家大數據機構出份個人洞察報告,跟著命運賜予的一個一個預兆,一點一點去了解那個不熟悉的自己。
(作者為新媒體觀察員,大數據分析師))