錢禹坤
感覺日頭才剛剛落下,清晨的一縷微光便迎面而來,黑夜只延續了短短的一瞬間。這是一個失眠者的直觀感受,阿燦總覺得自己才剛睡下,便被這一道晨輝吵醒。他下意識地將臂膀環抱一旁,落了空。
方才清醒,已是離了婚的男人。
又是難熬的一天,阿燦深知這痛還會延續,可他并不后悔,下決定的是他自己,他依從了數據的結論。人會犯錯,數據不會。對此,他深信不疑。
阿燦是這座城市的“數字化城鎮”的項目主管之一,負責數據挖掘部分。也就是在項目進行的中段,一周之前,項目底層算法搭建進入了實測階段,阿燦獨自一人留在了開發間,調出了他親自建模的“人際網絡”模型。
實測樣例數據,他選擇從自己開始,再方便不過。
輸入了自己的唯一編碼,程序啟動,在分布式的大數據集群下,程序只需半分鐘便可得出結論:
一張關系網圖展開,中間是他自己,網絡分支指向了所有與他自己關聯密切的人群。再清晰不過的一張網圖,因為他也知道,在這個城市里,與自己關聯的人群屈指可數,除了妻子,便是項目組為數不多的幾名成員。關系圖伴隨著兩組數字徐徐展開,數字分別代表了個人的孤獨指數與所關聯人群的親密指數。這都是數據的力量,所有與之相關的消費行為、網絡行為、個人軌跡等數據作為基數,經過集群計算,反復機器演練學習,得出結論。
妻子的孤獨指數忽然吸引了阿燦的目光,較之上一次測試有了明顯的下降,這很不正常。阿燦下意識地選中了妻子的節點,新的網圖展開,不禁心頭一顫,那個陌生男人的面龐呈現了出來。他不認識這個男人,可他們之間的親密指數卻幾何倍增長,遠遠超過了正常范圍。阿燦依然心存僥幸,可當他調取出他自己與這個陌生男人之間的親密指數時,數據狠狠給了他一巴掌,是0。這意味著什么阿燦再清楚不過,妻子在這個男人與阿燦之間,完美的規避了所有可能的交集,阿燦所及之處這個男人幾乎全部避開,無須再調出更多軌跡細節,結論已經明了,這讓阿燦渾身都顫抖起來。但阿燦就是阿燦,一個合格的數據工程師,憤怒解決不了任何問題,他選擇相信數據:新的算法啟動,這是一個更加高級的智能推薦算法,它會給阿燦一個決定,而這個新算法也確實在瞬間便給出了那個決定——“這段婚姻持續的可能為1%”。
這個結論讓這段婚姻戛然而止,阿燦以數據為證,一周的時間便了結了一切。他還記得離婚登記處前妻子含淚的目光,寫滿了怨恨與不舍。可阿燦沒有在意,因為他忠誠于他的數據……
很遺憾,一篇科普,我選擇以一則故事作為開端,因為阿燦的故事近乎真實,那絕不是一則科幻小品,它就實實在在地存在于我們的現實生活。
有人不禁要問起,數據真的可以做到故事所表達的一切嗎?答案是殘酷的,當然可以。數字時代并不是悄然來襲,而是洶涌澎湃、踏浪而來。數據技術在短短的幾年間增長了數倍。大數據絕不僅僅是一個理念,它已經遍布于我們的周圍,無處不在。除非你選擇做一名隱士,丟掉智能手機和你的身份、歸隱山林,否則,你已經結結實實地為這座城市,充當了一枚數據傳感器,智能手機出賣了你的軌跡、出賣了你的行為習慣……就算是沒有它的存在,無處不在的物聯網傳感設備已然遍布于每一座城鎮的角落,真正的獨立也只能是你頭腦里的一則臆想,沒有人能躲過智能技術的魔掌。

我們還是回到阿燦的故事吧,孤獨指數為何物?人與人之間的親密度真的可以被量化嗎?那就跟隨我的步伐,讓我帶你進入到瘋狂的數據空間:
隨著現代化技術的發展,人與人之間的物理距離在縮短,而人與人之間的心理距離卻是在加大。有關資料顯示,大學生孤獨感表現得尤為強烈,孤獨感已構成大學生心理問題的一個重要方面,會嚴重影響到學生的學習與生活。我曾有幸參與過這樣一個關于國內高校師生的數據挖掘項目的建設,為高效地開展對大學生孤獨感群體的心理輔導等相關工作做輔助決策。那么項目中,如何精準的定位學生中的高孤獨感群體成為至關重要的一環。
數據挖掘應用從底層的數據選擇與篩選開始:
將全校學生每個月的一卡通食堂消費記錄、門禁記錄、建筑出入記錄等包含學生校園生活所有方面的記錄進行篩選去噪,并進行有效的重組合并。將缺失嚴重的數據進行刪除,以免干擾。匯總每位同學的背景信息,獲得其同班以及同宿舍的同學名單,從而構造全面的學生生活交友圈;
再來看分析方法:

在校園生活中,學生一般結伴出行,因此往往一卡通的消費記錄、門禁記錄等在時間和地點上是相近的,所以統計在一段時間內一位同學消費或圖書館宿舍的進出的前后與他是同班或者是同宿舍同學的總數量,經過函數處理生成相應的孤獨指數。以食堂的吃飯數據為例:對于每一條刷卡記錄,找出該記錄同一食堂的消費記錄,距離該刷卡記錄時間最近的前后共N條消費記錄(N越小,對于定義兩個學生是“不期而遇”的概率越嚴格,具體的指數N 由食堂的平均人流量決定),判斷這幾條記錄中的刷卡學生是否為該學生的舍友同鄉或者同學。如果是,可以近似認為該學生并不是單獨一個人出來吃飯,而是與同學結伴出行。若學生與他人結伴吃飯的次數占所有的吃飯次數比例越高, 則越能表明該學生喜歡與人結伴出行,則孤獨感越低;
最后我們來看評分方法:
孤獨指數:

將每位同學的同鄉同班同宿舍同學食堂結伴次數匯總,再根據食堂刷卡記錄得到相應同學就餐總次數,從而獲得結伴就餐次數的相應比例K,比例越大,說明就餐過程中有人陪伴的次數和人數更多,再將比例K通過函數形成相應的介于0和1之間食堂孤獨指數。同樣的計算方法可以用在圖書館,宿舍,體育館等數據結果上。
這個地方會涉及一個相對煩瑣的數學概率公式,我們暫且不表。再來看親密指數:
從每位同學的就餐記錄找出與他經常結伴吃飯的同班或同宿舍同學,并根據不同結伴同學的就餐次數生成相應每位就餐伴侶的親密度。
親密度=一起就餐次數/學生總就餐次數。
兩個指數描述完,一定會有人提出疑問,之前沒有表明的具體實現邏輯算法究竟是什么。我要說的就是,大可不用去關心它,偉大的計算機技術發展至今日,短短的數十行代碼便可解決以上所有數學計算,再結合與之相對應的計算機挖掘算法包與A.I.自學習引擎,關系網便可躍然屏幕之上,與阿燦所經歷的一致,一所學校的每一位學生孤獨指數、親密度、行為軌跡一目了然,別說找出幾個關系網了,就是你要我預測出每一條關系的未來,也依然有瘋狂的代碼庫作為支撐,預測的準確度取決于數據基礎的豐滿度。
作為一名高校生,也許你會心存僥幸,應該還沒有那么多的數據暴露出去。很遺憾,隨著物聯網技術在這些年的飛速發展,關于你的數據會越來越健全,機器的預測能力也會越來越強大。當然,數據的應用范疇,依然是存在邊界的,一條安全紅線保障數據的使用安全,就算是我有這個能力,紅線依然是不能碰的。孤獨指數的應用依然是向善的,它是為了更早地介入每位學生的心理健康問題。想要做到阿燦那樣的預測與監控,是完全不被允許的。
但這不禁讓我開始思考,道德準則是數據的安全紅線,只要嚴格遵守,就可以得到有效的保障。但是跨越了這個局限呢,放眼整個世界,能夠保障這條紅線就真的都能不被擅自剪斷嗎?我不知道,腦子里開始浮現出斯諾登、棱鏡門……于是才有了阿燦的故事。
《大數據時代》這本書就曾為我們描述過這樣一個經典的案例:

一天一位男性顧客怒氣沖沖地來到一家折扣連鎖店“塔吉特”。向經理投訴因為該店竟然給他還在讀高中的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。但隨后這位父親與女兒進一步溝通發現自己女兒真的已經懷孕了……

這里用到的就是大數據“關聯規則+預測推薦”技術。也許數據技術的初衷是好的,但我們不得不提出疑問,在數據與人性之間、在技術與人類該享有的私密之間,如何權衡。當然我們都可以如阿燦一樣,去相信數據的能力,它背后的強大技術已經完全可以取代一個人的主觀抉擇,就像是阿燦認為的那般——人會出錯,數據不會。不知不覺間,我們都淪為奴役,在數據的掌控下,按部就班,絕不犯錯。但冥冥中似乎又有另一個聲音在呼喚,那聲音從遠處而來,逐步走近,緊跟著幻化成影像,那畫面是阿燦妻子,那張哀怨與不舍的面龐。聲音就來自于這個出了軌的可憐女人,她嘴中反復念叨著一個數字1%、1%、1%……
是啊,如果阿燦愿意相信數據,可為什么他偏偏去相信了那百分之九十九的可能,而主觀地回避了那百分之一的概率。這樣的一個疑問看起來很傻,但卻是問題的實質,如果數學上的小概率事件是絕無可能,那數字存在的意義又是什么。機器從未給出阿燦一個絕對的定論,那百分之一的可能表達的意義其實更加值得挖掘。
我們與阿燦都忘卻了一件事。
這樣一個概率的結論,算法背后的根本原因是什么,我們都選擇了回避。回到大數據本質去思考,我曾多次在某些公開場合給人們講過這樣一個故事去解釋數據的意義:某天我經過一個熱鬧的路邊攤,迎面走來一個人跟我打了個招呼,說好久不見,然后就離開了,這是數據的局部采集,我曾誤以為他認錯了人。直到第二天,我又再一次經過這里,那個人又出現了,說了同一番話再次離開。然后是第三天,發生了同一件事,數據得到了積累,我終于有了足夠的數據基礎去計算它背后的意義——我遇到了一個傻子,他每天留在這里對每一個路過的人打招呼。數據在我的大腦中經過了清洗計算,得出本質,這也是最常見的數據提煉的場景,原本無意義的邂逅經過轉換變換成知識。可大數據時代來了,我大腦的計算能力得到提升,我開始考慮加入更多的數據,我發現那是一個路邊攤,一群喝醉了酒的家伙留在每一天的記憶里,我把他們提煉了出來,再次計算,這回也許是更加精準了,他們是同一群人,同樣的醉態、同樣的偷偷掩笑……結論忽然不再一樣了,我是被某種“玩笑”算計了。
雖然這個例子并不算多真實,但它還是從某種層面上解釋了大數據背后的意義:一定要更加全面去思考,大數據引領的不是一種技術,而是一種思維模式,讓數據的現象去解釋某種因果關系。
所以1%的結論如果背后的數據僅僅是妻子這一次出軌事件,似乎太過于武斷了。試問這天下間有多少家庭發生過同類的事件,如果每一次的“出軌”都直接影響了離婚率,這是不是有點兒不符常理了,所以大數據的背后一定還隱藏著阿燦所不愿去提及的更多數據本質的存在。阿燦太過于理性了,這天下間會有更多的阿燦存在,他們愿意相信技術的能力,然后逐漸失去人的本性。這才是1%結論的根本。
阿燦妻子的不舍與怨恨再次浮現腦海,揮之不去,那怨恨也許是對阿燦選擇的憤懣,可那不舍又是什么?
1%的概率算是個小概率事件嗎?

公元383年,前秦王苻堅率領百萬大軍揮師南下,東晉謝玄僅帶8萬 “北府兵”應敵,淝水遭遇,卻成就了個歷史上最經典的“淝水之戰”,以少勝多的經典戰役。這其中的概率自不必詳說。從長遠看,淝水之戰使得漢族中原文化得以延續,可以說正是淝水之戰才保住了中華文化的最核心部分。這讓我不禁感嘆,但凡要是給科技樹胡亂捯飭一把,真難以想象現如今的中國會是什么樣子;美洲大陸的發現也是由于哥倫布錯誤估計了由歐洲向西航行到達印度的距離。對于這位資深的航海家來說,也是一件無心插柳的絕對小概率事件,但這樣的小概率事件卻直接影響了歐洲乃至整個世界的經濟格局;再不濟,我們再來看看復仇者聯盟的英雄們,藝術工作者們為了給故事一個深遠的意義,同樣限定了一個小得不能再小的概率——一千四百萬分之一,那是正義翻盤的可能,答案我們都已明了,他們做到了。
所以我們也就知道了,阿燦和這個世界上更多如阿燦一樣的我們,在技術的時代丟失的究竟是什么,那就是一份勇敢與堅持,人性所獨有的那些寶貴的東西……
讀到這里,也許有人會關心阿燦最后的結局,但我無法給出,哪怕那是我寫出來的故事,我沒法預測故事的結局,更無法想象得到技術的終極。也許是我錯了,我就像是一件古舊的瓷器,無法接受新時代的召喚,但心中的另一個聲音經年不散——數據背后真正的含義是懦弱地沉浮其中,還是應該勇敢地堅守,堅守的是那份我們曾經相信過的那份初心,哪怕,它只有1%的概率。
【責任編輯:艾 珂】