麥肯錫咨詢公司最早提出“大數據”時代來臨之時,人們沉浸在海量數據挖掘與應用帶來的生產盈余中,沒人想到能用它來尋找真愛。35歲的克里斯·麥克金雷(Chris Mckinley)做到了。
這位加利福尼亞大學洛杉磯分校的數學系博士像其他4000萬美國單身年輕人一樣,一直試圖通過OkCupid(美國知名婚戀交友網站)等社交網站尋找理想的約會對象。
在 OkCupid 里,每個用戶需回答350道題,問題隨機選取,包含政治、宗教、愛情觀等。系統會根據問題的答案自動計算用戶間的匹配程度并予以推薦。克里斯分到了一些冷門問題,只有不到100位姑娘勉強達到90%的匹配度。
面對滿屏代碼及空空如也的約會日程表,他想拿出專業辦法搞定這一難題。他決定通過抽樣與統計,知道他喜歡的姑娘們在意哪些問題,再根據這些問題建立一份新檔案,這樣,全洛杉磯適合他的姑娘就都能找到了。
克里斯不是數學宅男。他畢業于明德學院中文系,曾在紐約世貿中心從事翻譯工作,“9·11”那天,他因在家睡覺躲過一劫。之后他應邀加入大名鼎鼎的MIT-21點記牌團隊的一個分部,開始了職業賭徒生涯。在算牌的日子里,他發現自己為數學傾倒,毅然轉投加利福尼亞大學洛杉磯分校,成為數學系博士生。
現在,他的滿腔熱情被這個叫OkCupid的網站再次喚醒了。
為了獲取資料,克里斯申請了12個OkCupid賬戶,編了一個基于Python的腳本。利用這12個賬戶,該腳本自動搜索25至45歲的女性,訪問她們的主頁,獲取各種數據。在收集了一千個左右的樣本之后,程序因讀取信息過快被OkCupid的防御系統屏蔽。克里斯便修改自己的程序,通過模擬朋友的點擊率和打字速度來欺騙OkCupid。
僅僅3周,他獲取了600萬個問題和全國兩萬名女性的回答數據。他利用貝爾實驗室的K-Modes算法,將姑娘們自動分為7組,隨后縮小范圍,用同樣的方式給一個月內在洛杉磯登錄過OKCupid的5000名女性分了類。兩隊人馬脫穎而出:A組的姑娘二十出頭,特立獨行,熱愛音樂和藝術。B組的姑娘年齡稍長,從事設計類工作。
在計算機的幫助下,克里斯了解了這兩撥姑娘的喜好,對此精挑細選了500個問題,如實填寫了答案。他借此創建了兩份最終檔案,并針對性地附上照片:A組姑娘看到的他正在攀巖,而在B組眼中,他正憂郁地彈著吉他。
當他再次運行OkCupid配對搜索時,結果驚人:99% 匹配的姑娘有好多頁,拉到第1萬個,匹配度仍高達 90%。
為引起注意,他又編寫了一套程序自動訪問所有的高匹配度頁面,并以年齡為周期;周一訪問41歲女性,周二訪問40歲女性……回報很豐厚:他的主頁有時一天有400次的回訪量,信息也開始不斷涌入。
A組的網頁設計師謝拉達成了他的首位約會對象,他們在咖啡館共進午餐,約會成了一次學術交流會。第二次約會是和一名網站編輯,來自 B 組。他幻想著兩人會在公園湖畔漫步,可姑娘一直吟詩,讓他無所適從。第三次約會是和一名學編劇的在校生,他們約在了酒吧,結果他大醉一場,怎么回的家都不知道。
一次次約會換來一次次失望。夏季結束時,他約會了近百次,只有3個姑娘給了他第二次機會,僅有一個約會了3次。
克里斯開始懷疑自己的人品及程序。可就在這時,28歲的克麗絲丁主動跟他打招呼。兩人同校,她是美術專業的碩士生,匹配度91%。他們在學校花園碰了頭,又一起在壽司店吃了飯,相談甚歡,彼此留下深刻印象。
這是克里斯的第88次約會,很快又成了第89次,兩周后,兩人都暫停了 OkCupid 的賬戶。
“我認為我和其他人一樣,只是多了一點算法思維、大數據和機器學習視野。”克里斯總結。
現在,他已經拿到博士學位,在大學里做授課講師。克麗絲丁遠赴卡塔爾學習藝術。一天,視頻聊天時,克里斯拿出一枚鉆戒,她點頭了。克里斯覺得,自己需要再編個程序,讓計算機幫他們挑個黃道吉日。