徐子沛
2002年,卡內(nèi)基梅隆大學(xué)的博士生路易斯發(fā)明了我們經(jīng)熟悉的驗(yàn)證碼,即用一排人為扭曲、奇形怪狀的字符來(lái)判斷當(dāng)下程序的使用者是人還是機(jī)器。機(jī)器無(wú)法自動(dòng)識(shí)別這些變形的字符,驗(yàn)證碼可以用來(lái)防止互聯(lián)網(wǎng)上廣泛存在的惡意機(jī)器注冊(cè)。
恰恰在這個(gè)時(shí)候,《紐約時(shí)報(bào)》 正面臨著一個(gè)令人頭疼的任務(wù):他們?cè)噲D把一百多年的歷史報(bào)紙全部電子化,當(dāng)時(shí)最可行的方法就是通過(guò)掃描進(jìn)行光學(xué)字符識(shí)別。但是,因?yàn)榕f報(bào)紙有油墨的痕跡、折疊的印記,并且發(fā)黃變色,加上幾十年前的字體與現(xiàn)在的也不一樣,因此識(shí)別率很低。當(dāng)然,還有一個(gè)最笨的方法就是逐字敲打,再人工校對(duì),這樣不僅速度慢,效果也差。
這時(shí)候,路易斯得知這件事后,他想到一個(gè)天才的辦法:全世界每天都有幾億個(gè)驗(yàn)證碼在被校驗(yàn),他把《紐約時(shí)報(bào)》的文章切成小片,把它當(dāng)作驗(yàn)證碼發(fā)給全世界的人,這些人在使用驗(yàn)證碼的時(shí)候,不知不覺(jué)中就幫助《紐約時(shí)報(bào)》完成輸入和校對(duì)了。對(duì)于難以識(shí)別的字符,系統(tǒng)可以發(fā)給多個(gè)驗(yàn)證者,當(dāng)幾個(gè)人返回的結(jié)果一致時(shí),就說(shuō)明識(shí)別的結(jié)果是正確的,然后再將其返回系統(tǒng)進(jìn)行重新整合。
2007年,路易斯成立驗(yàn)證碼公司,該公司利用這個(gè)辦法把《紐約時(shí)報(bào)》幾十年的報(bào)紙都電子化。2009年,該公司被谷歌收購(gòu)。
(陳亮摘自中信出版社《數(shù)據(jù)之巔》)