2012年5月16日,谷歌發布了一項名為“谷歌知識圖譜”的新型搜索技術。在谷歌上搜索“弗朗索瓦·奧朗德”,你將得到奧朗德的孩子、夫人、生日、教育等等附有簡介的鏈接地址。幾十年后,科學家和記者可能會回首這一時刻,并將其視為機器從挖掘海量無意義數據到開始像人一樣思考的時代分水嶺。
谷歌在成立伊始主要使用窮舉算法(brute force)來組織互聯網知識。谷歌有全球最大的并行操作計算機群和全球最大的數據庫。你的每一條搜索查詢之所以能如此迅速地得到響應,是因為它們被外包給了谷歌巨大的數據中心,借鑒了海量預編譯數據,并且每一秒都會由數百萬抓取網頁的虛擬谷歌“蜘蛛”負責加速。這讓人想起了IBM公司的“深藍”國際象棋計算機,它靠更快的計算速度而非更卓越的棋藝戰勝了所有人類挑戰者。“深藍”通過窮舉一切可能的走法贏得了比賽,它只有“蠻力”,沒有“策略”。
但是,面對更為復雜的真實世界,無論數據庫有多大,僅靠數據挖掘都是不夠的。“深藍”在國際象棋領域征服了人類,但是人類仍然可以在更古老的圍棋領域痛挫計算機,因為圍棋有更大的盤面和更多可能的走法。窮舉法在同音字面前也無能為力,比如,“Paris”,它既可以指巴黎也可以指某個喜歡出風頭的社會名媛。
為了處理“Paris”這類一詞多義的問題,谷歌搜索使用了語義網絡的理念。作為地名的“Paris”和作為人名的“Paris”各自擁有獨立的ID(就像條形碼或社保號碼一樣),簡單的聯系被解釋實體關系的注解分類所替代和補充。由此,“Paris1”(巴黎)與埃菲爾鐵塔等信息聯系在一起,而“Paris2”(人)則與各種真人秀信息聯系在一起。當所有的地點、人物和關系都互相聯系起來時,這些網絡就成了一個巨大的蜘蛛網。從本質上來說,谷歌正在嘗試重塑互聯網,并為它的抓取“蜘蛛”提供一個更聰明的網絡。
谷歌曾是一臺完全經驗主義的機器,沒有先天知識,只有巨大的知識容量,通過以比特計的信息來學習事物之間的聯系。現在,谷歌試圖在先驗主義和經驗主義之間尋求平衡,它通過內置有包括人、物、地點在內的結構化數據庫獲得了強大的統計能力。谷歌的搜索引擎仍然在追蹤搜索“Paris”出現的結果,并查看結果與用戶的提問有何關聯。但谷歌正在嘗試將這些結果互相聯系起來,根據人、物和地點的聯系將它們組合成一個知識目錄。