今天的互聯(lián)網(wǎng)越來越智能,它不僅知道你希望聽什么音樂、平時喜歡看哪一類的新聞,還知道你可能喜歡購買哪些東西、喜歡交哪一類的朋友……我們的個性、習(xí)慣和愛好正在被互聯(lián)網(wǎng)全面掌握,甚至有時我們自己都沒有注意到這一點。互聯(lián)網(wǎng)是如何做到的,這背后有哪些技術(shù)?
谷歌幫助我們思考,F(xiàn)acebook幫助我們交友,Pandora播放屬于我們自己的個性化音樂。很難說這些用來預(yù)測大眾需求的互聯(lián)網(wǎng)服務(wù)是在把我們變成玩偶還是變成天才,但是它們的確對我們的消費愛好、購買習(xí)慣和數(shù)字生活方面的決定帶來了巨大影響。
早在20世紀互聯(lián)網(wǎng)還沒有流行開來的時候,我們的生活簡單得多,當然也困難得多。比如,我們從來不知道現(xiàn)在哪些商品是最好賣的;我們也不知道當天最“重要”的新聞是什么;在Netflix電影推薦引擎問世之前,我們在決定接下來租哪部DVD電影時根本得不到幫助。而今天,搜索引擎幫助了我們,只要在谷歌上輸入幾個簡單的關(guān)鍵字,谷歌就可以提供給我們這些問題的答案,我們不必在成千上萬不太很相關(guān)的結(jié)果當中東翻西找。
互聯(lián)網(wǎng)服務(wù)的功能越來越強大并不僅限于體現(xiàn)在幫助消費者尋求信息或產(chǎn)品。很多私人公司和政府部門也在利用這些互聯(lián)網(wǎng)服務(wù)背后的技術(shù)提高處理庫存控制的效率,提高監(jiān)控網(wǎng)絡(luò)犯罪分子的行為和預(yù)測下一步會是什么的效果。而另一方面,互聯(lián)網(wǎng)也讓我們陷于這種尷尬境地:廣告商和政府部門結(jié)合行為數(shù)據(jù)和數(shù)據(jù)模型,預(yù)測和操縱我們接下來的行為或購買。
對于互聯(lián)網(wǎng)技術(shù)迷而言,互聯(lián)網(wǎng)好比數(shù)據(jù)的樂園,可以用來建立模型、預(yù)測行為,用來跟蹤網(wǎng)上的IP地址,了解人們在訪問什么網(wǎng)站、何時訪問,計算橫幅廣告點擊次數(shù)以及從社交網(wǎng)絡(luò)采集數(shù)據(jù),這一切要比成天帶著寫字夾板圍在人家身邊容易得多。那么,這一切是怎么做到的?
向你推薦新聞
談到互聯(lián)網(wǎng)服務(wù),最為我們熟知的恐怕是搜索了,坐擁高達1930億美元市值的谷歌雄霸搜索引擎市場,其獨特的搜索算法功不可沒。有人批評說,今天的我們更習(xí)慣搜索,而不是思考:因為像谷歌這樣的搜索引擎在改變?nèi)藗兊乃伎寄J剑瑢?dǎo)致人們減少獨自牢記,改而依賴上網(wǎng)查找答案的能力。
實際上,除了搜索引擎以外,谷歌還在很多領(lǐng)域進行探索,新聞推薦就是其中之一。這項服務(wù)基于其新聞算法,并用來支撐Google News(谷歌新聞)這類大受歡迎的服務(wù)。如果你很想知道當日的頭條新聞是什么,沒必要請教《紐約時報》的編輯大人們,而是只要訪問谷歌新聞或雅虎新聞,就能知道谷歌的算法評選出來的當下頭條新聞。
谷歌新聞根據(jù)一長串的文章屬性(包括關(guān)鍵字、原創(chuàng)性、時效性、質(zhì)量和資料來源的權(quán)威性等)來評估什么是重要新聞。當然,其算法的具體實現(xiàn)并不為人所熟知,人們對其結(jié)果也有疑問。比如,注重調(diào)查性和解釋性的新聞報道會不會被一貫青睞最新穎最搶眼內(nèi)容的新聞所壓倒。但不可否認的是,新聞服務(wù)的確可以為你提供一定的幫助。
幫你交朋友
當然,F(xiàn)acebook的社交算法可以幫你找到中學(xué)時代的老朋友和以前的同事。不過它的作用不僅僅是查找朋友、確定誰的Facebook更新信息出現(xiàn)在你的Facebook“頭條新聞”(Top News)新聞源。該算法名為EdgeRank,EdgeRank結(jié)合使用了諸多因素,比如你與某人的熟悉程度、消息的類型(喜歡、留言還是標簽)以及帖子的發(fā)布時間。
最近,F(xiàn)acebook加大了其在社交算法方面的力度:把社交算法與面部識別軟件聯(lián)系起來,分析上傳至該服務(wù)商的每張照片,比如你上個周末在海邊搞派對時拍攝的照片。Facebook的7.5億個用戶總共上傳了大約200億張照片。你把照片上傳到Facebook后,該服務(wù)商使用面部識別軟件,并動用你的直接和間接社交圈,識別照片中的人是誰;然后它會問你想不想給照片中的人添加標簽(標注身份)。雖然加不加標簽由你來選擇,但這一點沒有因而打消隱私權(quán)保護主義者對于這項功能的擔憂。
幫你戀愛
彼此“來電”也許是人類戀愛現(xiàn)象的決定性因素,但是互聯(lián)網(wǎng)技術(shù)的確為許多使用eHarmony和Match.com等在線約會服務(wù)的人提供了相識的機會。替一對對潛在的情侶們找到妙不可言的情愫對接點,要求Match.com等網(wǎng)站對用戶的個人魅力測試進行運算,而不僅僅著眼于一些基本狀況,比如某人是“猶太人,不抽煙,喜歡跳搖擺舞。”
eHarmony服務(wù)網(wǎng)站把你對該網(wǎng)站提出的258道問題的性格測試答案作為到這家公司的最高商業(yè)機密——戀愛算法的數(shù)據(jù)源。eHarmony在2008年刊于《紐約時報》上的一篇文章中表示,先后有1900萬人參加了其性格測試。委托第三方進行的調(diào)查得出了這樣一個結(jié)論:在2007年的美國結(jié)婚總數(shù)當中,有2%是通過它促成的。
向你展示廣告
在線廣告網(wǎng)站是互聯(lián)網(wǎng)技術(shù)的最積極推動者。其目的是,在合適的時段向合適的人顯示合適的廣告,能否成功完成這個使命關(guān)系到能不能做成買賣。
為了加大成交的可能性,廣告商們運用各種復(fù)雜的算法對復(fù)雜的數(shù)據(jù)組合進行交叉分析。不過,這些算法是在太錯綜復(fù)雜了,要掌握它們實屬不易。簡而言之,精明的在線廣告商結(jié)合運用了關(guān)于你的傳統(tǒng)人口統(tǒng)計數(shù)據(jù)和你的上網(wǎng)瀏覽習(xí)慣,目的就是讓針對性的在線廣告能吸引你。
一些觀察人士認為,有些廣告可以分析你的個人情況,并根據(jù)你的沖浪習(xí)慣提供相關(guān)的內(nèi)容,它們可以幫助網(wǎng)絡(luò)內(nèi)容所有者維持經(jīng)營、提供高質(zhì)量的內(nèi)容。另一些人士則表示,把錄有用戶個人資料的龐大數(shù)據(jù)庫交給私人公司保管好比是讓狐貍來看管雞舍。
向您推薦商品
亞馬遜的推薦引擎是否摸透了你的心思?也許吧。
亞馬遜的算法可以客觀地分析數(shù)百萬顧客的購買模式。比如,你購買了Ann Patchett所著的《神奇的國度》一書,亞馬遜會根據(jù)購買了《神奇的國度》的其他人購買的書來推薦其他書。因而,亞馬遜也許能夠?qū)⒛阍緵]有打算購買的別的書賣給你。
推薦引擎讓亞馬遜等網(wǎng)絡(luò)商家能夠銷售數(shù)十億美元的商品,因為可以幫助顧客找到所需的商品,并且促進即興購買。亞馬遜的發(fā)言人在接受媒體采訪時曾說過:“算法是我們網(wǎng)站的經(jīng)營之道,并讓我們成為獨一無二的購物樂園。”
2009年,Netflix向一群統(tǒng)計人員發(fā)放了100萬美元的獎金,原因是他們成功地提高了這家電影租賃公司在預(yù)測顧客會喜歡租哪些電影的正確性。為了力奪這筆獎金,他們不僅考慮了人口統(tǒng)計數(shù)據(jù)和行為數(shù)據(jù),另外還要考慮郵政編碼、電影類型分級和1億則電影評論。
懂得你的音樂愛好
音樂服務(wù)商Pandora單憑一首歌曲就能異常準確地知道音樂愛好者的偏好——算法再次發(fā)揮了作用。據(jù)Pandora的音樂基因組計劃(Music Genome Project)發(fā)起人兼Pandora聯(lián)合創(chuàng)始人Tim Westergren聲稱,這項計劃旨在“從根本層面抓住音樂的本質(zhì)。”
Pandora表示,它使用了400個屬性來描述一首歌曲。據(jù)Pandora在Facebook上的頁面顯示,接下來,該服務(wù)商的算法分析來自一首歌曲的這些數(shù)據(jù),然后可以“播放與你原先選播的歌曲在‘聲學(xué)上相似’,但未必總是‘聽起來相似’的一系列歌曲。”
盡管與之競爭的其他在線音樂服務(wù)商近些年步履維艱,Pandora卻聲稱用戶群在不斷擴大,注冊用戶多達1億個,其中3600個是活躍用戶。
互聯(lián)網(wǎng)技術(shù)的尷尬
毫無疑問,互聯(lián)網(wǎng)給我們帶來很多方便,但是,互聯(lián)網(wǎng)技術(shù)也是一般雙刃劍,同樣也,有人利用這些技術(shù)達成自己的私利。比如許多公司的商業(yè)模式就是創(chuàng)建一些內(nèi)容質(zhì)量不高的網(wǎng)頁和網(wǎng)站,這些網(wǎng)頁或者網(wǎng)站針對搜索引擎進行了專門優(yōu)化從而能在谷歌新聞或谷歌的主搜索結(jié)果排名靠前,這些公司通過在這樣的網(wǎng)頁發(fā)布廣告來賺錢。這種所謂的內(nèi)容農(nóng)場(content farm)在提升谷歌搜索結(jié)果中的排名方面頗有成效,今年2月谷歌調(diào)整了其搜索算法,從而使得這些低質(zhì)量網(wǎng)站在其搜索結(jié)果中的排名下降。
最近,《紐約時報》揭露了連鎖百貨商店JC Penney人為抬高在谷歌頁面排名的作法,即建立成千上萬個第三方鏈接和網(wǎng)站,它們旨在提升這家公司在谷歌搜索結(jié)果中的知名度。JC Penney矢口否認知道有任何欺騙行為,但谷歌最后開出了罰單:下調(diào)了這家公司在搜索結(jié)果中的排名。
谷歌搜索算法一時的變動可能決定著小公司的成敗。2006年,總部設(shè)在加利福尼亞州的KinderStart.com將谷歌告到了聯(lián)邦法院,指控谷歌改變算法,導(dǎo)致其網(wǎng)站在搜索結(jié)果中排名很低,因而這家公司蒙受了重大的經(jīng)濟損失。最終,KinderStart.com輸?shù)袅诉@場官司,對谷歌提出類似訴訟的其他公司同樣打輸了。
互聯(lián)網(wǎng)技術(shù)的第二尷尬就是人們對自身隱私權(quán)的擔憂,大量的互聯(lián)網(wǎng)技術(shù)應(yīng)用是否意味著再也不會有自由選擇權(quán)和隱私權(quán)?這場爭論會持續(xù)好多年。隱私專家們提醒,隨著我們快速步入到擁有龐大數(shù)據(jù)庫的超級計算機時代,越來越需要隱私保護,以免被政府、反社會的黑客和各種不良公司利用。遺憾的是,鮮有法律在這方面跟得上技術(shù)的步伐。
目前在美國禁止跟蹤的立法正在提交國會審批,地方州政府提出的其他倡議也附帶著解決公司如何收集和使用數(shù)據(jù)的問題。不過到目前為止,隱私問題仍是人們對這些互聯(lián)網(wǎng)技術(shù)最主要的擔心之一。
============第二篇
Google在其搜索引擎中先后引入語音搜索、圖像搜索和Google Instant及Instant Pages技術(shù),從而進一步改善了用戶體驗。
Google添新功能改善搜索體驗
本報記者 鄒大斌
如果有什么不知道或者不了解,打開搜索引擎,到網(wǎng)上搜一搜,這已經(jīng)成為我們非常自然的一個舉動。很長時間一來,我們一直使用的關(guān)鍵字搜索,也就是在搜索頁面輸入與查找問題相關(guān)的一個或者幾個關(guān)鍵詞,由搜索引擎返回結(jié)果。最近,Google在搜索頁面新增了圖像搜索和語音搜索功能,同時,在常規(guī)的關(guān)鍵字搜索中也引入了一些新的技術(shù),從而大大方便了搜索,改善了搜索體驗。
1.語音搜索。語音搜索最早出現(xiàn)在移動設(shè)備上,由于顯示屏和鍵盤小,移動設(shè)備上輸入字符是一件很頭疼的事情,因此,移動設(shè)備成為語音搜索技術(shù)的試驗田。Google在一年半之前推出了基于手機的語音搜索功能,如今Google又將這項技術(shù)引入到桌面,只需點擊一下搜索框中的麥克風(fēng)圖標,并大聲說出準備輸入的關(guān)鍵字或者要問的問題,就可以獲得你想要的結(jié)果。
2.圖像搜索。一張人物照片你想知道其中是誰,一個風(fēng)景照片你想知道是在什么地方,現(xiàn)在,Google的圖像搜索也讓這種想法得以實現(xiàn)。在Google的搜索頁面上新增了一個照相機的圖標,只要直接點一下照相機的圖標,然后把圖片上傳到Google上面去,Google就會把與圖片相關(guān)的信息返回過來。
“在我們看來,搜索就是要讓用戶使用自己覺得最方便、最舒服、最自然的方式來表達他們的想法。他們可以通過輸入文字,也可以通過輸入語音,還可以通過圖像來直接向Google提問題進行搜索。”Google產(chǎn)品管理總監(jiān)Johanna Wright在接受記者采訪時表示。
據(jù)Johanna Wright介紹,按圖搜索功能得以實現(xiàn)最關(guān)鍵的是,后臺采用了超大規(guī)模實時并行計算,可以對來自互聯(lián)網(wǎng)的幾百億張圖片進行實時的圖像特征匹配,從而快速反饋給用戶相關(guān)的搜索結(jié)果。而Google在大規(guī)模文件存儲系統(tǒng)、超大數(shù)據(jù)庫和全新的并行化處理語言方面的優(yōu)勢,為這一功能的實現(xiàn)奠定了堅實的技術(shù)基礎(chǔ)。
3.Google Instant和Instant Pages。這兩項技術(shù)最大的作用就是改進了搜索的速度。其中,Google Instant是一種讓搜索更具互動性、并能幫助你更輕松快捷地查找信息的搜索方法。也可以把Google Instant 視為“在完全輸入前就開始的搜索”,因為很多時候甚至在輸入完查詢詞之前就找到了你想要的結(jié)果。而Instant Pages 是一項讓Chrome瀏覽器在后臺預(yù)下載某搜索結(jié)果的網(wǎng)頁的技術(shù),這樣當你點擊時就可以立即載入你的網(wǎng)頁。
“雖然Google從事搜索已經(jīng)有很長一段時間了,但在我們看來,搜索引擎技術(shù)才剛剛開始。”Johanna Wright說,“而總體方向應(yīng)該是,讓未來的搜索變得個性化、智能化和互動起來。”