想知道德國和阿根廷哪支球隊(duì)的中國球迷更多?來看看門戶網(wǎng)站的投票結(jié)果吧,十萬人投票,參與的人可真不少。
但是,真正關(guān)心兩支球隊(duì)的球迷數(shù)量遠(yuǎn)超于此:巴西世界杯期間,僅僅在社交類網(wǎng)站中,每天就有超過1.2億人在討論比賽、討論自己喜歡的球隊(duì),新浪微博中的相關(guān)發(fā)言甚至超過十億次。十萬樣本,只不過是千分之一而已。看到這里,你還相信投票結(jié)果嗎?
是時候放棄“來呀來呀,來投票嘛”的守株待兔方針,轉(zhuǎn)而“主動出擊”了。
不靠投票,而是抓取球迷們的發(fā)言,通過自然語意分析來獲取他們內(nèi)心最真實(shí)的想法,這就是IBM大數(shù)據(jù)分析的做法。世界杯半決賽開始前,IBM已經(jīng)用這種方法分析出了中國球迷對四強(qiáng)的支持率:德國第一、阿根廷第二、荷蘭第三、巴西第四,與最終的四強(qiáng)排名驚人地一致。
解讀球迷到底支持哪支球隊(duì)的關(guān)鍵,是讓機(jī)器“讀懂”人類的語言,并從中分辨出“喜愛”、“厭惡”、“無感”甚至“反諷”等復(fù)雜的人類情緒—尤其在網(wǎng)絡(luò)世界中,很少有人會直白示愛“我愛德國”,更多人會說“壯哉我大德意志!”
事實(shí)上,早在1950年就有人提出了這樣的問題:計(jì)算機(jī)能像人類一樣思考嗎?這個人叫阿蘭·圖靈,被后人尊稱為“人工智能之父”。
之后的十年里,一系列堪稱“神奇”的機(jī)器誕生了,它們中有些可以解決代數(shù)應(yīng)用題、有些能證明幾何定理、有些可以學(xué)習(xí)和使用英語……這些如今計(jì)算機(jī)必備的基本功能,讓當(dāng)時的人們嘆為觀止。
隨著技術(shù)的不斷發(fā)展,一些以“人工智能”為賣點(diǎn)的計(jì)算機(jī)成為媒體上的明星,其中最具知名度的無疑是“深藍(lán)”(Deep Blue)和“沃森”(Watson)。前者于1997年在國際象棋比賽中戰(zhàn)勝了世界冠軍卡斯帕羅夫,后者在2011年參加美國智力問答節(jié)目《危險邊緣》(類似于央視《開心辭典》),接連打敗最高獎得主和74場連勝紀(jì)錄保持者,贏得了100萬美元的獎金。這兩個計(jì)算機(jī)系統(tǒng)都是由IBM開發(fā)的。
深藍(lán)、沃森,這些戰(zhàn)勝不同領(lǐng)域里最優(yōu)秀的人類的機(jī)器,被人們視為實(shí)現(xiàn)科幻故事的里程碑—但一個本質(zhì)問題是,它們真的會“思考”嗎?
答案是否定的。“這些成就的取得并不是因?yàn)榉妒缴系母锩鼈內(nèi)匀皇枪こ碳夹g(shù)的復(fù)雜應(yīng)用,只不過現(xiàn)在的計(jì)算機(jī)性能已經(jīng)今非昔比了。”谷歌技術(shù)總監(jiān)雷·庫茲韋爾如此評論,他曾被比爾·蓋茨稱為“我所知道的在預(yù)測人工智能領(lǐng)域最厲害的人”。
“深藍(lán)”的成功,完全憑借著蠻橫的計(jì)算能力。每走一步棋,它都能可以計(jì)算六個甚至更多回合之后的局勢。運(yùn)用預(yù)設(shè)的快速評估程序,它最多能在一秒鐘之內(nèi)計(jì)算3.3億個不同棋局的走勢,然后從中選擇能帶來最高分?jǐn)?shù)的方案。相比之下,世界冠軍卡斯帕羅夫每下一步棋前,最多只能評估幾十個。
而“沃森”就不一樣了,它背后的核心技術(shù),是一種被稱為“DeepQA”的算法。它能夠用1000多個自然語言處理、機(jī)器學(xué)習(xí)和推理的算法來產(chǎn)生和評價初始答案,然后再從數(shù)據(jù)中搜索和收集相關(guān)的支持信息,以計(jì)算初始答案的確信度,并用確信度對初始答案進(jìn)行排序,最終給出一個最優(yōu)的答案。從表面上看起來,它就有了初級的“思考”能力。憑借這個能力,它才成為那次比賽的冠軍。
也就是說,“尤金”的成功,某種程度上是利用了人類的固有心理:我們總認(rèn)為自己是一種充滿了Bug的生物,就像蘇中說的那樣,“機(jī)器是那么準(zhǔn)確,但人會犯錯誤”。
三年之后,這次對社交媒體上普通人發(fā)言的大規(guī)模解讀,正是IBM突破“范式”的新嘗試。不同于模式化的棋局和問答節(jié)目中的標(biāo)準(zhǔn)答案,人類語言要復(fù)雜得多。
“就像美國人學(xué)中文,幾年以后或許可以進(jìn)行日常交流,但讓他看小品,他不見得能夠笑得出來。因?yàn)檎Z言后面有很多文化和知識的積累,這是更難的境界。”IBM中國研究院信息分析研究部研發(fā)總監(jiān)蘇中說。
這已非擴(kuò)充數(shù)據(jù)庫和提高運(yùn)算的速度就能解決的—棋局庫和題庫再大,也是有容量邊界的,而語言和文化卻沒有。解決方案是讓機(jī)器自己掌握學(xué)習(xí)的技能:“我們會標(biāo)注一些樣本,比如‘梅西’是一個人名,‘球星’是一種身份,代表人名和身份的詞語出現(xiàn)在語言結(jié)構(gòu)中的特征是不一樣的,我們要從中找到一些內(nèi)在規(guī)律—其中可能包含著幾十種特征,然后構(gòu)建一個模型,讓機(jī)器來學(xué)習(xí)。”蘇中向壹讀記者介紹。
SoftLayer大型數(shù)據(jù)中心的運(yùn)力支持配合IBM強(qiáng)大的云計(jì)算能力,為這種不斷擴(kuò)展的學(xué)習(xí)能力提供了基礎(chǔ)。整套系統(tǒng)會在龐大而不斷動態(tài)更新的社交數(shù)據(jù)流中抓取所有有用的信息,并且不斷進(jìn)行實(shí)時的分析。
解讀語言之后,更大的挑戰(zhàn)與野心是“讀懂”這些發(fā)言背后活生生的人。IBM的“大數(shù)據(jù)情感挖掘技術(shù)”可以告訴你,梅西的球迷低調(diào)、敏感、理性,以宅男宅女居多;C羅的球迷則不乏女王范兒、有氣場、愛熱鬧;即便是被貼上“咬人”標(biāo)簽的蘇亞雷斯也有自己的粉絲,他們做事沒什么條理,但是自我、有想象力、敢于競爭。
感知人類的情緒,甚至擁有人類的情感,是機(jī)器“擬人”過程中最難的環(huán)節(jié),被視為人工智能研究的終極命題之一。盡管目前機(jī)器所有的“思維”依然是靠程序驅(qū)動的,但“大數(shù)據(jù)情感挖掘技術(shù)”畢竟為機(jī)器破譯人類情感提供了一種初級的成功示范。
當(dāng)然,揣測人類的心理已不僅僅是計(jì)算機(jī)科學(xué)的范疇,為了將一些心理學(xué)領(lǐng)域的特征用更好理解的方式呈現(xiàn)出來,IBM還特意請來了專業(yè)心理學(xué)家參與部分程序的設(shè)計(jì)。

在慶祝突破技術(shù)瓶頸的同時,一直伴隨著人工智能研究的爭議也在逼近現(xiàn)實(shí):一旦機(jī)器有了人的思維和情感,它還是機(jī)器嗎?還是一個沒有肌肉和骨骼的人?這是一個科學(xué)問題,更是一個哲學(xué)問題。
不過,在蘇中看來,人工智能的發(fā)展遠(yuǎn)沒到需要擔(dān)心倫理問題的時候。
即便一個被稱為“尤金·古斯特曼”的聊天程序在今年6月通過了“圖靈測試”,人類現(xiàn)有的技術(shù)距離人工智能的完美標(biāo)準(zhǔn)依然相差太多。
那并不是一次“公平”的測試。它冒充的是一個13歲的小男孩,盡管其開發(fā)者、三位俄羅斯學(xué)者花了很多時間來使“他”具備可信的人格,但他們也承認(rèn),“我們當(dāng)時的主要想法是,尤金可以吹噓自己懂得所有事情,但考慮到‘他’的年齡,有很多事情‘他’不知道也是很合理的。”況且,這個“男孩”被設(shè)定為一個烏克蘭人,英語并非“他”的母語。
也就是說,“尤金”的成功,某種程度上是利用了人類的固有心理:我們總認(rèn)為自己是一種充滿了Bug的生物,就像蘇中說的那樣,“機(jī)器是那么準(zhǔn)確,但人會犯錯誤”。
這些“擬人化”的聊天程序,比如許多科技公司開發(fā)的聊天機(jī)器人,除了能讓我們感嘆“它們好像一個人呀”之外,并沒有太多實(shí)際意義。IBM更希望將“人工智能”技術(shù)應(yīng)用在商業(yè)領(lǐng)域,結(jié)合社交網(wǎng)絡(luò)中源源不斷的大數(shù)據(jù),去分析人類的情緒和行為,來為企業(yè)決策提供指導(dǎo)意見:比如飛往夏威夷的航線是否要在東京經(jīng)停,或者飛機(jī)上要不要開通Wi-Fi。
換句話說,聊天程序的目的只是取悅?cè)祟悾斫馊祟惒鸥袃r值。