999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

2000萬本書的奧秘

2017-04-27 21:50:10陳婧
IT經理世界 2017年8期

陳婧

這是一個好玩到停不下來的搜索引擎。

Ngram Viewer是Google Labs和哈佛大學學者共同開發的成果,只要用這個工具進行搜索,就可以發現從公元1500年到現在的500多年里,社會的熱點如何不停地切換。谷歌在2004法蘭克福書展上開始啟動谷歌圖書館計劃,試圖掃描自現代印刷術發明以來全世界所有的印刷書籍。在此基礎上,通過OCR識別,建成了世界上最大的電子書數據庫。谷歌圖書館計劃與Google's Partner Program 共同組建成廣為人知的 Google Books。

至 2015年10月,這個項目已掃描超過2500萬本書,占人類歷史上所有出版書目總數的19.2%。Google 對書籍的處理不僅是掃描,還進行了數字化與數據化,通過一系列算法從萬億級別的原始數據中識別出單個的詞語和短語,建成了一個語料庫,這樣就巧妙地避開大多數國家的版權問題。

龐大的數據庫催生了一個新學科的成立——Google Ngram Viewer就是借用這個數據庫開發的新工具。Ngram Viewer支持8種語言的檢索,包括英語、法語、德語、意大利語、西班牙語、俄語、希伯來語、漢語,其中英語數據占到大約56%,漢語約占8%。

網友可輸入至多5個不同詞匯,透過Ngram Viewer顯示的趨勢線,觀察這些詞匯在不同年代出現的頻率。當你輸入“莎士比亞”,搜索范圍設定在1500~2000年的英語書籍里,在他過世后的第92年,即1708年是“熱搜”莎士比亞的最高峰,之后1930~1953年,莎翁的著作又一次受到了追捧。與莎士比亞被引用熱度不分伯仲的還有福爾摩斯,這位虛構的偵探人物在1971~1979年間,成了街談巷議的熱點。維多利亞時代英國最偉大的作家狄更斯在1917~1923年期間,獲得了空前的成功。那個年代大約萬分之三的書籍里,都會提到狄更斯的名字,這時候距離作家因為腦溢血和寫作疲勞去世,已經過去了約半個世紀。

除了可以看到數據趨勢圖,原始數據還可從網頁免費下載,提供給語言學家、社會學家、人類學家等作進一步的資料分析和研究?!都~約時報》將Ngram Viewer這個全新的可視化工具,稱為“通向5000億單詞的文化視窗”。

數據可視化的意義

Ngram Viewer如同一個普通的搜索引擎,輸入一個“關鍵詞”,就可以查詢它在書籍中出現的頻率,而且可以依據年代時間線查詢。在搜索欄上方的“from the corpus”里可以切換要查詢哪種語言的書籍,其中支持簡體中文書籍的內容統計分析。接著,可以在兩個年代之間查詢書籍數據,時間跨度的范圍從1500年到2008年。用戶最多可以設定五組關鍵詞來對比,關鍵詞之間用逗號分隔。

我們可以在圖表里看到不同關鍵詞在不同年代里被書籍使用的頻率,這在統計分析上可以做出很多有趣的調查與申論。若是繼續點擊圖表下方的年代鏈接,就可以進入Google Books服務,查詢指定條件的書籍,直接找到相關圖書。

參與設計項目的是來自哈佛大學的計量社會學教授讓-巴蒂斯塔·米歇爾(Jean-Baptiste Michel),他因為致力于人文數據的可視化研究而被譽為“數據的藝術家”。埃雷茲·李伯曼·艾登(Erez Lieberman Aiden)是計算機科學家、生物物理學家和應用數學家,他們一直試圖找到一幅展現人類文明和人文歷史的“科學”畫面。

“人類在漫長歲月中寫了很多書,我們向他們學習的最佳方法,就是把那幾百萬本書全部讀完。當然,這個可行性極低。人們不得不傾向于另一種做法,就是選擇幾本書進行精讀,可行性很高,但還不夠好。”當米歇爾和谷歌的數字化工程師進行交流時,他們找到了這個“既可行又很好的”方法。

自印刷機問世以來,寫書的過程變得簡單多了,據統計到2010年,全世界大約出版了1.29億本圖書,而這些書籍如果沒有隨著歲月遺失,就都在圖書館里存放著。谷歌已經將圖書館中的書籍進行了數字化,掌握了這些書籍的出版地、作者、出版時間等信息,最終篩選出了5000億個高質量的單詞。

Ngram Viewer 收錄的單詞或短語,需要滿足一項要求:這個詞組或者短語在某年出版的超過 40 本書中出現過,才會有該年該詞的數據點。同時,對數據進行標準化處理,可以削弱某些年份某些書印數過多對結果的影響。當這些數據加上時間和引用比例,就轉變成為一個具備XY軸的搜索服務。

據米歇爾透露,這5000億個單詞的長度連起來是人類基因組的1000倍,如果把這些單詞連續寫出來,長度相當于在月球和地球間來回穿梭10次以上,而這僅僅是人類“文化基因組”的小小一段。谷歌向來是分析大數據的專家,它們企圖要將所有圖書數字化的努力,成就了現在的Ngram Viewer。

在工作原理上,Ngram將一個句子拆分成N個連續相鄰詞組成的詞組,從而用來猜測語言的可能性,谷歌將這個方法定義為“文化組學”?!拔幕M學”的方法最早出現在2010年《科學》雜志上一篇名為《使用數百萬本電子書對文化進行的計量分析》的文章里,現在指的是通過電子化文本的量化分析,研究人類行為、人類活動與文化趨勢的計算詞典學。

這個由谷歌定義的新詞,來源于“基因組學”——把人類基因作為研究對象,是生物學上觀察人類基因序列組的透鏡。文化組學與其非常類似,挖掘大量數字化信息,將數字化的歷史記錄片段作為透鏡,探尋反映在語言和文字中的社會文化現象。文化組學的優點,就如同人類基因序列,“所有人都可以用上它。”

英語諺語說,“一幅畫面可以抵過1000個詞?!泵仔獱柋硎?,他們在邀請了來自哈佛大學、麻省理工大學、《英國大百科全書》、《美國傳統英語字典》的編委后,得出了一個驚人的結論,Ngram Viewer的一幅畫面抵過上億個詞。

從用字遣詞發現社會趨勢

Ngram Viewer已經成了一些媒體人愛不釋手的玩具,美國最具影響力的商業雜志之一《快公司》比較了英語中報紙、雜志、英特網在不同年代的興衰,結果出人意料,不管哪個年代,報紙都是最受青睞的讀物,甚至在英特網風靡的時代,報紙的流行度雖然不如鼎盛時期,但還在向上攀升。此外,《快公司》還對蒸汽、電力、原子能等三種不同能源的興衰做了比較,原子能自1945年迅速崛起,并在上世紀80年代成了最熱門的能源話題。

當查找“流感”這個詞時,你會看到全球范圍內,1918~1920年在歐洲爆發的西班牙流感,成了人類歷史上最致命的自然事件之一。在之后的幾十年里,流感雖已平息,但人們的討論從未終止,它的熱度似乎不亞于一些文學暢銷書。

具有160多年歷史的《亞特蘭大》雜志收集了一系列有趣的趨勢比較,例如:在過去的200年里誰比較受歡迎,狗和貓?咖啡和茶?男性和女性?對比發現,狗受到的寵愛始終多于貓;茶的流行度始終高于咖啡,直到上世紀70年代趨勢才被改變;女性在書籍里出現的概率逐漸走高,并與男性接近,性別平權的趨勢非常明顯。

廣告從業者希望通過一些敏感詞獲得用戶的關注度,使用Ngram Viewer也有助益。如果你想告訴大家“上帝死了”,那么該換一個說法了,自1968年這個說法達到鼎盛之后,關注度就一路下滑。但“氣候變化”的熱度卻在飛漲,從1970年后,很多書籍里都出現了“海平面正在上升”、“全球氣溫升高”、“二氧化碳濃度增加”這樣的詞匯,比起上世紀50年代,這些詞的使用增加了500倍。對廣告人來說,Ngram Viewer是一個把社會熱點切換成趨勢的關鍵工具。

Ngram Viewer雖然沒有公開全書的內容,但是公開了書本的相關統計數據,從而可監測人們口語表述的變化情況,搜索者還可以透過數據本身,看到數據背后的故事。在搜索英文書籍數據庫時,如果檢索馬克·夏加爾這位定居在法國的俄裔超現實主義藝術家,是一條穩步上升的曲線,知名度越來越高。

然而在德語書籍庫進行同樣的檢索時,你會看到非常奇怪的現象——聞所未聞。他先是名極一時,但突然之間名聲直線下落,1933年到1945年間達到了低谷,后來才回升。為什么呢?原來夏加爾因為猶太人的身份,而在納粹德國遭到了政治禁令,這幅圖反映了書籍記錄中的審查情況。

同樣,人們從上世紀60年代就開始展望“千禧年”,到了80年代中期關注度突然飛升,人們意識到2000年快要來了,各種書籍里都在討論,這樣的討論持續了整整十幾年,而到了2008年,大家醒悟過來2000年已成往事,一場關于千禧年大討論的泡沫就這樣破裂了。

通過Ngram Viewer,美國學者阿歷山大·彼得森發現了詞匯的產生和消亡的生命周期臨界點:在它產生30年到50年之后,要么寫入字典,要么消亡。詞匯的消亡速度,通常超過了新詞匯的產生速度。而且,通過這些漂亮的圖表也可以發現,人類對過去的遺忘速度快得驚人。

關于準確性的質疑

據參與Ngram Viewer開發的威爾·布魯克曼(Will Brockman)和喬恩·歐文特(Jon Orwant)表示,自上線以來,這個工具每分鐘的使用頻率至少達到50次,用戶生成的數據圖表超過了4500萬張,透過這些詞匯,人們發現文字背后的人類社會與歷史。其中,粘度非常高的用戶有語言學家、歷史學家、圖書學家。

除了發現過去,Ngram Viewer還有預測未來的功能:在文化組學2.0的項目里,卡列夫·利塔如(Kalev Leetaru)通過分析包含印刷品和媒體信息的數據庫,預測到了2011年的“阿拉伯之春”事件,并且成功地預測到了本·拉登生前的居住地,誤差在124英里范圍內。

但是對于這個工具的準確性,各方依然有著不一致的評價。加州大學語言學教授杰奧夫·扭恩伯格(Geoff Nunberg)發現,有很多無效的數據:出版時間、作者、類型等等。由于OCR自動識別掃描的關系,因此可能帶來非常高的錯誤率。他在檢索中搜索了美國前總統巴拉克·奧巴馬的名字后,在他的出生年份之前,竟然有29條數據。不過谷歌很快就更正了這些錯誤。

也有評價認為,對于人名、概念熱門度的評估,不能僅僅依靠在書籍中被引用的數量計算得出——這樣的話,一本只被讀過一次的書和被瀏覽過數百萬次的書,具有相同的價值。這既不能反映出大家在熱議什么,也無法得出出版界在關心什么。

更多的評價則認為,Ngram Viewer建立在谷歌圖書館計劃掃描的圖書基礎之上,但是沒有人知道,谷歌是如何選擇和獲取這占到人類出版史約19.2%的圖書的。不確定是否會有系統性的選擇偏差,也不確定圖書的幸存者偏差有多嚴重,故而這些圖表得出的結論,并不能隨意外推。

圣迭戈州立大學的心理學家吉斯曾經使用Ngram作為工具研究自戀,但他提醒“小心倒洗澡水的時候,把孩子一起倒掉”。因為這個工具的缺陷,在于無法衡量某一類著作在數量上的變化。比如一段時間“秋天”這個詞語的使用變少了,很難真正說清楚,到底是對秋天感興趣的人變少了,還是因為和“秋天”無關的詞匯變多了?

也有學者認為這個工具沒有將動詞、名詞、形容詞等做出有效區分,例如“Cheer”既可以是動詞,也可以是名詞。但在斯拉夫·比特羅夫(Slav Petrov)領導的谷歌自然語言處理小組的帶領下,彌補了這個缺陷,目前可以區分出這兩個不同類型詞語的頻度。

除此之外,目前Ngram Viewer收錄的數據還有一定滯后性和片面性——與Google Trends的高度實時性不同,圖書的滯后性較長,只能在比較大的尺度上看趨勢變化。數據庫的內容完全來自出版圖書,而不包括未出版圖書或其他形式的文字,也不包括正在以指數級增長的網絡和電子信息。

由于英文圖書占到了數據庫的56%,而漢字書籍僅占其中的8%,英語的語料庫最大,且英語在最近幾百年來的圖書中的使用率總體看來看是最廣的,比較能夠反映真實世界的一些變化。

對漢語檢索的結果,需要更加謹慎的解讀。一方面是因為中文里,單詞和字符的概念是模糊的,如果分詞不當,就很難在Ngram Viewer里找到了。另一方面,漢語在不同時期,語義、用法和拼寫的差別比較大,文言文和現代漢語很多時候很難進行比較。而且Ngram Viewer目前只支持簡體中文的搜索,這也限制了對1950年前繁體漢字的搜索能力,不過近幾十年的漢語數據分析結果還是具有較高的可信度。

對此,項目發起人之一的艾登教授認為,Ngram Viewer和很多科學計量工具一樣,都存在著缺陷,但并不影響它的受歡迎程度,一個世紀以前,研究人員夢寐以求這個工具,現在它終于上線了,并不斷改進著。

主站蜘蛛池模板: 毛片久久网站小视频| 精品国产www| 亚洲成人免费看| 国产美女人喷水在线观看| 亚洲第一视频免费在线| 尤物视频一区| 九九热精品视频在线| 五月天在线网站| 伊人成人在线| 九九热视频精品在线| 88国产经典欧美一区二区三区| 就去色综合| 色欲综合久久中文字幕网| 中文字幕日韩久久综合影院| 精品无码一区二区三区在线视频| 亚洲精品国产自在现线最新| 久久人搡人人玩人妻精品一| 91啪在线| 91色爱欧美精品www| 日本国产精品| 国产熟睡乱子伦视频网站| 国产9191精品免费观看| 久久免费视频6| 欧美一级黄色影院| 综合人妻久久一区二区精品| 色网在线视频| 国产资源免费观看| 国产午夜精品一区二区三区软件| 亚洲国产天堂久久综合226114| 1024国产在线| 日韩a级片视频| 日韩欧美国产区| 亚洲最大福利网站| 99在线观看精品视频| 在线va视频| 国产a v无码专区亚洲av| 中文字幕欧美成人免费| 色哟哟精品无码网站在线播放视频| 在线观看视频一区二区| 91精品专区国产盗摄| 成年人免费国产视频| 国产精品久久精品| 亚洲系列无码专区偷窥无码| 亚洲国产欧美国产综合久久 | 五月婷婷导航| 色屁屁一区二区三区视频国产| 国产成人一区二区| 国产av一码二码三码无码| 亚洲第一页在线观看| 91探花国产综合在线精品| 亚洲AV免费一区二区三区| 亚洲日本一本dvd高清| 亚洲综合中文字幕国产精品欧美| 免费a在线观看播放| 国产欧美日韩综合在线第一| 国产毛片高清一级国语| 亚洲一区免费看| 在线观看欧美国产| 亚洲九九视频| 中文无码精品A∨在线观看不卡 | 欧美无专区| 亚洲视频无码| 日韩精品欧美国产在线| 欧美色图久久| 久久永久视频| 直接黄91麻豆网站| 国产成人亚洲精品无码电影| 爱爱影院18禁免费| 99r在线精品视频在线播放 | 中文字幕欧美日韩高清| 成色7777精品在线| 无码国产偷倩在线播放老年人| 国产激情第一页| 青草91视频免费观看| 8090成人午夜精品| 亚洲最大情网站在线观看| 亚洲欧美综合在线观看| 国产视频久久久久| 伊人久久大线影院首页| 玩两个丰满老熟女久久网| 亚洲精品第一页不卡| www亚洲天堂|