米飆
2016年3月,打開今日頭條客戶端的用戶會看到這樣的頁面提示:“4億用戶的選擇,你關心的才是頭條。”
“每一屏五條新聞中會有兩三條我感興趣的內容,就像定制的報紙一樣。別的客戶端新聞經常不是自己感興趣的,得不停地翻屏找自己關心的東西,效率差。”像周帆這樣的互聯網從業者,瀏覽行業新聞是每天必做的功課,“今日頭條”就是他最常用的新聞客戶端,其他新聞客戶端都不會把他關心的事放到首頁。
憑借為用戶“定制”移動報紙,早在2012 年12 月31 日時,“今日頭條”的用戶總量就已經接近1000萬,在新浪微博的日分享信息超過10 萬條。按照第三方網站App Annie 統計,在App store2012 年三季度的媒體類客戶端中,“今日頭條”排名第二,僅次于蘋果官方的“iBooks”,超越了“騰訊新聞”“搜狐新聞”等互聯網大佬。
其開發商北京字節跳動科技有限公司(以下簡稱“字節跳動”)創立不到一年就獲得了來自海納亞洲(SIG)以及華爾街著名經濟學家、投資銀行家的首輪風險投資,融資額達到500 萬美元。
今年29 歲的張一鳴,就是字節跳動的創始人。
從牛仔褲上的油漬上你很容易看出他是一個典型的技術宅男。出生于福建龍巖的張一鳴從高中時代起就酷愛計算機,2001 年進入南開大學先后就讀于微電子和軟件工程專業。他在大四時編寫的電路板自動化加工軟件PCBS 曾獲得過“挑戰杯”二等獎。
大學畢業后,張一鳴在一次短暫而失敗的創業后進入旅游搜索網站——酷訊。作為酷訊的第一個工程師,他全面負責酷訊的搜索研發,一年后成為高級經理,最終擔任技術委員會主席。2008 年張一鳴離開酷訊加入微軟,終因受不了低效率的工作方式離職。
2009 年初,國內第一個微博網站飯否吸引了他,他開始擔任技術合伙人,負責飯否的搜索、消息分發、熱詞挖掘、防作弊、用戶排名等后臺系統方向的工作,為社交分析儲備了大量技術。
當飯否被關閉之后,海納亞洲找上門來,希望出資由張一鳴創立一家房產信息網站,張一鳴由此創立九九房。在九九房,張一鳴開始涉足移動開發,6 個月間推出掌上租房、掌上買房等5 款移動應用,在當時的移動互聯網環境下實現150 萬用戶,是房產類應用的第一名。
“當時覺得自己這么好的技術用在房產行業上太小了,就想做一家移動互聯網公司。”張一鳴由此辭去九九房CEO 職位創立了北京字節跳動。
移動互聯網的爭奪是流量的爭奪,而在用戶的主要入口中,瀏覽器、搜索、輸入法、社會化媒體、即時通訊工具等領域格局已經基本確定。新聞客戶端是僅存的依然能誕生巨頭的戰場,也就成了移動互聯網的下一個必爭之地。
按照易觀國際《2012 年上半年新聞客戶端市場研究報告》,截至2012 年一季度,移動互聯網的4.5 億用戶中移動閱讀的活躍用戶就已經達到3.45 億。而在移動閱讀使用者中,52.5% 的人經常閱讀報紙類,39.8% 經常閱讀資訊,新聞客戶端是他們獲取這兩類信息的主要入口。
在張一鳴看來,同其他基礎入口相比,新聞客戶端用戶滲透率高,無論國內外,基本是App 第一應用;使用頻率高,用戶甚至只有半分鐘空閑時間都會打開;留存度高,某款游戲會玩膩了,但資訊是長期需要,不會刪除的;有很高的可附加性,可以附加商業信息、生活信息、廣告,相比之下,鬧鐘等應用雖然常用、留存度高但是沒有可附加性。
“今日頭條”新聞的有效性是其特點,哪怕只能用半分鐘等候電梯、只能打開客戶端首頁也能找到自己感興趣的新聞,而且同一天不同時間打開首頁新聞都會各不相同。“我們只給你最想看的新聞,而不是那些你不關心的新聞。”
相比于新聞客戶端,張一鳴更愿意把“今日頭條”稱為是興趣媒體。當搜狐、網易等新聞客戶端將門戶新聞直接搬到手機上,推送給用戶千篇一律的新聞時,“今日頭條”會甄別用戶的獨特需求,只推送那些單個用戶感興趣的新聞。“網站上都會講奧巴馬如何如何,實際上用戶更感興趣的可能是自己家門口的地鐵站發生了哪些事情。”
“今日頭條”這份移動報紙的“定制”可不是通過人工編輯出來的,而是通過一整套機器算法的資訊流水線來實現的。“本質上我們跟搜狐新聞、網易新聞是兩碼事,他們更像是門戶新聞網站在移動端的延伸,更偏向于用傳統的方式做媒體,而我們是以技術實現一切,沒有人工編輯。”張一鳴說。
“定制”的基礎是基于對用戶社交興趣的數據挖掘。當用戶用新浪微博賬號初次登錄“今日頭條”時,他的興趣和閱讀偏好在5 秒之內被分析出來,最感興趣的新聞隨即被推送到眼前。此后,隨著他在“今日頭條”頁面每一次的點擊閱讀、頂、踩、評論等閱讀動作,他的興趣被更精準地分析出來,變得越來越懂他。“今日頭條”不需要用戶自己思考“我喜歡什么”,而是主動去理解用戶“你的喜歡”。
對于“你的喜歡”的判斷來自三個層次:大家都喜歡的新聞(即通常意義的社會熱點)、興趣相近的好友喜歡的新聞和你會喜歡的新聞。而對于每條新聞評論的排序也很酷,優先展示社交好友的評論,其次是社交網絡的意見領袖,而不是那些不加篩選的路人甲的評論。
“定制”背后的技術壁壘頗為復雜。來自于酷訊的搜索技術、來自于飯否的社交分析技術、來自于九九房的移動互聯網技術被張一鳴結合在了“今日頭條”之中。
用戶分析、搜索、推薦是“今日頭條”的技術三部曲。用戶分析的背后是大規模的數據挖掘和機器學習。“常見的用戶類型分析是手機型號,還有就是位置,在哪個城市。但是這個分析維度太低了。”張一鳴基于社交數據和用戶行為挖掘將人分為上萬個緯度,建立不同的模型。“這樣我們可以發現你歷史上的所有行為是‘小清新+ 科技還是‘三俗+ 古典。你最近從宅男變潮了,我們也會發現。我們都需要及時地進行大量的運算。”張一鳴笑著說。這些用戶分析模型和維度也是由計算機自動搭建和計算的。基于社交數據和用戶行為挖掘技術來實現產品的公司,目前在國外做得比較好的有Zite、Prismatic等公司。
“在搜索技術上,國內具有獨立研發搜索引擎的公司并不多,不超過5 家。”在搜索引擎浸淫多年的張一鳴說。同時,手機搜索同互聯網搜索相比有著不同的特點。通常用戶常常對使用電腦搜索精度要求不高,每頁20 條,結果不滿意就翻頁。而在使用手機時,由于時間短暫就要求高效,三條之內必須有一個有用的結果。信息分析精度要求大大提高,需要盡量提取網頁內容正文,去除網頁冗余信息,甄別同一內容不同主題的文章,去掉重復。
在信息推薦上,使用互聯網搜索引擎時,不同用戶搜同一關鍵詞的展示結果一樣。而“今日頭條”則是每個用戶的每次請求都會更新。“這導致計算量很大,用戶一個小時前瀏覽了哪些內容,在一小時后的搜索中就要考慮進去,并呈現出不同的結果。”張一鳴說。
在新聞中會插入大量的圖片和視頻等多媒體信息,相應會需要強大的多媒體搜索、去重技術。這是字節跳動的另一強項。“國內擁有多媒體處理技術的公司少于三家,已發布產品的只有兩家。同一個人同一個場景稍微動一下,對機器而言就意味著完全不同的圖片,怎么識別、去重很難。”張一鳴很是自豪,字節跳動的圖片檢索精度能夠達到98% 以上。
從機器識別的角度看,張一鳴把信息歸納為五種,短文本、長文本、圖片、視頻和結構化信息(例如商品,對它的描述需要同時包括文本、圖片等多維度信息)。實際上,張一鳴通過“今日頭條”搭建的并非只是一個新聞客戶端,而是一個可以全面處理這五種信息的“用戶分析+ 搜索+ 推薦”的技術平臺。
字節跳動已經基本完成了這五種信息處理的技術儲備,并開始用產品的形態呈現出來。除去“今日頭條”之外,字節跳動旗下還有“內涵段子”“搞笑囧圖”“內涵漫畫”“好看圖片”“今晚必看視頻”等12 款應用。總體表現不俗,其中的“內涵段子”在娛樂類排名一度超過唱吧。
截至2015年5月,與今日頭條合作的各類媒體、機構總計約5000家,其中簽約合作的傳統媒體近千家,包括新華社、人民網、環球網、京華時報、新京報、參考消息、第一財經日報、北京商報網、廣州日報、法制晚報、財經網、VOGUE時尚網、南都娛樂周刊等。
“這個平臺無所謂搭載什么信息都可以。將來商業信息、生活信息、折扣信息都可以搭載。這會是一個商業價值介于門戶和搜索之間的巨大市場。”張一鳴的野心不小,他相信當“定制”折扣、“定制”吃貨等一系列定制信息出現時,一個巨大的商業市場由此呈現。