李昊原
算法并真正的壁壘,而是根據用戶特征和產品定位來設計結構,然后把算法應用在結構中去提升效率。
你要去哪里,或許你的手機比你還清楚。只要打開App,看著推送的信息,點擊你感興趣的,慢慢你就會有主意——當10個推送中5個開始和海島有關時。那么,是去巴厘島還是普吉島?連名字都分不清的你有些苦惱,卻發現下面及時推送了這兩個地方的旅行產品和攻略。從那一閃而過的念頭開始,你就被大數據技術感知了,從而平穩的開始了你的旅行,從路線景點到吃喝玩樂的建議,甚至你完全沒有想到的都被呈現在你眼前,這是大數據應用的一個開始。
連接用戶與內容
螞蜂窩曾經是知名的旅游攻略UGC社區,而現在,全球旅行服務平臺會是更全面的定位,這個改變與螞蜂窩在數據應用上的進化是分不開的。
作為元老級人物,陳惠印象中最早的數據應用,是伴隨著移動端螞蜂窩App而出現的?!澳菚r我們有了手機App后,特別想知道用戶都在看什么樣的攻略、在找什么樣的內容,所以我們的大數據最早的起源,其實就從手機APP里數據的采集開始的?!睌祿占某霭l點是為了了解用戶的需求,從而滿足需求,但在移動端大數據真正的應用,卻要等到2013年。
最早,螞蜂窩的攻略是分散在小組之中的,比如北京同城的小組中,會有去西安、普吉島和廈門的帖子,而“查找攻略”也是一件不容易的事情,想去廈門,可能意味著要在十多個小組中翻看幾十篇游記來搜索信息。旅游在絕大多數情況下,是人為了新鮮的體驗而去一個陌生的地方,因此信息的不透明幾乎是絕對的,如何讓用戶找到自己真實需要的信息,就變成了核心的問題。
UGC出身的螞蜂窩并不缺內容,但海量的內容多為照片和游記,是非結構化的,怎么樣才能讓它們和用戶高效率地連接在一起呢?在大數據部門的技術總監韓鑫看來,可以簡單的分成三個部分:一個是內容,一個是用戶,最后是推薦系統。而螞蜂窩做的事情,就是將前兩者的數據結構化,最后通過算法匹配到一起。
2013年,螞蜂窩開始搭建了目的地分類系統,讓所有的內容可以在一個系統中呈現,這是內容結構化的基礎?!芭e一個例子,比如對一家酒店,有許多用戶評論和游記,我們會從中提取有用的信息?!表n鑫介紹,游客往往會關注酒店的價格、環境、特色、餐飲和交通等信息,這些信息意味著不同的維度,將影響用戶的旅行決策。比如對一家酒店一共有1000篇游記,其中有500篇游記涉及了交通的維度,在游記中可能是“距離機場不遠”“在機場快線上”“去機場很方便”等不同的說法,而螞蜂窩通過構建自然語言的平臺,將評論和游記中原本發散的內容集中在一起?!笆紫仁腔谠~庫中的關鍵詞去搜索,然后是語義分析和數據挖掘技術。” 游記的內容被分解為句子,然后句子分為句式,句式再分為詞組,在系統中跑模型,最終被歸納成用戶易于理解的結果。韓鑫用知識圖譜的形式展示了日本的目的地信息,在眾多維內容中有溫泉,點擊溫泉后又會出現泉質等不同的內容,點擊泉質后又會有綠礬泉、單純泉、芒硝泉等,“這都是根據內容解析出來的,完全靠機器的話可能也不足夠準確,但這會是很好的基礎,在這個基礎上,再靠人工去校驗。”韓鑫說,通過這種方式UGC的內容得以結構化,從而形成螞蜂窩印象等產品。
在用戶畫像上,基于使用場景,螞蜂窩會將用戶分為四個階段。第一個階段是旅行空窗期,這個階段的用戶沒有明顯的旅行傾向,瀏覽的內容也相對分散;第二個階段是旅行發酵期,用戶已經有了一些模糊的出行需求,比如是國內游還是出國、會和誰一起旅行、有多少預算等,但假如是海島游,那是去巴厘島、普吉島還是馬爾代夫?這個階段的用戶,瀏覽攻略的內容開始集中,也會出現目的地搜索的行為。第三個階段是旅行準備期,用戶已經有了明確的目的地、旅行方式等;第四個階段是正在旅行。
在這四個階段,通過對用戶瀏覽、點擊和搜索數據的收集分析,時間、地理位置信息的實時獲取,以及對用戶行為的引導,比如在用戶界面,會有國內、國外、帶娃旅行、海島游、情侶出行等不同的分類,螞蜂窩會勾勒出精準的用戶畫像,并在這個過程中給予不同場景下的推薦信息。“我知道了你在什么地方,有什么樣的旅行需求,也對內容有了解,包括多少個目的地、場景和標簽?!瘪R蜂窩旅行網副總裁陳惠說,推薦系統的搭建,讓用戶和內容間得以匹配,但在今天的行業中,推薦的算法并不是壁壘。真正重要的是,根據自身的用戶特征和產品定位,設計一個結構,然后把算法應用在結構中去提升效率?!盎ヂ摼W時代,每一次的流量,背后都是用戶的一次需求,所以了解好用戶的每一次訪問,才能服務好用戶,而這個核心就是大數據的能力?!倍浄涓C對旅行階段和場景的判定,再配合不同的標簽和維度,可以讓用戶的需求細分,從而精準的匹配到同樣細分的內容資源上。
小團隊大賦能
在2017年的12月12日,螞蜂窩宣布獲得1.33億美元的D輪融資,快速擴張中的螞蜂窩團隊目前有700名員工。談到具體的大數據團隊,作為負責人的韓鑫卻笑著說,只有十幾個人,“但能夠利用和使用大數據的人,(在公司員工中)超過了70%”。
在線旅游擁有著豐富的場景和業務,尤其是螞蜂窩主打的“自由行”,因追求個性化而更顯得復雜,這給技術上帶來的挑戰是,如果靠傳統的方式去做大數據,那需要的工程師就太多了?!八苑浅V匾囊稽c是去賦能,用大數據賦能別人?!表n鑫說。
以基礎的數據采集工作為例,傳統的做法是,由公司的數據團隊去對接不同部門的各個系統做數據歸集,這涉及了大量的業務對接和標準化的問題,人力和時間成本都很高。而螞蜂窩的數據團隊在App的基礎上,搭建了統一標準化的數據采集系統,“哪怕是剛畢業的一個應屆生,只要做一個簡單的培訓,就可以十分鐘時間內自己去上報一條可能是千萬量級的數據?!?/p>
韓鑫對大數據能力的一個看法是,大多數公司不是做不到,而是效率太低。進行一項統計分析,比如哪些景點旅游人數最多,第一、第二、第三分別是哪里,用戶都在看什么美食,在螞蜂窩的系統上,無需工程師去專門對接需求,只需要按照可視化的規則配置,就能夠以分鐘級的速度實現。“對業務使用者來講,他只需要理清楚自己到底要分析什么,統計什么,運算規則可能五分鐘就建立,之后所有的數據運維由數據團隊承接,關注這個運算規則能否很好地去執行,而統計結果會直接對接到產品內容上?!表n鑫告訴記者,這樣的規則在螞蜂窩有5萬多個,僅2017年一年就形成2萬多個,而傳統方式需要最少幾小時甚至一個周的時間。
“我們非常強調分享,也強調人人都是分析師,每個人都可以利用工具平臺去輸出自己的數據,分享給別人?!倍唧w的實現方式,就是將整個數據流程從最底端采集到最前端呈現全部產品化,這樣,一個人只需要一個小時就能配置完成。而效率的提升也促進了對敏捷型業務的提升,韓鑫舉了一個例子,假如一個活動只有三天,很多公司不會愿意為此而做數據研發,而如果只需要花費一個小時就可以完成,那就值得做了?!拔覀兊囊粋€基本的思路就是賦能?!彼f:“通過產品化,讓每一個人都有能力去處理數據、加工數據,能夠根據自己的實際需求,來決定到底哪些東西是需要被處理的,盡可能降低大數據技術的門檻,然后讓更多人能利用大數據技術,去給他自己的產品和業務帶來幫助?!眅ndprint