賴太平
移動互聯網時代,信息查詢輕而易舉,而且還有大量的信息推送,但是,這樣又出現了一種情況——信息過載。如何實現信息與人更為精準的連接是整個社會未來探索的方向之一,這一過程其實就是一個簡單的大數據加工模型。
為了能夠給信息獲取人提供最佳的內容獲取決策,我們得將數據變得更加“聰明有用”,通俗來講,企業需要能夠對用戶產生的每個數據進行統計、分析與開發,并以此幫助用戶做出決策,這就是大數據的加工。
大數據加工的三種方法
首先我們得明白,我們得到的大數據其實是來自不同渠道的數據組合而成的,要把這些數據整合在一起,才可以發現有用的信息。但是,這個“整合”可不是一件容易的事兒。下面我們來了解一下常見的大數據“加工”方式吧。
相似關聯,這種加工方式并不難理解,專業的說法叫“協同過濾”,就是要收集大量的用戶瀏覽記錄,通過相似行為進行關聯推薦。比如說,我們通過大數據給兩個同學貼標簽,包括“性別、年齡、喜歡的顏色、喜歡的明星、愛買的東西、愛去的地方”等,然后發現A和B的標簽有很多相似,我們就可以將A喜歡購買的東西推薦給B。
由于這種加工方式簡單,邏輯清晰,可行性強,它被大多數企業采用,例如今日頭條、天天快報等都是采用的這種算法,但它也存在缺陷。由于獲取數據的手段有限,有時候并不能真實的反應出用戶對信息的需求,很容易讓用戶深陷在自己的“興趣愛好”當中,很難擴展。
隱式搜索,這一算法模式看起來高端,其實分開來看就簡單多了,其核心內容為“搜索”,比如你在某個軟件上搜索了關鍵詞“科學”,那么該算法就會在大數據中挑選關于“科學”這一次的相關信息數據主動推送給你,同時獲取你的興趣數據。而所謂的“隱式”其實就是根據關鍵詞“主動”推送的意思。
這一“加工”大數據的方法是建立在搜索引擎普及之后的,與“相似關聯”類似的是,不同的人搜索相同的信息有不同的目的,而不同的時間地點搜同樣的信息也有不同的目的,用同樣的標準衡量用戶行為,容易產生誤判。但這種算法相比“相似關聯”仍有一定優勢,“相似關聯”只能通過自身的標簽做推送,相比而言“隱式搜索”能擴展的范圍會更大。

社群+場景,這一加工的手段相對前兩個來說更智能,這也是目前所有加工算法的發展趨勢,它對所加工的“大數據”要求能達到“矩陣”的規模,也就是說數據的規模要更大更多。目前能真正做到“社群+場景”的加工算法的只有少數幾家互聯網巨頭。
大數據加工是一個“技術活兒”,這里我們只介紹了比較常見的三種加工方算法,但實際的應用中根據不同的需求可能會有特有的某種算法模式交叉使用。
值得注意的是,被加工后的大數據有的會服務于人,但目前其大多數還是服務于機器,因為有人認為人只能是對宏觀的東西做把控、對部分的場景做決策,而機器則可以對個體,對全量的場景做決策。所以,我們在日常生活中如果看不到這些“大數據”的時候也不必驚奇啦,因為它們很可能用其他的機器軟件給我們做服務呢?。ň庉?有慶)