廣州市公安局 呂益民北京仿真中心 王 恒 葛振宇上海哲仁軟件公司 沈 堅北方工業(yè)大學(xué) 戴 瀾
大數(shù)據(jù)技術(shù)在目標(biāo)行為分析中的應(yīng)用
廣州市公安局呂益民
北京仿真中心王恒葛振宇
上海哲仁軟件公司沈堅
北方工業(yè)大學(xué)戴瀾
隨著數(shù)據(jù)爆發(fā)性增長和計算機處理能力的提高,大數(shù)據(jù)越來越得到人們的關(guān)注。云平臺下的大數(shù)據(jù)處理技術(shù)也越來越多的得到IT行業(yè)的青睞。本文通過對大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),提出一種大數(shù)據(jù)分析解決方案,并根據(jù)此方案介紹ODDS大數(shù)據(jù)智能處理平臺。在此平臺基礎(chǔ)上通過對大數(shù)據(jù)的挖掘,解決對目標(biāo)行為的分析。
ODDS;大數(shù)據(jù);數(shù)據(jù)挖掘;行為分析
云計算作為IT界最為熱門的技術(shù),已經(jīng)應(yīng)用在科學(xué),商業(yè),教育,醫(yī)療等諸多領(lǐng)域。大數(shù)據(jù)應(yīng)用需求為云計算技術(shù)提出了更高的要求。大數(shù)據(jù)具有四個V的特性,不僅意味著數(shù)據(jù)量大(Volume),而且還有數(shù)據(jù)類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)等特點,因此對于大數(shù)據(jù),以往的解決方案已不再適用,本文采用一種新的方案解決一些大數(shù)據(jù)帶來的新問題。
數(shù)據(jù)挖掘技術(shù)主要作用是從海量數(shù)據(jù)中挖掘潛在的有價值的信息。從存放在大數(shù)據(jù)系統(tǒng)或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的過程。本文采用數(shù)據(jù)挖掘手段對大數(shù)據(jù)進行分析,數(shù)據(jù)挖掘技術(shù)向大數(shù)據(jù)方向轉(zhuǎn)化為可用的分布式數(shù)據(jù)挖掘技術(shù)。
本文提出的目標(biāo)行為分析建立在大數(shù)據(jù)之上,因此先前的數(shù)據(jù)挖掘技術(shù)已不再適用,采用ODDS智能系統(tǒng)是目前解決大數(shù)據(jù)挖掘的途徑之一。
ODDS大數(shù)據(jù)智能處理正是針對結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)而產(chǎn)生的。傳統(tǒng)的存儲方案已經(jīng)從構(gòu)架上越來越難以適應(yīng)近幾年來的信息系統(tǒng)業(yè)務(wù)的飛速發(fā)展,成為了業(yè)務(wù)發(fā)展的瓶頸和障礙。ODDS大數(shù)據(jù)智能處理通過一個高效的分布式架構(gòu),將數(shù)據(jù)的訪問和存儲分布在大量服務(wù)器之中,在可靠地多備份存儲的同時還能將訪問分布在集群中的各個服務(wù)器之上,是傳統(tǒng)存儲構(gòu)架的一個顛覆性的發(fā)展。
ODDS包括集群系統(tǒng)管理、業(yè)務(wù)數(shù)據(jù)采集、數(shù)據(jù)存儲管理、數(shù)據(jù)統(tǒng)計分析等部份組成。
以公安掌控的大量視頻數(shù)據(jù)為例,通過關(guān)聯(lián)規(guī)則或相關(guān)性分析用以發(fā)現(xiàn)公安視頻大數(shù)據(jù)系統(tǒng)中不同特征之間的聯(lián)系,用這些規(guī)則找出關(guān)注對象行為模式,比如在那個地方何時出現(xiàn)。
通過分類分析一組已經(jīng)分類的對象,將其他未分類的其他對象按同樣規(guī)則歸入相應(yīng)的分類,即從歷史的樣本數(shù)據(jù)推算出未來數(shù)據(jù)的趨向,比如說分析用戶行為,我們常稱之為受眾分析。
聚類分析將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為能夠從樣本數(shù)據(jù)出發(fā),自動進行分類,通過聚類通過分析將一系列相關(guān)的人或物等劃分為相關(guān)性相近的群組。
4.1ODDS架構(gòu)
ODDS總體架構(gòu)如圖3-1所示:

3-1 ODDS總體架構(gòu)
4.2OIIS分布式數(shù)據(jù)輸入
OIIS數(shù)據(jù)輸入系統(tǒng)采用多節(jié)點分布式統(tǒng)一輸入數(shù)據(jù),通過分布式協(xié)同工作系統(tǒng),多個節(jié)點相互協(xié)作完成數(shù)據(jù)的輸入。
允許結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)輸入,支持不同數(shù)據(jù)格式,例如word文檔、網(wǎng)頁、郵件等。OIIS通過異步處理方式在實現(xiàn)數(shù)據(jù)分布式存儲的同時,通知索引系統(tǒng)索引數(shù)據(jù),保證存儲數(shù)據(jù)和索引數(shù)據(jù)的一致性。根據(jù)業(yè)務(wù)不同,允許用戶自定義數(shù)據(jù)輸入模式。也可以根據(jù)用戶業(yè)務(wù)數(shù)據(jù)量大小,制定數(shù)據(jù)存儲和索引空間大小。
4.3ODDB分布式數(shù)據(jù)存儲
基于廉價的存儲設(shè)備集群構(gòu)成的存儲資源池,數(shù)據(jù)存儲系統(tǒng)通過分布式技術(shù)將整個分散的存儲資源聚合為一個具有高可靠性、高擴展性的整體,提供可以無限增長的存儲空間。
數(shù)據(jù)存儲:存儲服務(wù)是ODDB提供的基本功能,針對本地文件系統(tǒng)中磁盤容量對于大數(shù)據(jù)的限制,ODDB系統(tǒng)采用數(shù)據(jù)塊存儲的方式將大數(shù)據(jù)分散存儲在集群中的塊服務(wù)器上,通過主機熱備份機制,解決元數(shù)據(jù)服務(wù)器單點失效的問題。
容錯管理:為提高用戶數(shù)據(jù)存儲的可靠性,解決存儲系統(tǒng)中單節(jié)點失效行為,ODDB引入了高效、可靠的協(xié)同工作系統(tǒng)。在協(xié)同工作系統(tǒng)服務(wù)上注冊集群中的單點服務(wù)器,進行統(tǒng)一管理,保證對集群中所有節(jié)點各種問題的實時監(jiān)控,同時協(xié)同工作系統(tǒng)以負(fù)載均衡機制,對用戶數(shù)據(jù)進行動態(tài)的合理分配存儲資源,在保證系統(tǒng)穩(wěn)定性的同時,提升查詢效率。
4.4全文檢索
全文檢索分為兩部分,分布式索引和查詢搜索系統(tǒng)。
4.4.1ODIS分布式索引
ODIS解決了數(shù)據(jù)索引面臨的諸多困難與挑戰(zhàn),如索引的效率問題、海量索引數(shù)據(jù)的存儲、如何及時地創(chuàng)建索引等。
全文索引:通過“倒排索引”的方式創(chuàng)建索引文件,使得索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址,提高全文索引效率。
分布式存儲:ODIS對索引數(shù)據(jù)進行分片處理,每一個“片”都交由一個服務(wù)器集群來維護,多個服務(wù)器集群分擔(dān)索引壓力。整個索引集,可以根據(jù)數(shù)據(jù)增長情況,動態(tài)地增加索引“片”(服務(wù)器集群),以滿足在線擴容的需求。
多備份容災(zāi):一個索引片集群,擁有一臺索引服務(wù)器負(fù)責(zé)創(chuàng)建索引,和多臺備份服務(wù)器實時地從索引服務(wù)器拷貝索引數(shù)據(jù);當(dāng)索引服務(wù)器出現(xiàn)問題停止工作之后,ODIS會在該集群下進行選舉,從多臺備份服務(wù)器中選舉出新的索引服務(wù)器。
4.4.2OQSS分布式搜索系統(tǒng)
OQSS數(shù)據(jù)搜索的范圍包括數(shù)據(jù)庫、互聯(lián)網(wǎng)、文件系統(tǒng)、內(nèi)容管理系統(tǒng)等多種數(shù)據(jù)源;搜索方式涵蓋傳統(tǒng)的關(guān)鍵字、布爾表達式、字段匹配搜索等,支持概念搜索,訓(xùn)練搜索,搜索導(dǎo)航,搜索聚類,能對用戶搜索偏好和對結(jié)果擬合度的選擇進行學(xué)習(xí),以提高搜索結(jié)果的準(zhǔn)確度和價值。
當(dāng)用戶請求查詢時,OQSS數(shù)據(jù)搜索引擎會對該業(yè)務(wù)下的全部索引片集群發(fā)出搜索請求,并將返回的結(jié)果集匯總、分頁,最終返回正確的查詢結(jié)果。當(dāng)大用戶量并發(fā)時,索引片集群接收到搜索請求后會自動負(fù)載均衡,將多用戶請求分散到各個索引備份機,以緩解并發(fā)搜索的壓力,達到用戶高并發(fā)量訪問查詢的要求。
4.5ODAS分析系統(tǒng)
ODAS數(shù)據(jù)分析系統(tǒng)提供統(tǒng)計服務(wù)器、自動分類服務(wù)器、熱點展示服務(wù)器、目標(biāo)行為分析服務(wù)器等大數(shù)據(jù)分析服務(wù)。
統(tǒng)計服務(wù)器:提供實時的數(shù)據(jù)輸入統(tǒng)計,支持各種簡單的統(tǒng)計計數(shù)功能。如果實時統(tǒng)計數(shù)據(jù)輸入的分類計數(shù)。
熱點展示服務(wù):對各類統(tǒng)計分析結(jié)果生產(chǎn)相對應(yīng)的量化統(tǒng)計圖表,給用戶的監(jiān)控和決策提供強有力的數(shù)據(jù)支持。利用靈活多樣的頁面展示,方便簡捷的個性化定制功能,對熱點新聞和事件等量化指標(biāo)和發(fā)展趨勢以多樣化的圖形展現(xiàn)。
自動分類服務(wù):ODAS提供了數(shù)據(jù)自動分類功能,通過目標(biāo)屬性的定義和發(fā)現(xiàn),實現(xiàn)對目標(biāo)信息的有效監(jiān)控。同時通過實時統(tǒng)計技術(shù),自動識別被關(guān)注目標(biāo)或事件,及時掌控當(dāng)前互聯(lián)網(wǎng)和內(nèi)聯(lián)網(wǎng)中的關(guān)注焦點和熱點。
目標(biāo)行為分析服務(wù):目標(biāo)分析綜合利用目標(biāo)的行為、屬性,對象的屬性、內(nèi)容、分類,以及目標(biāo)之間的關(guān)系等等,挖掘目標(biāo)的喜好和需求 。通過分析目標(biāo)的歷史行為記錄來推算目標(biāo)的接下來可能要進行的行為或者目標(biāo)關(guān)注等。實現(xiàn)時可以基于目標(biāo)的發(fā)現(xiàn)(通過查找相似的目標(biāo))或基于關(guān)注的推薦(計算目標(biāo)關(guān)注相似度發(fā)現(xiàn)被關(guān)注事件和目標(biāo))。
4.6管理系統(tǒng)
在線管理系統(tǒng)主要包含基本配置管理和業(yè)務(wù)運行管理兩大部分,它實現(xiàn)了用戶能夠簡單靈活的配置硬件環(huán)境,實現(xiàn)快速部署服務(wù)軟件,同時滿足用戶的各種類型的業(yè)務(wù)需求。
4.6.1基本配置管理
基本配置管理主要是用界面化的方式對智能處理系統(tǒng)中OIIS、ODDB、OQSS等服務(wù)軟件進行基本的配置及管理,其主要目的是用來方便管理員管理整套系統(tǒng)軟件。
自動安裝服務(wù)器:自動安裝軟件及同步各服務(wù)器的配置信息,配置服務(wù)器。軟件運行參數(shù)信息對服務(wù)器的名稱、IP、端口號及軟件產(chǎn)品使用的配置信息進行配置,通過操作瀏覽器界面管理機器設(shè)備及其上面的服務(wù)。
服務(wù)器和軟件服務(wù)狀態(tài):自動定時檢測服務(wù)器和服務(wù)軟件的狀態(tài)并更新管理系統(tǒng)中服務(wù)器、軟件產(chǎn)品狀態(tài)列表,使管理界面上看到的服務(wù)器及服務(wù)軟件狀態(tài)都是最新的狀態(tài)。
通過基本管理還可以進行服務(wù)器再分配、初始化服務(wù)啟動環(huán)境、遠程啟動關(guān)閉軟件等等功能。
4.6.2業(yè)務(wù)運行管理
大數(shù)據(jù)處理系統(tǒng)支持不同業(yè)務(wù)人員創(chuàng)建不同業(yè)務(wù),同一業(yè)務(wù)人員也可以創(chuàng)建多個業(yè)務(wù)。業(yè)務(wù)人員通過業(yè)務(wù)運行管理統(tǒng)一管理其權(quán)限下的業(yè)務(wù)。
輸入數(shù)據(jù)模式管理:根據(jù)需求定制輸入數(shù)據(jù)結(jié)構(gòu),自定義輸入數(shù)據(jù)字段及其對應(yīng)數(shù)據(jù)類型。
索引集管理:如需對數(shù)據(jù)進行索引或者全文搜索,可根據(jù)數(shù)據(jù)的大小,創(chuàng)建不同的數(shù)據(jù)索引集,按需調(diào)整索引數(shù)據(jù)空間大小,也可通過添加索引片的數(shù)量調(diào)整適合需求的索引效率,使索引和搜索服務(wù)器集群得到有效利用。
索引片管理:可自定義索引片,為索引片添加和刪除服務(wù)器調(diào)整用戶搜索并發(fā)壓力,也可使索引和搜索服務(wù)器集群得到有效利用。
業(yè)務(wù)管理:自定義業(yè)務(wù),根據(jù)業(yè)務(wù)情況選擇適當(dāng)規(guī)模的輸入數(shù)據(jù)集群,選取符合自身需求的數(shù)據(jù)模式和數(shù)據(jù)存儲集群,通過選擇索引集選擇索引和搜索服務(wù)集群。
根據(jù)大數(shù)據(jù)自動聚類,自動分類、關(guān)聯(lián)規(guī)則分析等技術(shù)手段,挖掘歷史數(shù)據(jù),發(fā)現(xiàn)目標(biāo),分析目標(biāo),建立目標(biāo)行為模型。通過實時數(shù)據(jù)監(jiān)控用戶的行為,實時發(fā)現(xiàn)關(guān)聯(lián)目標(biāo)。
(1)通過目標(biāo)的行為屬性,對目標(biāo)進行分類,對具有相關(guān)屬性的目標(biāo)分在相同的集合中,當(dāng)集合中的某一目標(biāo)有了新的行為,預(yù)測集合中其它目標(biāo)是否有相同的行為,或目標(biāo)有過某一歷史行為,對集合中的其他目標(biāo)進行監(jiān)督,以防類似行為再次發(fā)生。
(2)通過目標(biāo)歷史行為數(shù)據(jù),對目標(biāo)行為建立行為預(yù)測模型,根據(jù)行為分類模型對用戶現(xiàn)有的行為進行預(yù)測,根據(jù)目標(biāo)行為分析,預(yù)測目標(biāo)的動機或者接下來將要引起什么樣的事件,以及將產(chǎn)生什么樣的后果。
(3)通過目標(biāo)歷史共同發(fā)生的行為,建立行為關(guān)聯(lián)模型,當(dāng)目標(biāo)中的某一行為發(fā)生的時候,分析出和此行為相關(guān)行為概率,通過建立行為概率模型。
(4)通過對目標(biāo)的行為分析,挖掘目標(biāo)和正常行為模型不一致異常行為或者是目標(biāo)故意丟出噪音行為,根據(jù)發(fā)現(xiàn)的目標(biāo)行為采取相應(yīng)的對策,以便防止意外的事件發(fā)生。
(5)根據(jù)目標(biāo)發(fā)生的一系列行為,分析目標(biāo)的行為規(guī)律和趨勢,預(yù)測在某個時間點,目標(biāo)出現(xiàn)在什么地點,從而追蹤目標(biāo)和監(jiān)控目標(biāo),對目標(biāo)的行為做出合理的判斷。
在分布式數(shù)據(jù)庫中存在數(shù)量龐大的關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則分析要找到其中的強規(guī)則,既要滿足規(guī)定的支持度,也要滿足規(guī)定的信任度。支持度和信任度是關(guān)聯(lián)規(guī)則分析中完成的兩個步驟,即事物中的項集在事物集中出現(xiàn)的比率滿足給定的支持度閾值,一項集出現(xiàn)的同時另一項集出現(xiàn)的比率滿足給定的信任度閾值。
關(guān)聯(lián)規(guī)則分析的第一階段從原始資料集合中,找出所有頻繁項集。頻繁項指頻率相對于所有事物達到某一閾值,此閾值根據(jù)經(jīng)驗獲得。關(guān)聯(lián)規(guī)則分析的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則,利用前一步驟頻繁項產(chǎn)生的規(guī)則,在最小閾值的設(shè)定下,若規(guī)則所求得的信任度滿足最小信賴度,獲得關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則分析采用FP-Growth算法挖掘頻繁項集, FP-Growth算法通過構(gòu)建FP樹存儲項集間的關(guān)聯(lián),F(xiàn)P樹存儲在內(nèi)存中,大大提高分析效率,在大數(shù)據(jù)的情況下,F(xiàn)P-Growth算法建立在分布式系統(tǒng)之上,能夠解決內(nèi)存空間不足的問題。
ODDS大數(shù)據(jù)挖掘智能系統(tǒng),能夠非常有效的決解對大數(shù)據(jù)的處理,集大數(shù)據(jù)存儲、非結(jié)構(gòu)化全文搜索、智能分析、大數(shù)據(jù)分布式輸入、管理系統(tǒng)、監(jiān)控系統(tǒng)和告警系統(tǒng)于一體,能夠很好的解決大數(shù)據(jù)在目標(biāo)分析中的應(yīng)用問題。
ODDS通過大數(shù)據(jù)智能系統(tǒng)能夠?qū)δ繕?biāo)進行實時分析,對目標(biāo)行為進行分類預(yù)測;可以根據(jù)目標(biāo)歷史行為以及相關(guān)人員分析其將來發(fā)生的動作以及事件,及時進行預(yù)防。也可以根據(jù)目標(biāo)的偏好對其進行分析,追蹤目標(biāo),并減少搜索范圍。
ODDS大數(shù)據(jù)智能挖掘系統(tǒng)支持p級數(shù)據(jù)的分布式存儲,支持分布式搜索引擎毫秒級響應(yīng),支持系統(tǒng)在線擴容,每天處理億條數(shù)據(jù)存儲,最大支持千億條數(shù)據(jù)存儲,億級數(shù)據(jù)分析在小時級完成,對特別數(shù)據(jù)做到高速實時分析處理。
[1]M.J.Zaki,A.Meira Jr.Fundamentals of Data Mining Algorithms. Cambridge University Press,2011.
[2]盧輝.數(shù)據(jù)挖掘于數(shù)據(jù)化運營實戰(zhàn):思路、方法、技巧與應(yīng)用[J].機械工業(yè)出版社,2013.
[3]Machine learning. Wikipedia.2001.https://en.wikipedia.org/ wiki/Machine_learning.