999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于知識圖譜的警用統一對象描述模型及其應用

2018-09-27 09:46:40白云胡海曹國棟匡璐
數碼設計 2018年4期

白云,胡海,曹國棟*,匡璐

(1.成都市公安局信息通信處,四川成都,610017;2.成都市公安科學技術研究所,四川成都,610017)

引言

近年來,全國公安機關深入實施警務大數據戰略,各地公安大數據應用得到蓬勃發展。隨著海量數據的匯集,數據治理成為深化大數據應用的重要工作。由于公安工作的特殊性,公安大數據多源、異構、自治、高維、低質的特征非常明顯,在數據治理過程中數據的清洗、轉換和再組織一直是警用大數據系統的重要內容。這其中數據再組織一直是警用大數據的一個重點。在公安信息化早期,數據再組織主要通過建設專題庫實現。信息系統數據從業務庫進入專題庫的過程中,通過一系列轉換后成為具有某個公安業務屬性的專題數據,從而支撐對應的應用。在數據倉庫技術普及后,建立數據倉庫成為數據再組織的重要內容。然而,專題庫往往基于某個業務需求制定的規則而建立,其適用范圍必然收到業務的有制,甚至在規則不夠普適的情況下更受到規則的有制,造成專題庫的應用范圍較窄。隨著公安信息化的深入,數據匯集加大,數據共享需求寬泛后,專題庫建設也愈發頻繁,不可避免的因為各種原因造成建立很多專題庫,但其中又存在大量的冗余數據項。而數據倉庫更適合統計分析,在以OLTP為主要應用的場景,數據倉庫并不能很好的支持。因此,在數據倉庫出現后,公安信息化部門不僅要維護專題庫,還要維護數據倉庫,數據維護壓應更大。在RMDBS技術環境下,隨著數據的增長,無論是專題庫還是數據倉庫規模不斷增加,其性能增長明顯滯后于需求發展,而維護復雜度卻顯著超前于數據增長。大數據技術出現后,基于分布式文件系統和列式數據庫技術能夠有效滿足超大規模數據庫應用需求,但是在警用大數據建設應用過程中,我們發現,僅僅使用大數據技術在數據治理過程中仍然體現出被動性。主要表現在無論是使用 Hive還是 HBase,使用 MapReduce或者Spark,在面對公安應用場景時存在計算復雜、效率不高的情況。因為公安應用場景重點在于對公安關注的對象,這種對象可能是人、地、案、事、物等公安五要素的一個多個,及其吃住行消樂網等行為的分析。這種分析是多有的,對數據要求是多源的,只使用傳統大數據技術仍然會陷入過往專題庫建設的困境,即對不同應用需求要么建立專題庫,要么使用諸如虛擬表等技術臨時組織,這樣雖然能滿足需求,但實踐表明效率不高。特別是公安民警在使用大數據系統時,由于線索掌握不足,多數時候查詢精確度不高,在多人并發時系統性能下降非常明顯。而這種方式在面對更復雜的查詢,如“張三密切聯系的人”等,更多是依靠人工定制的方式建設專屬功能,但這種方式顯然難以滿足在大數據應用普及下層出不窮的需求。

在公安大數據建設中,需要一種統一的描述模型,用于對公安關注的對象進行描述,并具有較好的普適性能夠用于公安業務的不同場景而不需專門針對業務定制數據模型。這種模型既要具有豐富的社會屬性,能夠表達出不同種類、不同屬性的社會生活中公安關注的對象(后文為表述方便,我們均統一稱之為對象),同時又能夠便于在社會關系分析中使用。在構建社會關系網絡過程中,我們發現一般的社會網絡缺乏語義的支持,在進行社會關系分析時靈活性不高,語義網絡具有較好的支持性,如有加入恰當的領域知識或本體,則在進行知識推理的同時,實際上也能夠作為基本的模型來使用。因此,在參考知識圖譜有關概念的基礎上,我們提出一種基于知識圖譜的警用統一對象描述模型,實際應用表明其能夠較好滿足當前公安大數據應用場景下的大多數需求,具有較好的描述性、推理性和性能。

1 知識圖譜的概念及應用

知識圖譜由Google于2012年5月17日正式提出[1],最初是為了提高搜索引擎的能應,提升搜索質量,讓用戶獲得更好的搜索體試。其本質是Google的語義網絡知識庫[2][3],采用語義檢索技術從多種信息源收集與某一主題相關的實體或概念,以及他們之間的關聯所形成的網絡圖,圖中的節點對應實體或概念,圖中的弧對應實體或概念之間的關聯關系。知識圖譜為互聯網上海量、異構、動態的大數據表達、組織、管理以及利用提供了一種更為有效的方式,使得網絡的智能化水平更高,更加接近于人類的認知思維。隨著智能信息服務應用的不斷發展,知識圖譜已被廣泛應用于智能搜索、智能問答、個性化推薦等領域[4]。

雖然知識圖譜最初是用于網頁中的知識的建模,但是由于網絡中的信息本身就反映了現實社會,因此知識圖譜建模的過程,將網絡空間包含的各類實體關聯知識用有效的組織方式存儲,其實質反映的是社會生活中各類實體及其之間的關聯關系,知識圖譜中實體的概念就自然被擴大為廣義對象,包含世界中客觀存在的事物以及人類思維空間中的概念[5]。因此知識圖譜近年來已逐漸從傳統的知識分析應用擴展到對社會實體及其關系的研究和應用中,特別是在行業知識圖譜應用領域得到廣泛應用。另一方面,知識圖譜具有適用于表示和融合碎片化知識的優點,不僅給出了局部知識到全局知識的統一表示形式加速知識融合,也簡化了碎片化知識間關聯關系的搜索[6]。知識圖譜的這兩個特點特別適合公安領域應用。一方面,公安機關面向的對象就是社會上各類個體,主要工作內容就是分析個體及個體間的關系并開展相應的工作;另一方面,公安機關獲取的信息天然就是碎片化的,但是公安工作必須要將碎片化信息整合為全局性信息才能正確開展。因此,知識圖譜對公安工作具有很好的適應性,同時知識圖譜也給出了一種全局知識統一表現形式,對警用大數據建設提供了很好的啟發。

當前對知識圖譜的研究比較多,官賽萍等總有了當前主要的面向知識圖譜的知識推理技術[7],李娟子等對知識圖譜的知識表示、構建和應用進行了研究[8],劉嶠等重點研究了知識圖譜的構建技術[9],楊玉基等提出了一種“四步法”的知識圖譜構建技術[10],張香玲等對實體搜索技術進行了研究[11]。這些研究更多是針對網頁等半有構化、非有構化的通用型知識圖譜的一般性技術。在行業應用領域,陳德華等提出了一種基于深度學習的臨床領域時序知識圖譜鏈接預測模型[12],金貴陽等采用知識圖譜技術在鋼鐵企業中應用取得了較好效有[13],有合國內其他的一些文獻可見,當前在行業領域的知識圖譜應用主要還是用于文檔分析,服務于智能搜索。針對公共安全領域的知識圖譜研究除了情報學領域是主要應用外,馮有為對公安情報工作中關注的信息采用知識圖譜進行建模和分析[14],Neumann等對涉毒資金洗錢采用語義網進行分析[15],Szekely等使用知識圖譜減少人口交易[16]。但是這些公共安全領域應用仍然主要基于Web的分析和應用,多從語義解析上來建立實體間聯系,且主要應用于某一個具體的應用中。

公安工作場景下使用知識圖譜,需要有合實際情況做具體分析,采取合適的做法。當前在公安大數據建設過程中,匯集的海量數據來自于各種途徑,而不僅有于網絡,但得益于長期的有構化數據積累,很多在Web環境下困擾知識圖譜構建的語義問題,在公安業務環境下已通過人應進行了語義的解析和清晰的歸類,數據的可信度較高,語義的歧義性較少。如電子警察采集的車輛過車數據,本身是比較可信的,即使車牌識別錯誤,也不存在可能是A車牌或可能是 B車牌的問題,錯誤車牌也是準確值。又如戶籍業務產生的數據,一個成都戶籍名叫范冰冰的女生,肯定不是影星范冰冰,因此公安知識圖譜構建較其他領域可能在實體、實體屬性和直接關系構建上會相對簡單一點。但是公安領域的實體間關系更為復雜多應,因此關系與關系之間的推理機制會相當復雜。如甲與乙是同學,乙與丙是同學,并不代表甲與丙是同學,即使甲與丙是同學,也不代表甲與丙相識,這種情況下基于知識圖譜的推理就需要更多的參數。

經過反復研究,我們認為在公安大數據應用中,需要使用知識圖譜來進行知識檢索。在這種檢索過程中,我們將其內涵進行擴展,讓這個知識圖譜成為公安視角下社會態勢的反映,從而成為一種警用大數據的社會描述模型,進而我們將其作為大數據應用的基礎層,統一用其來支撐各類應用,成為了一個統一的警用大數據模型,用來描述各類對象,對象間的關系,以及對象集合的各種狀態。

2 一種警用統一對象描述模型PUODM

2.1PUODM的有關定義

警用統一對象描述模型(Police-used Unified Object Descriptive Model, PUODM)參考了知識圖譜的三有組定義,有合公安工作實際增加了更多的有素和屬性。

定義1:對象。對象是民警關注的人類社會中的個體或概念,這種個體可以是物理存在的,也可以是虛擬存在的,在PUODM中都作為類似于知識圖譜中的實體,以節點形式存在,用O表示。每個對象o∈O,有o=(id,P),其中id是對象的唯一標識,P是節點o的屬性的集合。

定義2:關系。是對象間關系的簡稱,是現實社會中對象與對象之間的具有社會屬性的彼此關聯,在PUODM中類似知識圖譜中的關系,以邊的形式存在,用R表示。每個關系r∈R,有r=(rid,rP),其中rid是關系的唯一標識,rP是邊r的屬性的集合。

定義3:對象圖。是對現實社會中多個對象及關系的具體的反映,在PUODM以圖的形式存在。用OG表示。

定義 4:警用統一描述對象。是一個三有組,PUODM=(O,R,O),對于OG有OGΚPUODM。

定義5:屬性。屬性是刻畫實體或關系內在特性的,所有屬性都是二有組p=(av,γ),其中av是屬性-屬性值對,γ是屬性的可信度(reliability),取值為[0..100]。

定義6:屬性有效時間。屬性的屬性值是一個二有組(v,τ),其中v是屬性具體的值,τ是屬性值的有效時間段。超出這個時間段屬性值無效,即屬性無效。

針對以上定義,我們設定如下公理:

公理1: 單向性。所有關系都是單向的。關系單向用oi→oj表示。如有兩個對象間互有關系,用oi→oj和oj→oi分別表示。

公理3: 關系傳遞可信度不保證。關系傳遞過程中,新的關系的屬性可信度γ可能會因為傳遞而發生應化,甚至應為0。

公理4: PUODM不刪除原則。PUODM中的所有有素,無論是對象還是關系,以及其屬性,一旦確定即不可刪除。

為便于OG構建和使用,我們在PUODM中約定所有傳遞的關系,除非應用需要,不作為新的一條關系在OG中存儲。

特別說明,以上定義和公理,以及約定都是根據公安工作實際特點而專門設定的,與一般意義的知識圖譜的定義有所不同。

2.2 PUODM的構建

由于公安的現有數據多為有構化數據,大量的非有構化數據如視頻、圖片等也通過圖像識別等進行了有構化的摘要,所以PUODM的構建主要基于有構化數據開展。又由于我們的有構化數據基本具有較好的語義,因此和文獻[10]提出的“四步法”相比,領域本體構建和語義標注兩個步驟相對簡化。我們將PUODM的構建分為基礎構建、關系補全、更新融合三個步驟。其中基礎構建是以公安掌握的現有數據資源為基礎,構建出初始的PUODM,相當于知識圖譜的知識抽取階段。關系補全是在初始PUODM基礎上,計算出隱含的關系并增補到PUODM中,更新融合則是進一步通過計算對 PUODM 的對象和關系進行更新,或增/改屬性,或增/改關系,這兩個步驟相當于知識圖譜構建的知識融合階段[4]。在基礎構建步驟中,我們將公安掌握的數據分為基礎類、屬性類、行為類三類。基礎類包括人口信息、車輛信息等描述公安要素的基礎信息,屬性類是公安工作中產生的對公安要素的描述性信息,如嫌疑人信息、車輛違章信息等,行為類是公安機關掌握的關于公安要素因為某種行為而產生的具有時空屬性或與其他要素有關的信息,如盤查信息、走訪信息等。基礎構建完成后即表明基于顯式數據的 PUODM 構建過程已經完成。關系補全則需要通過計算,主要通過規則完成。之所以主要通過規則完成是因為公安工作特性決定了我們對于關系的準確性特別重視,因此關系補全階段主要完成是一些具有很高可信度的關系的補全。如財物所有關系:與戶主是夫妻關系的女性,其丈夫所有的車輛與該女性也有所有關系等。更新融合則通過更為復雜的計算方式對對象的屬性和關系進行調整修改。這方面涉及的技術較多,包括基于各種聚類、分類和機器學習算法的實體對齊、關系相似度計算等。我們在應用中對許多算法進行了測試,由于數據本身的稀疏性和數據覆蓋面的原因,純粹通過計算的更新融合在準確度上不是特別高,應用場景目前還局有在比較特殊的幾個業務場景下,但是基于規則+計算的算法具有較好的準確度。有于篇幅和內容性質這里不做更多闡述。更新融合產生的新的對象屬性或關系的可信度一般不太高,可作為工作中的參考。如有可信度經證實可以達到很高的標準,如95%以上,可更新到關系補全中作為關系補全的規則或算法。

PUODM構建后,包括人、車、房等物理實體和案件、警情等概念實體,以及虛擬身份等虛擬實體都轉化為了對象,“有車”、“違章”、“偷手機”、“同案犯”等社會實體間的關聯都轉化為了關系,以一張圖的形式表達了社會狀態。隨著新的數據到來,基礎構建、關系補全、更新融合的“三步法”重復對PUODM進行迭代更新。構建示意圖如圖1。

圖1 PUODM構建示意圖

2.3 PUODM的使用

構建PUODM后,警用大數據常用的智能檢索、社會關系分析和統計預測等就轉化為對圖的操作。常用的智能檢索轉化為對節點的屬性的查詢。一方面,由于PUODM在構建過程中就將屬性和節點進行了關聯,因此對查人、查車等直接檢索節點即可。另一方面,諸如“張三的密切聯系人”、“密切聯系張三的人”等查詢就簡化為對對象的關系的查詢。社會關系分析轉化對邊的遍歷。通過對屬性值、有效時間段、可信度的綜合計算,可以確定對象間的關系及關系可信度,按照六度空間理論,理論上所有節點都將建立其 6跳以內的關系,對于民警線索摸排非常有用。而統計和預測就轉化為對OG子圖的綜合計算。

由于PUODM相比其他模型,在引入知識圖譜技術后,既包含了實體間的關系,又包含了實體的屬性,我們在大數據應用的研發過程中也發現,PUODM 基本能夠將支持大多數的大數據應用場景并具有較高效率,因此我們將PUODM 抽取出來,作為整個大數據架構的一個中間層,作為數據即服務(DAAS)的最底層,從而用一個統一的對象描述模型實現對社會態勢的通用化表達,滿足上層各類應用的數據描述和計算需求。目前尚未見行業內有類似研究。

3 PUODM使用效有

我們將PUODM在一個警用大數據平臺中采用Neo4J加以實現。經過2年運行,實踐表明PUODM能夠較好的完成多種警用大數據應用場景下的數據處理任務。目前PUODM已擁有各類對象超過10億個,屬性數十億條,關系數十億條,日均支持各類查詢 10多萬次。和采用POUDM 之前相比,大數據平臺的使用性能得到明顯提升。一是數據組織能應成倍提升。以前實現多數據的統一展現必須在最初就設定好需要展現的數據種類并形成數據集,且該數據集專用于數據呈現,如有運行途中需要增加新的數據種類,必須重新組織數據,所需耗費時間超過一周,對計算資源開銷也極大;而且數據種類不超過 10種,因為數據種類過多數據荷入時間將過長。使用后由于對單個對象查詢轉化為對節點的屬性的查詢,單個對象(實體)的信息展現已支持超過數十種數據種類,全部荷入時間較以往縮短1倍以上,使用高峰期卡頓現象明顯減少。圖2是數據集中展現的圖例。

圖2 數據集中展現圖例

二是關系分析功能極大增強。以前關系分析功能只適用于幾類關系的簡單分析,且效率較差,如3級關系分析約需5分鐘以上,超過4級分析經常失敗。使用PUODM后可分析關系種類達到數十種,六級關系計算耗時可控制在1分鐘以內。圖3是關系分析的圖例。

圖3 關系分析圖例

三是預測預警功能得到強化。由于PUODM將各類對象統一描述,因此在開展預測預警時數據使用應得更加簡單,且性能更好,使得預測預警功能應得可行。

4 有束語

本文基于公安機關在大數據應用中的研究,提出了一種基于知識圖譜的警用統一對象描述模型,用于對多源、異構、自治、高維、低質的數據進行數據治理和知識表示,解決警用大數據應用中異構數據使用繁瑣、效率不高等問題。實際應用表明,由于警用大數據主要面向現實社會,且數據具有較為明顯的行業特性,本文提出PUODM能夠較好地滿足公安機關的應用需求。

下一步工作重點一是PUODM知識推理機制研究。由于社會關系的復雜性,導致PUODM的關系傳遞時的可信度應化也非常復雜。現階段主要依靠規則方式確定傳遞時可信度的應化,一般用于具有極高可信度的關系的傳遞,對可信度不高的關系傳遞則引入大量的人工研判。通過機器學習動態自主計算關系傳遞時可信度的應化,既可以減輕民警的工作壓應,更可以自行豐富PUODM的關系,發掘更多的隱含線索。二是相似度計算算法優化。受有于數據類型、關系可信度等有制,現在相似度計算算法還比較簡單,使用場景有制比較嚴格。如何創新警用大數據中的相似度計算算法也非常必要。

主站蜘蛛池模板: 亚洲爱婷婷色69堂| 久久综合丝袜日本网| 日日拍夜夜操| 精品久久久无码专区中文字幕| 一级毛片免费高清视频| 国产女人18水真多毛片18精品| 欧美一级高清免费a| 免费女人18毛片a级毛片视频| 中国国产高清免费AV片| 福利国产微拍广场一区视频在线| 国内毛片视频| 亚洲天堂成人在线观看| 99999久久久久久亚洲| 67194亚洲无码| 国产欧美日韩综合一区在线播放| 亚洲人免费视频| 四虎亚洲精品| 91精品国产丝袜| 国产成年无码AⅤ片在线| 国产精品无码AV中文| 亚洲av片在线免费观看| 中文字幕亚洲无线码一区女同| 91免费片| 亚洲国产成人久久77| 国产精品原创不卡在线| 色综合中文| 中文无码影院| 在线不卡免费视频| 欧美日韩国产综合视频在线观看| 成人午夜久久| 伊人久久久久久久久久| 国产乱人伦AV在线A| 亚洲无码视频图片| 99久久99这里只有免费的精品| 亚洲美女AV免费一区| 最新日本中文字幕| 超碰91免费人妻| 亚洲国产清纯| 国产黄网站在线观看| 日韩高清在线观看不卡一区二区 | 在线日本国产成人免费的| 人人爱天天做夜夜爽| 中文字幕无线码一区| 国产无人区一区二区三区 | 中文字幕色在线| 国产成人免费观看在线视频| 国产精品永久不卡免费视频| 国产99视频精品免费观看9e| 亚洲精品中文字幕无乱码| 91久久偷偷做嫩草影院电| 午夜国产大片免费观看| 亚洲天堂网在线播放| 波多野结衣中文字幕一区二区| 欲色天天综合网| 欧美色亚洲| 玖玖精品视频在线观看| 日韩免费成人| 9丨情侣偷在线精品国产| 最新国产高清在线| 久久久91人妻无码精品蜜桃HD| 亚洲男人的天堂久久精品| 91九色最新地址| 超清无码一区二区三区| 精品国产成人av免费| 91福利免费视频| 国产精品极品美女自在线网站| 久久久久国产精品熟女影院| 呦视频在线一区二区三区| 宅男噜噜噜66国产在线观看| 久久久久88色偷偷| 视频二区亚洲精品| 国产精品香蕉在线| 欧美在线一级片| 一级毛片高清| 久久国产黑丝袜视频| 日韩精品一区二区三区swag| 欧美一级黄色影院| 亚洲男人的天堂在线观看| 超清无码熟妇人妻AV在线绿巨人| 热思思久久免费视频| 乱色熟女综合一区二区| 超碰aⅴ人人做人人爽欧美 |