999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構數據源的政法信息共享平臺數據預處理系統研究

2017-10-12 06:58:04李志敏梁柏超賀文鋒陳俊健
電子設計工程 2017年19期
關鍵詞:規則信息

李志敏,梁柏超,賀文鋒,陳俊健

(1.中共佛山市委政法委員會 廣東 佛山 528000;2.廣東京奧信息科技有限公司 廣東 佛山528000;3.佛山科學技術學院 廣東 佛山528000)

基于異構數據源的政法信息共享平臺數據預處理系統研究

李志敏1,梁柏超1,賀文鋒2,陳俊健3

(1.中共佛山市委政法委員會 廣東 佛山 528000;2.廣東京奧信息科技有限公司 廣東 佛山528000;3.佛山科學技術學院 廣東 佛山528000)

針對分散在公安、檢察院、法院、司法部門的沒有信息共享平臺的現狀,提出了一個基于異構數據源的政法網平臺數據預處理系統。設計采用了在不改變政法系統架構的基礎上搭建政法信息共享平臺,以達到信息互通、資源共享。系統應用的實驗結果表明:基于規則庫的多級數據預處理算法通過連續的樣本訓練建立越來越完善的規則庫,不斷提高后續數據抽取質量,并通過上述多級規則庫匹配預處理策略,將其分步嵌入到數據應用系統中,除非常少的個別錯誤數據要單獨匯總處理外,臟數據輸出較少,預處理速度也比較適中;基于規則庫的數據預處理算法達到了政法信息共享平臺的建設目標,使政法業務信息在各職能部門能相互共享,且為領導決策提供及時可靠的依據。

異構數據源;信息共享;匹配預處理;預處理速度

Abstract:Based on scattered in public security, procuratorates, courts and judicial departments have no the present situation of the information sharing platform,proposed a network platform for data preprocessing of politics and law system based on heterogeneous data sources.Design adopted without changing of politics and law system framework built on the basis of the information sharing platform of political science and law,in order to achieve information exchange,resource sharing.System application of the experimental results show that the multilevel data pretreatment algorithm based on rule base through continuous sample training set up more and more perfect the rules of the library,and constantly improve the quality of the follow-up data extraction, and through the multi-stage rule base matching pretreatment strategy, the embedded in the data application system step by step,except the data on very few individual mistakes to separate aggregate processing, dirty data output is less, pretreatment are more moderate speed; Data pretreatment algorithm based on rule base is achieving the target of information sharing platform construction of politics and law,make the business information of politics and law in various functional departments can share each other,and provide timely and reliable basis for leadership decision-making.

Key words:heterogeneous data sources; information sharing; matching pretreatment; preprocessing speed

政法基礎信息共享平臺是從法院、檢察院、公安、司法等政法各個部門已有的信息管理系統中抽取、轉換和加載。經融合國安、監獄、勞教等數據,涉案包括人、物、地、組織、機構等多方面的信息,實現整個政法系統的基礎數據交換和共享[1-3]。但當前政法各部門的業務信息孤立不互通,其中一個重要原因是公安信息具有一定的特殊性[4-5]。公安信息被保護在邊界接入平臺內,要求信息不主動對外輸出。政法部門例如法院、檢察院、公安、司法等政法部門都已經擁有本部門的信息系統辦公平臺,各部門的信息資料得到了集中性的管理,并且信息的存儲量非常大,無法滿足部門與部門之間信息的迅速查詢需求[6-7]。在采集、整理政法業務數據時,會發現政法業務的異構源數據與其它部門或行業數據相比存在顯著特性,如周期性、地域性、時變性等,其收集或抽取的數據量較大、來自多個數據源[8-9]。綜合上述,現有系統應用與開發有待統籌規劃,信息集成和綜合利用的程度有待提高,在建設和開發的過程中缺乏統一有效的標準化與規范化管理。為實現對政法網異構信息14類45項數據的整合,構建一個基于異構數據源的政法網平臺數據預處理系統,重點就集中在對數據共享平臺的數據質量的有效控制,而數據質量可以從數據集成和數據預處理角度來討論[10-11]。

云計算、物聯網、社交網絡等新興服務促使人類社會的數據種類和規模正以前所未有的速度增長,大數據時代正式到來。數據從簡單的處理對象開始轉變為一種基礎性資源[12-13]。國外針對大數據時代的數據預處理技術發展很快,產生了一批成熟的商業化產品。各大數據庫廠商在提出一整套用以建立和使用數據倉庫產品的同時,也提供了一些基本的數據預處理工具,其內部實現為通過編寫腳本或使用數據預處理算法,應用預處理策略去修正錯誤,消除數據的不一致性,使其轉化為符合聯機分析處理和數據挖掘等所需要的數據。特殊領域預處理工具,如FirstLogic公司的IdCentric產品、Oracle公司的PureIntegrate產品、TrilMiumSoftware的UM產品。消除重復的一類工具是根據匹配的要求探測和消除數據集中的重復記錄。如EDD公司的DataCleaner、HelpITSystems公司的Matchit。一般領域的預處理工具,數據壓型工具如Evoke Software公司的Migration Architect產品,數據挖掘工具如WizSoft公司的Wizrule,數據重建工具如Vality公司的Integrity[14-15]。近年國內對于數據預處理技術的研究日漸成熟。董麗提出采用于稀疏數據集的協同過濾算法進行數據的預處理。對于Web日志作為主要Web挖掘數據源的情況,劉立軍根據Web日志的特點,對Web數據的一些特殊情況采用一種最大向前引用序列挖掘算法進行數據的預處理。翟東升針對目前專利分析的數據存在來源單一、預處理操作不夠、可挖掘程度淺等問題,設計并實現了一種異構專利數據源集成方案。

1 異構數據源分析

政法業務數據主要來自于以下幾個政法部門:公安局、檢察院、法院、司法局等。這些部門在信息數據交換中,可以選擇人工方式或者接口定制開發。但很明顯,對交換共享出去的數據無法做到有效監控和管理,這樣無疑是加大了工作的成本與時間,也無法實現部門與部門之間信息的迅速查詢需求,很難為上級領導決策提供及時可靠的依據,更不能及時了解整個社會的治安情況。通過調研分析知道,政法業務數據與其他部門或行業數據相比存在以下顯著特性:

1)具有很強的地域性

各個片區的涉案人數,案發地,作案特點等存在顯著差異。

2)影響因素眾多

社會生活的變動,季節、天氣的變換以及時段的不同等都會對案件數據產生影響。

3)數據量大

每年有約上萬宗刑事案件,涉案數據(包括人、物、地、組織、機構)多達一千多萬條,累積下來是個非常龐大的數字。

4)時變性

案件數據與時間緊密相關,隨著時間經常發生變化。不但每小時、每日變化,周、月、季、年也呈變化性,但是這個變化一般具有周期性。

5)周期性

除了受突發事件影響外,各個時段的案發曲線通常呈現相同的趨勢,基本相互保持平行。

6)模糊性,臟數據多

有相當部分基層案件數據采用人工的方式獲取,如當場記錄文字、拍攝圖片等。而與另外一批人真正錄入系統的信息,存在一定的偏差,特別是一些突發事件、關鍵線索不能得到及時、準確關聯,會導致案件數據失去實際意義。

7)多媒體文件比較多

案件數據中單獨的圖片、視頻、音頻等媒體文件比較多,要專門進行存儲。還有部分檔案是影印件,也是以圖片文件方式進行保存。用戶操作不規范引起的錄入錯誤或不完整、單位合并或變更等等,都會直接影響入庫的數據質量。但大部分此類數據的存在,由于并沒有影響到事務處理系統的正常運行,使得它們并沒有引起太多的注意。

這就要求我們在政法信息資源整合的過程中,要對異構數據源按照一定的規則條件進行數據預處理。再對規范后的信息搭建數據共享平臺,讓各個政法職能部門通過平臺提供的綜合查詢和請求接口服務來獲取政法共享信息。

2 政法信息共享平臺架構設計

政法信息共享平臺搭建在信息共享區內,信息流分別從政法網接入區通過政法專線,穿越邊界保護區,進入信息共享區的數據共享層。圖1是政法信息共享平臺總體架構圖。

圖1 政法信息共享平臺總體架構圖

政法信息平臺數據預處理流程包括異構數據源信息采集和數據預處理兩個部分。貫穿整個過程包括元數據管理、調度管理、日志管理、數據傳輸管理和數據監控。

異構數據源信息采集提供兩套數據抽取解決方案,即大數據量實時同步方案和普通定時同步方案。大數據量實時同步方案主要使用在數據源端數據量大,且數據實時性要求高的情況,抽取時需要源端數據庫開放高級權限,提取日志文件并分析其變化實現數據同步的效果。普通定時同步方案主要是需要源端數據庫開放權限并實現較高頻率的定時數據同步,如不能開放權限的,使用較低頻率的數據視圖同步方案實現。

通過分析政法業務的數據收集,發現其收集或抽取的數據量較大且來自多個數據源。通過在數據預處理中增加規則庫策略,加強了入庫數據的規范化以及數據的完整性和一致性,為數據應用和共享提供了可靠基礎。

預處理轉換后的數據要存入共享平臺數據庫,數據庫是按照各種業務的特點建立相關的資源數據庫,并提供給各個業務系統使用。建設數據庫時,使用定時捕獲變化數據策略并加載復雜數據轉換、整合邏輯等模塊再進行入庫。

數據同步和數據預處理階段自動生成各種操作日志和節點日志,建立對操作日志進行監控、預警的監控平臺。另外在監控平臺中引入對數據質量的監控,如數據行為分析的監控和預警。

在上述體系結構中采用多層、可擴展框架結構,使其具有高度的擴展能力和方便的系統開發和維護性能,符合目前流行的多層應用結構,適合數據庫多階段、多層次的應用特點。

3 政法信息數據預處理關鍵技術

數據預處理的目的就是檢測出臟數據并修復它們,而當前的預處理工具主要是通過執行一系列的預處理規則函數來完成臟數據的預處理,這些工具主要存在以下缺陷:

1)可擴展性差

由于它們的預處理規則是事先定義好的,一般不能擴展和修改,所以有限的預處理操作不能完全滿足用戶多變的需求。

2)缺乏對動態數據預處理的能力

對于用戶提出新的預處理規則和建立的新表,原預處理系統無法應用新規則去預處理新建立表中的新數據,形成高質量的數據。

因此,當前的數據預處理產品主要缺點是缺乏可擴展性和靈活性,這些嚴重阻礙了預處理數據的共享和傳播。為了解決上述問題,針對政法異構信息源的特點構建了一個基于規則庫的多級數據預處理框架。

如圖2所示,多級數據預處理流程是:針對該特定業務數據,通過行業專家、部門操作員訪談分析整理出第一級預處理指標,并按照錯誤分類整理的字典信息,確定預處理規則格式,制定基礎規則庫;再選取樣本數據集實現基于規則庫的二級預處理,并檢測、評估預處理規則及相應算法,從而通過評價匹配最佳預處理規則實現干凈數據的加載提取;三級預處理進入政法業務抽取數據庫,按照預處理效果,還可以通過算法及人工加入新的預處理規則、擴展規則庫,進行回溯后再預處理。

共享平臺通過連續的樣本訓練建立越來越完善的規則庫,不斷提高后續數據抽取質量。通過上述多級規則庫匹配預處理策略,將其分步嵌入到數據應用系統中,除非常少的個別錯誤數據要單獨匯總處理外,基本實現了數據規范化,為進一步的數據應用、共享提供了可靠基礎。

多級預處理的規則庫框架如圖3所示。在處理數據質量問題時,第一級預處理的制定、考量的角度及相應的指標均是由相關領域專家、研究人員的訪談結果中抽象化得到的,以最大程度契合研究人員的預處理需求。評級指標體系將用戶可能需要的劃分維度進行整理匯集,一定程度上避免了用戶自定義預處理維度的必要性,只需要在已有指標中界定具體賦值,即可獲得較為理想的預處理結果。

預處理方法兼顧了數據完整性和可回溯性,便于預處理結果的進一步優化。在實際使用過程中,如果預處理人員發現最終預處理結果有明顯的案件信息不完整、關鍵數據缺失,可以進行層次回溯,找到預處理規則漏洞的存在環節。三級預處理機制首先可以提高査找規則漏洞的效率,例如在最終預處理素材庫中發現缺少法院的審判信息,可以在二級預處理結果數據庫中進行査找。如果在二級預處理結果中該信息存在,僅為三級預處理的規則配置不合理,可以相對小范圍內進行漏洞定位及修改。如果在二級預處理結果中不存在,則向上迭代。三級預處理機制的另一個優點在于回溯排查過程中需要處理的數據庫體量較小,減少運算量及運算時間。可以在相對較小的數據范圍內進行排查、校驗。

圖2 基于規則庫的多級交互式數據預處理框架圖

圖3 多級預處理的規則庫框架

4 系統測試

為了驗證共享平臺數據預處理算法的有效性,測試采用隨機從異構數據源中采集10000條記錄的方式,并用傳統的直接映射過濾數據預處理算法與采用基于規則庫的多級交互式數據預處理算法分別進行驗證。

實驗的硬件配置及軟件環境見表1。

實驗結果顯示,如果采用傳統的直接映射過濾算法,處理10 000條記錄花費總時間為16 688.54 s,其中映射過濾算法占用7 456.31 s,臟數據輸出354條。而采用多級規則庫技術后,處理同樣多的記錄,預處理算法花費時間為8 762.54 s,臟數據輸出19條。

實驗結果表明基于規則庫的多級數據預處理算法通過連續的樣本訓練建立越來越完善的規則庫,不斷提高后續數據抽取質量,并通過上述多級規則庫匹配預處理策略,將其分步嵌入到數據應用系統中,除非常少的個別錯誤數據要單獨匯總處理外,臟數據輸出較少,預處理速度也比較適中。

表1 實驗環境

5 結束語

我國的地級市平均每年有幾萬宗刑事案件,近百萬人次的涉案犯罪嫌疑人員,多達千萬條涉案信息。由于涉案信息逐年累積,各部門基礎信息量的存儲量越來越龐大。政法數據共享平臺必須將這些海量的異構源政法數據進行有效融合,構造成信息量更龐大的基礎信息庫為政法委系統內的各部門提供數據服務,解決這一問題的實質就是大數據的處理問題。

“高效收集”是大數據的核心點之一,也是它的研究基礎,是重中之重。本信息共享平臺通過利用掌握政法體系的領域知識,充分分析數據特點后,建立了可靠、高效的自動化數據預處理框架,它通過對數據進行回溯后再預處理這種多級處理模式,達到對政法數據規范化、標準化的目的。為后續的政法大數據的組織與使用提供了統一的查詢管理平臺,方便了政法信息的綜合利用。

通過實測對比數據,可以看出這種基于異構數據源的政法網平臺數據預處理系統花費時間沒有明顯改變,但數據預處理效果有明顯提高,要人工處理的臟數據大大減少。基于規則庫的數據預處理算法達到了政法信息共享平臺的建設目標,使政法業務信息在各職能部門能相互共享,且為領導決策提供及時可靠的依據。

[1]馬敏,王伯波,薛倩,等.基于數據融合的ECT圖像重建算法[J].儀器儀表學報,2015,36(12):2798-2803.

[2]張猛,曾永年.基于多時相Landsat數據融合的洞庭湖區水稻面積提取[J].農業工程學報,2015,12(13):178-185.

[3]張燕君,劉文哲,付興虎,等.基于TTDF和CNS算法的多路BOTDR散射譜信息高精度分析研究[J].光譜學與光譜分析,2015,12(7):1802-1807.

[4]趙建忠,徐廷學,葉文,等.基于數據融合和改進MUGM(1,m,w)的導彈裝備故障預測[J].系統工程與電子技術,2015(4):832-837.

[5]李巧茹,趙蓉,陳亮,等.基于SVM與自適應時空數據融合的短時交通流量預測模型[J].北京工業大學學報,2015(4):597-602.

[6]冀俊忠,柴鷹,貝飛,等.基于時間片劃分和多元數據融合的異質媒體網絡社會事件發現[J].北京工業大學學報,2015(8):1165-1171.

[7]周勇,王嫚,劉奇,等.基于數據融合濾波算法的EMA故障自修復策略[J].西北工業大學學報,2015(2):204-208.

[8]石月嬋,楊貴軍,李鑫川,等.融合多源遙感數據生成高時空分辨率數據的方法對比[J].紅外與毫米波學報,2015,34(1):92-99.

[9]張艷超,肖宇釗,莊載椿,等.基于小波分解的油菜多光譜圖像與深度圖像數據融合方法[J].農業工程學報,2016,32(16):143-150.

[10]薛見新,申德榮,寇月,等.面向數據融合的半環溯源計算方法 [J].計算機研究與發展,2016,53(2):316-325.

[11]楊元喜.綜合PNT體系及其關鍵技術[J].測繪學報,2016,45(5):505-510.

[12]孟小峰,杜治娟.大數據融合研究:問題與挑戰[J].計算機研究與發展,2016,53(2):229-246.

[13]黃丁發,周樂韜,盧建康,等.GNSS衛星導航地基增強系統與位置云服務關鍵技術[J].西南交通大學學報,2016,51(2):388-395.

[14]朱君,秦柳麗,傅得立,等.一種石墨烯波導褶皺激發表面等離子體激元的設計[J].光子學報,2016,45(2):40-45.

[15]朱君,李志全,秦柳麗,等.MIM結構中腔的物理性質對SPP傳播的分析 [J].紅外與激光工程,2015,43(3):852-856.

Research on data pretreatment system of politics and law information sharing platform based on heterogeneous data sources

LI Zhi-min1, LIANG Bo-chao1,HE Wen-feng2,CHEN Jun-jian3
(1.Municipal Committee of Political Science and Law Committee of The Communist Party of China Foshan, Foshan528000,China; 2.The Guangdong Beijing Information Technology co., LTD., Foshan528000,China; 3.Foshan Institute of Science and Technology, Foshan528000,China)

TN273

A

1674-6236(2017)19-0038-05

2016-09-21稿件編號201609187

李志敏(1960—),男,廣東佛山人。研究方向:政法信息網絡構建,政法系統數據存儲、共享。

猜你喜歡
規則信息
撐竿跳規則的制定
數獨的規則和演變
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規則對我國的啟示
搜索新規則
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产精品人人做人人爽人人添| 超清无码熟妇人妻AV在线绿巨人| 4虎影视国产在线观看精品| 少妇极品熟妇人妻专区视频| 在线国产毛片| 在线视频97| 亚洲精品图区| 欧美A级V片在线观看| 亚洲综合精品香蕉久久网| 免费一级毛片在线观看| 亚洲伊人久久精品影院| 91啦中文字幕| 亚洲精品在线91| 精品国产www| 日韩 欧美 小说 综合网 另类| 青青极品在线| 日本不卡在线视频| 成人午夜视频免费看欧美| 57pao国产成视频免费播放| 99久久精品久久久久久婷婷| 久久久黄色片| 亚洲成a人片在线观看88| 在线播放国产99re| 69精品在线观看| 久久一本精品久久久ー99| 无码精品福利一区二区三区| 国产精品第一区| 四虎成人精品| 日本高清在线看免费观看| 老司国产精品视频| 美女视频黄频a免费高清不卡| 国产美女91视频| 国产成人毛片| 欧美色香蕉| 国产乱子伦精品视频| 91在线精品免费免费播放| 在线播放真实国产乱子伦| 国产午夜福利片在线观看| 98超碰在线观看| 国产精品私拍在线爆乳| 福利在线一区| 久久青草视频| 国产在线91在线电影| 日本精品视频一区二区| 国产91无码福利在线| 欧美在线精品怡红院| 污视频日本| 国产本道久久一区二区三区| 久久99久久无码毛片一区二区 | 日韩精品免费一线在线观看| 国产成人精品视频一区二区电影| 国产女人喷水视频| 亚洲日本中文字幕乱码中文| 亚洲天堂伊人| 黄色一级视频欧美| 国产无码精品在线播放| 日本久久网站| 国产福利小视频在线播放观看| 国产精品久久久久久久久久久久| 国产成人三级在线观看视频| 国产精品亚洲精品爽爽| 日韩 欧美 国产 精品 综合| 91亚洲精选| 婷婷色一二三区波多野衣 | 中文字幕在线不卡视频| 国产激爽大片高清在线观看| 欧美日本在线一区二区三区| 久久综合九色综合97婷婷| 青青草一区二区免费精品| 漂亮人妻被中出中文字幕久久| 中文字幕有乳无码| 69视频国产| 久久精品亚洲专区| 亚洲精品在线影院| 午夜激情婷婷| 精品国产www| 欧洲欧美人成免费全部视频 | 久久国产香蕉| 国产精选自拍| av手机版在线播放| 日韩人妻无码制服丝袜视频| 国产成人精品免费av|