程 玲 聶羅娜
(江西警察學院,江西 南昌 330100)
大數據時代的到來,使得裁判文書、資料從傳統紙質轉變為了電子形式,而且信息技術的應用,也使得政法信息數據呈現出了爆發式增長態勢,巨大的數據信息資源給實際工作的開展帶來了較大壓力。因此業內針對政法信息平臺的研究主要集中在信息檢索服務方面,但由于公安信息其本身的特殊性,要求其不得主動對外輸出,雖然各政法部門內部的信息系統得到了集中管理,但是仍然不能夠滿足部門間的信息查詢共享需求,為解決這一問題,文章從異構數據源角度入手,針對信息共享平臺數據預處理展開分析,對于打破政法部門信息共享壁壘有著重要意義。
異構數據源是指不同數據庫管理系統間的數據。在信息化建設的過程中,由于不同業務系統以及實際管理系統的建設時間、方式、技術水平等各不相同,而且還存在其他經濟、人為等多方面因素影響,在長期積累之下,形成的大量業務數據其存儲方式、管理系統等均存在較大差異,不僅存在簡單的文件數據庫,還存在復雜的網絡數據庫,這些共同形成了異構數據源。數據源的異構性主要表現在以下三個方面:第一,系統異構,即數據源所在的業務系統、數據庫管理系統以及操作系統之間各不相同,而表現出的系統異構;第二,模式異構,是指數據源存儲模式不同,存在關系模式、對象模式等多種形式;第三,來源異構,即數據來源不同[1]。
政法數據主要是由公安局、檢察院、法院以及司法局數據共同組成。在實際進行數據信息交換的過程中,多通過接口定制開發以及人工方式進行傳輸共享,因此相應數據信息共享效率較低,也無法對其進行科學監控和管理,極大地增加了實際工作成本、降低了信息查詢效率,對于實際工作有著不良影響。通過對政法信息的研究和調研,發現與其他行業或者部門相比,政法數據信息存在以下明顯特征,使得其數據源異構性更為突出。
1.地域性。政法數據涉及的范圍相對較為廣泛,而不同片區的涉案人數、案發地以及作案特點等各不相同,因此形成的數據也不同,有著極強的地域性特點。
2.影響因素多。政法數據主要是由案件數據組成的,而案件數據會受到社會生活、季節、天氣以及時間段的影響。其中以時變性較為突出,案件發生的數據特點、數據量等,與時間之間有著密切的關系,會隨著時間的改變而發生變化,不僅包括每個小時、周、月,而且有著明顯的季節性特征,也會隨年發生改變,并伴有一定周期性,在沒有受到突發事件的影響時,基本能夠維持其周期性特點。
3.數據量龐大。每年發生在全國各地的刑事案件非常多,由此產生的數據信息,包括人、時間、事件、地點以及組織、機構等,積累的數據量也非常龐大。
4.干擾數據多。由于數據收集的時間、方式不同,部分數據是基層人員通過人工方式獲取的,如文字記錄、圖片拍攝等,而將數據信息錄入系統的是另一部分人,因此數據錄入過程中可能會存在偏差問題,影響數據的真實性,尤其是在出現突發事件時,或者關鍵線索無法及時獲取、關聯時,就會導致案件數據失去價值。
基于政法數據其本身的異構特點,給政法信息共享帶來了極大的影響,想要實現數據的高效共享,在進行數據信息資源整合的過程中,需要對異構數據源進行事先預處理,然后再將其引入政法信息共享平臺的數據庫當中,以此確保各執法部門之間能夠按照實際需求以及權限等級,合理合法地獲取相應政法信息,切實實現政法數據共享[2]。
政法信息共享平臺數據預處理系統結構主要包括異構數據源采集以及數據預處理兩個部分,政法信息共享平臺搭建在信息共享區域內,信息流從公安局、法院、檢察院以及司法局等各個政法部門,通過政法專線,然后穿越共享平臺邊界保護區,將其收集到政法信息共享平臺當中,共享平臺對異構數據源進行預處理,進而形成信息共享平臺數據庫。整個信息共享平臺不僅包括元數據管理、調度管理、日志管理以及數據傳輸管理,同時還包括數據監控功能。
根據政法數據的異構特點,異構數據信息源的采集主要包括以下兩種方式:其一為大數據量實時同步采集,其二為普通定時采集。其中,前者主要應用在數據量較大的數據源端,多用于對實時性要求較高的數據采集當中,在進行采集和抽取的過程中,需要源數據端開放高級權限;而普通定時同步采集則需要數據源端開放權限,然后定時進行高頻率數據同步,若無法開放權限,則需要使用低頻數據同步方式。
此外,由于政法數據來源廣泛,為保障數據收集質量和效率,在進行預處理的過程中,還需另外設置規則庫策略,通過對數據信息的規范化處理,以此保障數據的完整、真實和一致,為后續政法數據信息的共享奠定良好基礎。
經過數據預處理后的政法數據需要存入共享平臺數據庫當中,為保障后續數據調取應用的便利性,數據管理的高效性,需要按照不同業務特點、要求,對數據資源庫進行合理劃分,以供不同業務系統使用。在進行數據使用時,需要對數據變化情況進行定時捕獲、加載轉換,并經過整合處理后,方可入庫。
在進行數據采集、預處理、管理以及存儲的過程中,系統能夠自動生產相應操作日志,并通過建立監控管理平臺,實現對于數據操作處理方面的管控,并對數據行為進行分析和監控預警。
基于上述方法構建的信息共享平臺數據預處理系統,采用了多層可擴展框架模式,在維護管理方面有著較高的便利性,而且還具有較強的可擴展空間和能力,符合政法數據特點,以及信息共享要求。
基于政法數據其本身的異構性特點,數據預處理的主要目的就是實現數據的有機提取、整理,以及臟數據的檢測和處理,以此確保被納入數據庫中的數據信息的準確性、可靠性以及完整性,為后續政法信息的共享奠定良好基礎。就目前實際情況來看,數據預處理主要是借助規則函數實現的,但是此類處理工具存在可擴展性較差、動態數據預處理能力較差等方面的問題,會對數據預處理的質量和效率造成極大影響。對此,結合政法異構數據源實際情況,著重從數據預處理框架、數據抽取、整理以及數據庫的設計四個方面展開分析[3]。
2.3.1 處理框架
異構數據源下的數據預處理存在較大難度,為保障數據處理效果,提出了基于規則庫的多級交互式數據預處理模式。該框架模式下的數據預處理流程主要包括以下幾個步驟:第一,根據不同特定業務數據,組織行業專家以及操作人員展開訪談,并結合實際業務情況,明確第一級預處理指標,然后對錯誤分類信息進行整理,進而形成錯誤分類字典,確定預處理規則,并制定基礎規則庫;第二,選取相應樣本數據,按照基于規則庫進行二級預處理,先對樣本數據集進行數據檢測,并針對相應算法以及規則進行評估,從中選擇最佳預處理規則,并通過數據學習、規則學習,形成動態預處理規則,以此進行數據的二級預處理;第三,三級預處理,主要是根據相應業務需求,在數據庫中進行數據抽取,并結合實際抽取問題,進行算法調整、規則維護等,最后評估預處理效果,找到規則當中的漏洞,結合實際需求,在相應預處理環節當中,加入其他算法或者預處理規則等,完成預處理。
2.3.2 數據抽取
相應數據預處理規則,是在連續樣本訓練的基礎上建立起來的,能夠有效提高后續數據抽取的質量。在進行數據抽取的過程中,通過預處理規則庫進行預處理策略匹配,然后將數據分布嵌入相應的應用系統當中,除了需要對少量錯誤數據進行匯總處理外,大體上能夠實現對于政法異構數據源的規范處理,為后續數據的進一步應用奠定了良好的基礎。
在進行數據抽取時,需要基于觸發詞算法對文書段落進行劃分,觸發詞主要包括開始、結束兩種,在進行數據抽取的過程中,若匹配到某段落當中的開始觸發詞,則認為該段落開始,直至匹配到結束觸發詞,或者下一個開始觸發詞為止。然后進行關鍵詞的抽取,抽取流程主要包括以下四個步驟:第一,對文書進行拆分,將其劃分為數字、字母以及字符等不同類型;第二,在拆分后的文本當中,匹配所需要抽取的字符串,統計該字符串出現的次數,以及文書中詞匯的總數量;第三,計算互信息;第四,獲取候選詞,進行拆分匹配后,當相鄰字之間的互信息大于閾值時,繼續匹配,并計算互信息值,直至匹配到的互信息值小于閾值,并將這兩個字之間的字符串作為候選詞;第五,計算鄰接熵,通過判斷鄰接熵與閾值的大小關系,確定是否將其加入詞表當中。
2.3.3 數據整理
在數據資源采集預處理完成之后需要將其統一收錄在共享平臺數據庫當中,并對其進行數據信息整理,為數據的儲存管理以及提取應用奠定良好基礎。對此,應結合實際數據信息情況特點,構建數據標準系統,充分結合國家標準要求、部門標準要求以及省級標準要求,將現有的數據表結構、代碼表、格式標準等納入數據資源庫當中。
數據結構標準方面,需要將當前政法部分的信息化標準數據結構進行全面收集,不僅包括字段中英命名、數據類型、數據長度,還應包括相應約束條件等,全部收錄導入共享平臺當中。在數據代碼標準方面,政法系統當中的各個部門已經建立了業務系統,而且不同系統有著獨屬于自己的系統代碼,對此,需要對現有代碼表進行分析,并根據相關標準以及政法數據中心資源庫,以及不同業務部門特色,制定新的代碼標準,建立統一代碼庫管理平臺。在數據格式標準方面,由于政法數據格式類型相對較多,需要針對文件、數據庫等不同格式類型進行標準制定,并明確加密存儲要求,如日期、時間、數據等方面的格式。此外,還需要根據國標、部標等相關標準要求,明確數據展示標準,尤其是特殊字段類型的展示,應進行統一規定管理。最后,還需要對數據標準進行定期維護管理,定期按照國標、部標等相關標準對各類數據結構、代碼等在系統平臺當中的標準規范進行維護,并對數據結構、代碼的更新情況等進行定時監控。
2.3.4 數據庫設計
數據庫設計主要包括以下幾個方面:第一,資源目錄與任務調度控制部分表的設計,主要包括資源目錄共享服務信息表,關聯調度控制任務表,以及屬性表、權限表和日志表等。第二,用戶系統與安全審計部分表設計,主要包括用戶信息表、關聯日志表、權限表、安全審計表以及支持用戶管理和安全審計業務方面的表。第三,點對點交換與交換調度控制部分表設計,主要包括部門資源目錄表、關聯調度控制數據同步表、點對點統計表,以及日志表、監控表等。第四,共享信息目錄部分表設計,主要包括數據共享信息表、共享數據來源表、權限表以及記錄表等。第五,接口與應用配置部分表設計,可通過分層設計方式,主要包括接口配置表、業務數據表以及查詢字段表等[4]。
綜上所述,政法數據信息其本身有著極強的多源異構數據特點,不僅數據來源不同,而且受到的影響因素較多,數據信息共享難度較大。因此,需要針對異構數據源,對數據預處理系統進行設計研究,基于規則庫的多元數據預處理系統設計方法,能夠在數據樣本訓練不斷增加的情況下,逐漸完善規則庫,提升數據預處理效果,保障數據抽取質量,而且預處理速度相對較為穩定,不會造成較大延遲影響。相信隨著度異構數據源的深入研究,以及數據預處理系統的不斷優化,政法信息共享平臺的應用質量和效率都將會得到極大提升。