王 璨
赫章縣人民檢察院,貴州 赫章 553200
大數據究竟是什么?大數據既不是技術也不是產品[1],它是一種時代特征。大數據意味著龐大的數據量,但絕不僅僅是數據大[2]。不難看出,大數據對于不同的行業其含義會有差別,對檢察機關來說,“智慧檢務”中的大數據不是一個獨立的數據量,而是收集大量的數據,根據不同的需求對相應的數據進行分析得出不同的結果,最后將這些數據信息進行存儲的一個完整的數據處理過程。

大數據處理系統情況表
我院現在使用的系統多數屬于批量數據和交互式數據處理系統,如統一業務應用系統、電子卷宗系統、律師閱卷系統等。
我們更多地將圖數據處理應用于內部網站與其他。內部網站匯集各類信息數據,通過圖數據處理之后,在“數據統計”中利用統計圖表現出文章的總站提交、其他提交與發布總量的數量關系。門禁系統將人臉、姓名、時間這幾個節點聯系在一起,得出的分析結果就是干警職工是否在規定時間內簽到,有無早退或遲到現象。指紋識別門禁系統更新少,對于各干警職工的指紋數據重復利用,結合指紋圖像數據精確識別各人身份。
大數據的特征是海量數據,海量數據包括數據量、數據格式等,淘寶與百度的海量數據來源于不斷增長的用戶訪問量與高效的數據分析處理速度。我院的數據因為工作的特殊性局限于公安、法院,數據來源少,數據格式單一,并且公檢法司4家單位沒有形成數據共享鏈,數據量就更小了,這不符合大數據的海量數據特征。
數據的有效性(可用性)是大數據應用的價值問題。數據質量保證我們從海量數據中取得正確信息,現實工作中,我們取得的數據大部分需要進行再次篩選,如何保證數據的一致性、精確性、時效性和完整性是我們面臨的一大難題。
數據根據不同的需求還有很多隱藏價值,數據量越大,其隱藏價值越多。流式數據處理系統可以在實時數據中挖掘有效數據,關聯性分析發現存在于大量數據集中的關聯關系,從而描述事物中某些共同屬性的規律和模式。我們現有的應用系統從設計架構上就缺乏統計相關分析、互信息、矩陣計算等算法設計,并且對學習性和探索性思想也不夠重視。
通過上述分析我們可以得出檢察機關現在處于大數據初級階段,與真正意義上的大數據還有一段距離,這需要我們持之以恒的改進與努力,不僅僅是系統設計上的改變,還包括人才的培養,思想意識上的學習,未來我們將會進入檢察機關AI時代,人工智能的普及使用是大數據應用的發展趨勢,我們要從各方面做好準備,迎接AI時代。