朱孝軍
(長三角信息智能創新研究院,安徽 蕪湖 241000)
黨的二十大報告中對社會治理領域進一步提出要求:一是積極發展基層民主,完善基層直接民主制度體系和工作體系;二是完善社會治理體系,構建網格化管理、精細化服務、信息化支撐的社會治理平臺,及時把矛盾糾紛事件化解在基層、化解在萌芽狀態。
隨著社會經濟的發展和城市的人口逐漸增多,社會成分復雜,社會多元化矛盾事件此起彼伏。由于社會變革的加劇,利益格局的調整,社會民情的復雜化導致矛盾糾紛有明顯增長的趨勢,呈現出復雜化、多元化、群體化、疑難化等特征。針對社會基礎信息來源復雜、格式不一、社會問題矛盾糾紛事件處置遲緩的現狀,設計基于多源異構數據融合的社會治理信息系統,通過信息化手段賦能多元化矛盾化解,整合多源異構數據資源,使社會管理人員及時掌握矛盾事件精準數據,構建社會事件處置體系機制,將矛盾糾紛事件化解在萌芽階段,防止事件進一步繼續擴大,使事件得以及時、便捷、公正、妥善解決,對于社會穩定、經濟與社會的協調發展具有重大意義。
面對社會管理工作中存在的物業投訴居高不下、反饋渠道單一、信訪工作壓力較大、缺乏完整事件處置機制等諸多問題,社會治理信息系統從社會治理現代化改革出發,以“街鄉吹哨、部門報到、投訴即辦”社會管理機制為方向,圍繞多層級事件處置功能為核心,構建信息化智能化的事件處置機制。
社會治理信息系統總體架構主要分為三個層級,分別是社會數據庫、多層級事件處置模塊和應用層,如圖1所示。

圖1 總體架構
社會數據庫獲取多來源于異構數據,如基層歷史數據、社會攝像數據、系統輿情數據和車房登記數據,統一格式后分類存儲到對應的專題庫中,如社會人口專題庫、社會車房專題庫、社會事件專題庫。存儲的相關數據輸入上級模塊,在多層級事件處置模塊中實現事件對接、事件詳情、事件受理、事件分派、事件下發、事件處置、事件吹哨、結果反饋等功能,對事件實現及時合理處理。在應用層管理人員能進行人口數據管理、車房數據管理、多層級事件處置,居民則可以通過治理平臺或小程序進行問題上報、處置評價和個人中心信息的修改。
社會治理信息系統的數據架構以數據庫和數據倉庫Starrocks為中心,實現和外部系統的數據交換和數據服務,如圖2所示。

圖2 數據架構
數據庫中包含基礎數據、業務過程記錄和對外交換的數據庫,并統一備份存儲在Starrocks 數據倉庫中。通過交換庫和政務數據共享交換平臺進行數據共享交換,通過數據庫和社會服務業務切割進行封裝業務服務。外部系統通過頁面集成實現系統集成,數據庫進行數據服務,并且外部業務庫的數據能夠回流到數據庫中,實現數據的增量和沉淀。
社會治理信息系統的部署架構以社會治理平臺和社會治理小程序為核心,用戶通過客戶端以API接口形式獲取信息,如圖3所示。

圖3 部署架構
用戶通過手機移動信號或電腦有線信號,通過系統網關請求代理與轉發服務,將請求的域名地址通過SSL加密數據交換轉發到服務器。應用服務器部署數據接口服務,數據接口服務與業務數據庫進行數據交換,把交換的數據通過API 接口形式提供給客戶端。Redis 服務器主要提供緩存服務,減少數據庫交換次數,從而降低數據庫的訪問壓力。地圖服務器提供地圖服務,為管理人員和居民提供實時地理信息。
社會治理信息系統的數據來源于基層社區歷史已有的規范標準信息,如人、房、企、事、物數據;社會面攝像頭獲取的視頻和圖片數據;政府系統和本地App 獲取的社會輿情數據以及車企和房企登記的車輛和建筑物數據等。這些多源異構數據無法直接獲取及時有效的信息,需要通過數據ETL 清理、本體構建和關聯分析來進行數據的規整和融合。
后臺獲取不同來源的數據具有廣而雜的問題,結構化、半結構化、無結構化的數據之間存在異構的問題,難以直接從中獲取有效的信息。通過數據接口獲取源數據之后,首先對其進行ETL 清理。ETL 是Extract-Transform-Load 的縮寫,表示將數據從源端經過抽取、交互轉換、加載到目標端的過程,ETL的流程如圖4所示。

圖4 ETL流程
李佳倩等人[1]設計了完善的ETL流程處理大規模的互聯網新聞輿情數據,通過結合ETL工具和SQL語句,依據正確性、完整性、一致性、完備性、有效性、時效性和可獲取性的原則,通過空值處理、規范化數據格式、拆分數據、驗證數據正確性、數據替換等操作,處理重復數據、無效數據、空數據等之后,將不同來源、不同格式的數據轉換為統一的格式加載到目標數據庫,作為后續數據融合和信息挖掘的基礎。
在獲取統一格式的數據之后,通過構建本體來挖掘數據準確有效的信息,為后續基層管理人員的決策提供依據。本體的構建方法采取依靠專家手工構建和機器學習算法進行自動構建兩種,對社會治理領域普遍術語,采取專家手工構建部分本體進行規范性描述,一般本體采用統計主導的方法挖掘獲取。
一般本體構建采用TF-IDF(Term Frequency-Inverse Document Frequency)結合TextRank 算法從數據信息中抽取相關術語。黃春梅等人[2]研究基于詞袋模型和TF-IDF 進行短文本分類的流程,TF-IDF 算法中TF和IDF表示“詞頻”和“逆文檔頻率”的意思,是用于信息檢索和數據挖掘的常用加權技術。
TF-IDF算法首先計算TF:
詞頻表示一個單詞在該文檔中出現的頻率,count(t)表示文檔di中包含詞t的個數,count(di)表示文檔di的詞的總數。然后計算IDF:
逆文檔頻率表示單詞對文檔的區分能力,num(database)表示數據庫database中文檔的總數,num(t)表示數據庫中包含詞t的文檔數目。將每個詞的TF 和IDF 相乘,得到每個詞的TF-IDF 值,然后根據每個詞的TF-IDF 值進行降序排列,根據需求輸出指定個數的詞作為抽取的相關術語。
TF-IDF 單純從詞頻來衡量一個詞的重要性不夠全面,對于出現并不多但重要的術語無法識別挖掘,而且這種計算無法體現位置信息,因此結合Bordoloi Monali 等人[3]研究的利用TextRank算法提取關鍵詞技術來提高術語挖掘的性能。TextRank 算法是一種基于圖的用于關鍵字抽取和文檔摘要的排序方法,利用文檔內部詞語間的共現信息來抽取關鍵詞,其將文檔看作一個詞的網絡,網絡中的連接表示詞與詞之間的語義關系,其公式如下:
其中,WS(Vi)表示句子i的權重,右側求和表示每個相鄰句子對本句子的貢獻程度,ωji為權重項,表示兩個句子的相似程度,WS(Vj)是上次迭代出的句子j的權重,d為阻尼系數,一般取0.85,算法上采用Python中的TextRank4zh包進行排序實現。
術語抽取完成之后,使用基于同現的方法,用詞的語法同現統計方法來估計詞的語義相似性,然后以此為依據,使用聚類算法進行概念聚類,使得相似的術語能夠聚類形成一簇。聚類算法采用陳小雪等人[4]提出的優化加權K-means 算法,利用加權的歐式距離來度量術語之間相關性。
對歷史數據進行聚類訓練后構建模型,完成術語的相關性聚類,得到對應的聚類核心概念。
通過本體構建抽取出相應的術語和概念后,結合居民端上報的問題數據或數據源中實時變化異常數據,基于FP-growth 算法進行關聯分析,及時對事件進行分派和處置。
FP-growth 算法和Apriori 算法都是挖掘頻繁項集的算法,Apriori 算法需要多次掃描數據集,而無論多少數據,FP-growth只需要掃描兩次數據集,算法效率上具有優勢。其關聯規則基于支持度:Support(X →Y)=P(X ∩ Y)=P(XY)和置信度:Confidence(X → Y)=P(Y| X)的概念進行構建,參考楊彩等人[5]研究的基于FPgrowth算法的課程關聯性分析流程進行頻繁項集的挖掘。FP-growth 算法步驟主要分為兩步:第一步構造FP-tree,掃描數據庫,計算數據庫中各個項的支持度,若大于給定閾值,作為頻繁項集保存,再次掃描數據庫,依次讀取保存到FP-tree中,重復直到讀取所有數據,完成FP-tree 的構造;第二步在FP-tree 中根據創建的條件模式樹挖掘頻繁模式,從而挖掘出頻繁項集。其算法流程圖如圖5所示。

圖5 FP-growth算法流程
在挖掘出頻繁項集之間的關聯關系之后,面對實時產生的新問題和新異常數據,及時關聯到對應術語和概念,例如模型已挖掘的“垃圾堆積”概念,當實時產生居民上報的相關問題或社會攝像數據中識別出的相關情況,系統就會向管理人員后端發送待處理的“垃圾堆積”事件,從而能夠進行事件自動分類和事件分派,提高事件下發和事件處置的效率,達到以事件為基礎,向城市管理的相關部門提供事件數據信息的“聚合、關聯、挖掘、增值、展現”等一站式服務的目的。
社會治理信息系統實現數據的整合展示,在管理端能夠查看指定區域的人口、房屋、組織等模塊的整體信息和實時的更新,管理人員能夠進行新增、編輯、完善等操作,如圖6所示。

圖6 社會整體信息
從圖6 中可以查看基層區域的全量人口、實有人口、戶籍人口等,并對疫情、特殊關懷、重點人群進行分類展示;房屋信息展示小區數、建筑物、住房單元等,并對租房、保障房等進行分類展示;組織信息展示黨組織、業主委員會、社會組織等,并對業主自治和群防群治進行分類展示。
在社會治理信息系統的事件處置任務模塊,整合融合多源異構數據資源后,需要處置的事件任務信息,根據居民上報和模型挖掘后,會自動在后臺分類上傳到管理人員手中,如圖7所示。

圖7 多層級事件處置
從圖7中可以看出,事件有非機動車亂停放、垃圾堆積、獨居老人用水異常報警等待處理任務信息提交,包括處置狀態、時間狀態、所屬轄區、發布時間等信息,管理人員能夠對事件任務及時接收和處理,提高社會矛盾糾紛化解的效率。
本文針對社會數據多來源和數據異構的特征,基于總體架構、數據架構和部署架構建設了社會治理信息系統,通過ETL 整合數據格式,本體構建和關聯分析進行數據融合,及時挖掘出基層矛盾糾紛等問題事件,并實時推送展示給管理人員,使得矛盾糾紛化解在萌芽階段,防止糾紛進一步繼續擴大,是網格化管理、精細化服務、信息化支撐、開放共享要求下的重要實現。