姜宇星,王曰芬
(南京理工大學經濟管理學院,江蘇南京210094)
十八屆三中全會指出,經濟體制改革是全面深化改革的重點,核心問題是處理好政府和市場的關系。隨著簡政放權、政府職能轉變、商事制度改革、社會信用體系建設等執政理念的不斷推進,我國進入了一個大變革、大發展、大調整的時代[1]。在這樣的背景下,市場監管部門需要順應時代變革的要求,創新市場監管工作,從服務方法和形式上尋求突破。
近年來,大數據技術在各行各業普及深化,與市場主體關聯的數據總量不斷增加,市場監管部門的決策行為不再僅憑經驗,而是越來越多地依賴數據分析,數據分析將成為監管部門創新服務方式、參與宏觀管理的重要基礎與有力支撐[2]。如何深挖現有的數據價值,釋放數據背后的應用潛力是當前需要重點考慮的問題。市場主體之間關系復雜,傳統結構化的數據組織模式難以刻畫和發掘其中復雜多變的關系。知識圖譜作為一種新興的數據轉化與知識化表達技術,在表達高度關聯數據中的復雜動態聯系方面具有顯著的優勢,適用于反映市場主體的運行狀態和關系網絡。知識圖譜技術為基于大數據的市場監管提供了一種新思路。
市場監管部門在履行注冊登記、執法辦案、商標廣告、合同幫扶、日常監管、消保維權等職能的過程中,積累了大量與市場主體相關的數據。這些數據來自不同的職能部門,數據形式與存儲格式多樣,數據更新頻率差異大。這些數據既反映了市場監管部門的履職過程,也客觀描述了市場主體的運作情況,對開展行業結構分析、發現區域產業集聚、提供經營異常警示、研究企業生命周期等具有非常高的價值,對政府提升決策能力,實現對市場的精確監管有較強的參考意義[3]。因此對市場監管大數據進行深入的分析和挖掘將成為監管部門創新服務模式的一個突破口。
(1)按照參與市場監督管理的職能部門和角色來分,如表1所示。
(2)按照市場主體的信息特征來分,考慮市場主體從自身到所處外部環境等多方面的因素,如表2所示。
(3)按照數據來源的結構特征來分,可以分為以下幾類。
結構化數據:這一類數據可以是監管方信息系統內部數據庫中的私有數據,也可以是以數據表等規范化形式存儲的公共數據。這一類數據普遍結構規范,存續期長,不易隨時間的變化而改變。結構化數據的優點是置信度高、數據可靠;缺點是數據規模小、獲取不易,時效性有時也不如其他類型的數據。
半結構化數據:這一類數據是指那些無法通過單一模板直接獲得的數據。相比結構化數據,半結構化數據具有結構多變、模式不統一的特點,有效信息的提取和整理依賴人工和經驗。這一類數據的優點是置信度較高、數據規模較大、個性化信息豐富;缺點是樣式多變且含有噪聲,難以通過模板方式進行大批量抽取。

表1 按照參與市場監督管理的職能部門和角色劃分的數據來源

表2 按照市場主體的信息特征劃分的數據來源
非結構化數據:這一類數據通常指代純文本,特別是以自然語言形式儲存的文本數據。互聯網上大多數時效性較高的監管信息都以非結構化的文本形式表達。相比前兩種數據形式,非結構化的數據來源多、總量大、時效性強,但是由于缺乏顯式的結構,從中提取有效信息的難度很大,利用自然語言處理等相關技術,深入挖掘非結構化數據中的有效內容也是開展知識圖譜應用的關鍵之一。
知識圖譜本質上是一種基于語義網絡的知識體系[4]。與傳統使用二維表形式存儲數據的方式不同,這一知識體系采用了有向圖結構,圖中各個結點一般用來代表實體(如企業、個體工商戶)或者指向某一概念,而圖的邊代表實體與概念之間的各種語義關系。把數據中蘊含的知識用圖結構進行形式化表示,并和已有的結構化數據進行關聯,就構成了知識圖譜。一個簡單的市場監管知識圖譜組成如圖1所示。
由于市場監管大數據中存在大量以非結構化形式存儲的數據,為了讓計算機能夠有效利用這些數據,需要理解數據符號背后的含義,辨析語義單元之間的各種關系,用便于進一步推理和展示的方式存儲起來,“圖”就成為能標識這類數據之間結構的高效表達形式。因此,市場監管知識圖譜應是一個綜合性的概念,既要具有知識圖譜的內涵與特征,符合知識圖譜的分類,又要體現出對于市場主體服務對象需求的反應。

圖1 市場監管知識圖譜組成示意
具體來說,可以從以下3個角度界定市場監管知識圖譜的概念和內涵。
首先,從知識圖譜的內涵與特征來看,市場監管知識圖譜是一種結構化的有向圖,它以市場主體監管大數據為知識源,描述市場活動中的各類實體、實體關系、涉及實體的各類事件等。市場監管知識圖譜可以刻畫復雜的市場經濟活動,較之傳統知識表達技術,能夠揭示市場經濟活動中更為復雜的結構特性,具有易于內容理解、統一表達與可復雜推理的特征,為市場主體監管提供宏觀描述、主體關系發現、行業監測、異常預警等決策支撐。
其次,從分類角度來看,市場監管知識圖譜是一種多類型綜合的知識圖譜。從知識的主客觀屬性來看,它首先必須包含與市場主體相關的客觀知識,然后考慮到市場主體服務對象的信息反饋,也需要加入各類主觀知識對整個知識體系進行補充;從知識的載體與表達內容來看,它涉及各種數據結構的文本知識,并隨著其應用的擴展,還會加入視覺知識和多模態知識;從知識應用領域來看,它屬于行業性的知識圖譜。
最后,從服務對象與需求的角度來看,基于市場主體監管大數據的市場監管知識圖譜就是以服務政府決策部門管理、行業自律、市場主體經營和社會公眾為目的,以特定市場主體監管與決策需求為依托,以表征市場主體監管活動的大數據為基礎,采用知識圖譜構建技術,監管市場主體的變化和挖掘信息所蘊含的市場活動中的各種關系,從而實現刻畫出復雜的市場主體分布、變化和發展狀態的功能。
市場監管知識圖譜的主要作用是支撐市場監管職能的有效發揮,結合市場監管的工作與職能,市場監管知識圖譜應具有如下特點。
2.2.1 在易理解基礎上突出知識內容表達的全面性
由于市場主體準入和監管信息相關數據量龐大且涉及面廣泛,在構建市場監管知識圖譜的過程中,不僅需要關注數量的變化,還應注重結構的變動,需要通過對市場主體關系的多維度抽取,進而多角度全方位地體現市場主體的發展變化情況。而與其他知識內容表達方式不同的是,市場監管知識圖譜不僅具有以易于認知理解的可視化方式展示各種市場活動數據與信息的特點,而且還具有以可擴展的圖結構方式全面地建立各種市場活動數據與信息間關聯的特點。因此,市場監管知識圖譜更容易達到為政府決策部門管理、行業自律、市場主體經營和社會公眾提供全方位、多角度和深層次的決策支持的目的。
2.2.2 在易統一基礎上突出知識形式化組織的聯動性
市場監管知識圖譜主要以市場監管管理為目標而構建,在實際應用中涉及工業產品、計量、特種設備、檢驗檢測機構、食品生產、廣告發布登記等行政審批事項與質量監察等業務,關聯到統計、財政、稅務、發改委、審計等部門發布的市場數據和信息[5]。不僅要及時跟蹤市場主體登記、注銷、信用與風險等情況,進而發掘其中的變化原因與趨勢,而且要反映較長一段時間內市場活動的發展態勢、突發事件與應急管理的情況,同時要結合熱點行業、敏感行業的發展情況與市場風險點,關注地方支柱產業特征和體現區域間發展差異。與其他信息或者知識組織方式不同的是,市場監管知識圖譜不僅需要將不同來源不同類型的數據和信息進行形式化統一組織與集成,還需要實現大規模、跨領域、高覆蓋的知識采集與存儲,將多個行業部分聯動起來。因此,市場監管知識圖譜更容易實現對多源異構數據的集成與融合,以支撐各個行業部門的綜合決策。
2.2.3 在易操作基礎上突出知識推理實現的深入性
市場監管管理的主要業務圍繞登記注冊指導、行政審批、政策研究與推廣、法規起草與落實、應急管理與宣傳、信用與風險監督、產品質量安全監督、網絡交易監督管理等展開,這些業務活動涉及的主體與關系復雜,而在業務活動進展過程中,不僅需要梳理各類主體、明確主體的屬性與表現形式,而且需要厘清各個主體之間的關系,更需要通過復雜網絡的路徑分析挖掘出不同主體之間隱含的關聯,為深入解釋經濟現象出現的原因,以及市場主體突發事件可能對社會經濟帶來的影響提供支持。與現有的簡單知識關聯推理相比,市場監管知識圖譜不僅具有通過圖結構快速發現各個主體事件的聯系的特點,而且具有借助優化的路徑遍歷搜索等算法使復雜的主體關聯得以深入地推導的特點。因此,市場監管知識圖譜更容易反映市場變化的來龍去脈,而且為深入發現市場經濟效果與促進國家宏觀政策不斷完善提供可循證的數據支撐。
2.2.4 在易達成基礎上突出知識應用的針對性
隨著知識圖譜在各行各業的日益普及,如何結合實際應用的目的借助于知識圖譜更加有效地利用知識,是市場監管知識圖譜構建的根本宗旨。結合市場監管業務的需求,市場監管知識圖譜一方面依托披露信息與挖掘知識為政策制定提供依據,另一方面在于發現不足和潛在的問題以便及時地調整政策導向,支持針對性解決方案的制定。而與現有的信息管理體系不同的是,市場監管知識圖譜不僅具有能夠便利地用于實踐工作中的特點,而且具有通過簡單的圖結構將各種實踐以可視化方式表達進而實現有針對性應用的特點。因此,市場監管知識圖譜是支撐政府、行業、企業和個人實現知識應用的有效工具。
知識圖譜以統一的表達形式對知識實例數據定義和具體知識數據進行描述,通常使用三元組形式對知識單元與體系進行資源描述和存儲。在這一背景下,每個實例數據使用約定的“框架”進行描述,并在此約束下將數據進行結構化轉換,并與已有的結構化數據進行關聯,從而轉變為可用的“知識”。這里的“框架”就是對知識的描述和定義,知識框架和實例數據共同構成一個完整的知識體系。
盡管目前大部分的知識圖譜都以三元組的形式表示各種類型的知識,但是實際上知識圖譜的知識表示絕不僅僅體現在以二元關系為基礎的三元組上,還體現在實體、類別、屬性、關系等多顆粒度、多層次語義單元的關聯中。
從圖1可以看出,市場監管知識圖譜的構成元素主要包括以下3類。
(1)節點:節點用于表示實體、事件等對象。傳統的關系型數據庫中,通常用一條記錄中的某一個或某幾個字段來存儲類似的內容,而在圖數據庫中則轉變為節點。人物、地點、具體事件都可以作為此類節點。例如在刻畫市場結構關系時,節點可以用來表示各市場主體、自然人,體現彼此間的構成形式;在刻畫市場經濟活動時,節點可以用來表示各項經營內容、參與對象;在刻畫具體事件時,節點可以用來表示事件名稱、事件要素等。
(2)邊:邊是指圖中相鄰節點之間的有向線段,用于表示節點彼此之間的關系。例如兩個自然人之間的合伙人關系、家庭關系;企業和自然人之間股東關系、雇傭關系;實體之間彼此的投資、交易關系;事件與事件要素之間的各類組成關系等。
(3)屬性:屬性用于描述節點或者邊的某一類特性。例如人物(節點)的姓名、股東關系(邊)的起止時間等都是屬性。
知識圖譜的構建流程目前尚未形成統一的認識,但是各種理論的各環節內涵基本相同,均涵蓋了知識體系構建、數據獲取與預處理、知識實體識別與提取、知識實體關系解析與建立、事件與事件提取、知識融合與存儲、知識計算與應用,可視化表達與圖譜結果解讀等內容[4,6-7]。在對已有研究綜合的基礎上,本文提出市場監管知識圖譜的構建流程,如圖2所示。
構建和應用市場監管知識圖譜的主要環節如下。
知識體系構建,核心是構建一個描述市場監管業務領域的本體。在此本體中需要明確領域知識中用于描述現實實體的“事物”,例如“張三”“江蘇XX 有限公司”“處罰通知書”;描述具有相似本體特征“概念”,例如“股東”“城市”“企業名稱”“行政處罰類型”;描述事物或概念具有特征或特性的“屬性”,例如“股份有限公司”“個體工商戶”;描述實體之間關聯方式的“關系”,例如“類-子類”關系、“類-實例”關系;此外還有描述概念、實體之間的“函數”,領域內的“公理”“實例”,以及基于該本體定義的推理規則。
知識獲取是指機器如何獲取知識以擴充知識庫的涵蓋范圍。在知識圖譜的常規任務中,知識獲取的目標是從大量的數據中通過信息抽取的方式獲取知識。市場監管數據包含現有各信息系統里的標準化結構數據,以及諸如行政處罰公示、司法股權凍結信息、12315投訴信息、經營異常名錄信息等以報表、表格等形式存儲的半結構化數據,還有大量諸如電商平臺用戶評價、網絡媒體新聞與論壇等自然語言形式呈現的非結構化數據。從結構化和半結構化的數據源中獲取知識相對簡單,數據噪聲小,通過編寫腳本或人工編寫模板等方式可較為便捷地得到結構化的三元組;在處理非結構化數據時,因為自然語言表述上的靈活性等特點,上述方法較難奏效,目前針對這類問題通常會用到自然語言處理的相關技術。

圖2 基于大數據的市場監管知識圖譜構建流程
知識融合是指融合各層面的知識,構建起不同數據源之間的關聯。不論是通用知識圖譜,還是領域知識圖譜,往往都會面臨處理多個數據源的問題。這些數據源因來源不同,其結構、語言等都可能存在較大的差異。市場監管知識圖譜通過融合監管、公安、社保、媒體等不同來源的數據源,可以有效補充和更新原有的知識。但因來源不同導致的數據結構差異也會帶來新的問題,如需要實體去重、語義消歧等。知識融合的核心是處理不同知識來源或實例之間的映射關系。從融合的知識圖譜類型來看,有垂直方向的融合,如融合通用本體和領域本體這類不同層次的知識圖譜,以達到完善知識圖譜體系結構的目的;也有水平方向的融合,如融合同層次的知識圖譜以對其規模進行擴充。
知識存儲是指對已構建知識圖譜的存儲和管理方式。知識圖譜的主要存儲方式為RDF格式存儲和使用圖數據庫。前者采用RDF三元組的形式存儲數據,如Freebase知識圖譜對每一條信息(Topic)使用結構化的三元組來保存。后者通用性更強,如目前典型的開源圖數據庫Neo4j 就包含了完善的圖查詢語言,支持大多數的圖挖掘算法,但在數據庫規模增大后計算時間會變長。
知識推理是指通過推理手段發現隱含的知識。由機器參與構建的知識圖譜往往存在諸多信息缺失現象,如實體缺失、關系缺失等,在難以繼續使用知識抽取或知識融合的方法補全缺失信息的情況下,采用推理手段,從已有的知識中找出缺失內容就成了解決問題的有效手段。目前知識推理的研究集中在缺失關系的補足,即挖掘實體之間隱含的語義關系,并普遍采用了基于邏輯規則或者基于表示學習的方法。在市場監管知識圖譜中,知識推理除了補全缺失以外,還可以用來發現市場主體之間的各類隱含聯系,可應用于構建市場主體關系網絡和異常預警。
知識應用是指包括以智能搜索、自動問答、推薦系統、決策支持為基本形式的各類型應用服務。基于知識圖譜的服務和應用是當前的一大研究熱點。
綜上所述,政府的市場監管職能關系著經濟發展大局,市場監管中數據資源是管理市場運行與科學決策的基礎和前提。只有借助先進的技術方法,深入挖掘與利用市場監管中的大數據資源,才能為社會經濟活動提供充分的依據,從而提高各個領域的管理和運行效率。而如何將市場監管知識圖譜加以應用和驗證,將是后續研究與應用的課題。