曾宣
(云南電網有限責任公司信息中心 云南省昆明市 650000)
對于監管規則的準確理解,能夠在一定程度上提高監管質量和監管效率。但目前,由于監管規則制定沒有嚴格的標準機制,因此常常會出現監管規則的內涵和外延不夠精確的問題產生,對于不同監管機構而言,可能由于錯誤解讀造成更嚴重的管理問題產生[1]。同時,現有監管規則,缺少了對各個模塊內容的體系化整合,因此也在一定程度上提高了監管合規的成本。NLP技術是一種全新的自然語言處理技術,將NLP技術應用于實際可以通過機器學習的方式,針對各類復雜法律、法規等內容進行匯總、分析和處理,是一種十分有效的體系構建方法,不僅可以提高規則體系在內容理解上的一致度,還能夠進一步降低各個機構體系構建的合規成本。但目前NLP技術在監管領域當中的應用較少,為了實現監管的智能化,本文引入NLP技術,針對監管領域當中的規則體系構建進行優化,并進一步實現智能化監管規則體系構建。
由于采用傳統監管規則關鍵詞提取方法在實際應用中過程復雜,并且消耗巨大,因此本文引入NLP技術,利用機器學習實現對監管規則關鍵詞及相關屬性的智能化提取。由于當前各類監管描述文件的語言均為機器學習無法識別的自然語言,因此在獲取監管規則關鍵詞的過程中,借助NLP技術實現[2]。通過NLP技術的自動檢索過程,將負責且沒有規律的監管文件中的自然語言轉換為計算機能夠識別的句子,通過NLP技術對句子進行處理,并生成相應的規則集,得到計算機能夠識別的監管規則關鍵詞。大部分監管規則都是以自然語言描述,其結構當中包含了SEQUENCE 屬性結構、屬性類別以及屬性值。無論監管規則關鍵詞是自然語言結構,還是ASN.1 結構,其規則的格式都需要通過RFC2119 定義。
針對監管規則文件的描述,若一個語句當中包含的第一個小節描述的關鍵詞,則將其稱之為一個規則。圖1 為基于NLP技術的監管規則關鍵詞提取流程示意圖。
在提取過程中,首先需要對數據進行格式化處理,并針對各個監管文件當中的頁眉和頁腳進行處理,并去除掉其中無效字符,例如空格,多余*等,只保留其語句部分。其次,再針對提取到的純文本進行斷句,并將其按照一定規律劃分為一段一段字符串,由NLP技術對其進行識別[3]。在這一過程中,對包含提取到的關鍵詞段落進行搜索,并將其存儲在自然語言規則集當中,完成對監管規則關鍵詞的提取。
完成對監管規則關鍵詞的提取后,每一個詞都有相對應的自然語言屬性,針對名詞詞性的標記,可直接采用NLP 當中的自然語言處理包完成,并通過隱式馬爾科夫算法實現。標記的過程可以稱之為馬爾科夫過程,可用如下公式表示:

公式(1)中,P 表示為名詞詞性標記概率;S 表示為標記過程中的一個時間狀態;Sn表示為在某一時刻n 時的狀態。通過公式(1)可以看出,若Sn+1對于過去狀態的條件概率分布僅表示為Sn的一個函數,則當前時刻的狀態與上一狀態相關,反之同理。按照上述公式完成對名詞詞性的關鍵詞標記,但在一個完整的監管規則文件當中不僅包含了名詞詞性還有助詞和動詞[4]。表1 為大量監管規則描述語句當中的狀態遷移矩陣。
從表1 中得出的狀態遷移矩陣可以看出,在名詞后接上述三個詞性的概率分別為0.2/0.3/0.5。因此在對一個監管描述語句進行任務標記時,若前一個為名詞,則后一個詞最大概率為動詞[5]。根據詞性,對監管描述語句進行二元組表達,并通過組合元組信息生成條件從句信息,完成對監管描述語句詞性的標記。通過上述標記方式實現對監管描述語句的結構化定義,將監管規則關鍵詞作為NLP技術可識別的特征量,并生成最終的特征規則,實現對監管描述文件的標記和對信息任務的提取。

表1:大量監管規則描述語句當中的狀態遷移矩陣
為進一步實現監管規則體系構建的智能化,引入End-to-End 模型,定義一個由單序列三元組的數據結構。將監管規則體系結構劃分為Bi-LSTM 層(層級I)、Dropout 層(層級II)和LSTM 解碼層(層級III)。分別針對其各個層次進行對監管規則體系內容的表達,首先針對層級I 而言,在監管規則進入到這一層級當中時,將輸入的關鍵詞放入到詞嵌入層當中,構成一個嵌入矢量,其表達式為:

公式(2)中,W 表示為所有單詞序列的集合;wt表示為關鍵詞嵌入矢量;n 表示為當前監管規則語句的長度;d 表示為維度。在完成嵌入處理后,層級I 輸入門當中的內容可用公式(3)表達:

公式(3)中,it表示為層級I 輸入門當中的內容;δ 表示為監管規則語句信息附加權重;bi表示為監管規則語句狀態數據,若使用,則bi值趨近于1,若不使用,則bi值趨近于0。其次,針對層級II,假設每一個隱藏單元都是相互不可依賴的,則需要利用Dropout 解決每個協同適應隱藏層,其表達式為:

公式(4)中,p(i)表示為某一監管規則關鍵詞i 的隱藏激活概率。最后,在層級III 當中完成對監管規則的解碼,實現對監管規則體系內容的精確表達。利用如下公式(5)對層級II 當中的監管規則體系隱藏單元進行處理:

公式(5)中,yt表示為監管規則體系內容最終表達結果;Wy表示為softmax 矩陣;Tt表示為上述標記的種類個數;by表示為隱藏層中監管規則語句狀態數據。根據上述表達式,在層級III 當中完成處理后,得到各個監管規則所述標記實體的可能性,實現標記替代,完成對監管規則體系內容的表達。
為了驗證本文提出的智能化監管規則體系構建方法在實際應用中是否能夠滿足各項應用性能需要,選擇將六種當前流行的SSL/TLS 監管描述文件作為實驗對象。分別利用本文提出的構建方法和傳統構建方法對六個監管描述文件進行規則體系構建。為了確保實驗的客觀性,在實驗前,對構件評估標準進行設計,選擇以構建后體系的漏洞數作為評價指標。其計算公式為:

公式(6)中,BPR(i)表示為某一監管描述文件i 完成規則體系構建后的漏洞數;N 表示為存在差異解釋的證書個數;RN 表示為實驗中某一類型監管描述文件的測試監管規則總數。根據上述公式,對兩種構建方法生成的監管規則體系漏洞數計算,并將結果繪制成如表2所示。

表2:兩種監管規則體系構建方法漏洞數對比表
根據表2 兩組數據對比得出,本文構建方法在完成對6 個文件的監管規則體系構建后,漏洞數均控制在10 個以下,由于文件中規則信息較多,10 個以下的漏洞數可忽略不計。傳統構建方法在完成對6 個文件的監管規則體系構建后,漏洞數均超過10 個,并且最高達到了58 個,嚴重影響對監管規則體系的理解,容易保證規則體系在內容理解上的一致性。因此,通過對比實驗證明,引入NLP技術后,在對監管規則體系構建時能夠實現對內容更容易地理解,并且利用機器學習實現智能化構建。
本文引入NLP技術對監管規則體系進行構建,并實現了對體系內容的準確表達。但這種方法在實際應用中仍然存在大量映射,受到人工干預的影響使得智能化程度較淺,因此在后續的研究中還將針對NLP技術在構建方法當中的應用進行更加深入研究,從而借助自然語言處理實現對映射問題的控制,從而實現該構建方法的廣泛應用。