基于數據倉庫的化工企業財務數據集成方法

2023-06-07 04:58:04安世俊

中國新技術新產品 2023年5期

安世俊

（蘭州資源環境職業技術大學，甘肅蘭州 730022）

0 引言

在信息化技術、自動化技術的發展背景下，化工企業也在面向信息化建設，雖然取得了一定的成效，但是化工企業財務系統的數據受到封閉式管理的影響，很難進一步推進信息化建設的工作，無法滿足企業日常生產變化要求。針對該問題，研究人員設計了多種財務數據集成方法。其中，基于服務調用和消息隊列的化工企業財務數據集成方法，與基于Spark 的化工企業財務數據集成方法的應用較為廣泛。

基于服務調用和消息隊列的化工企業財務數據集成方法，根據企業經營需求，對數據查詢、數據發布等數據進行集成，并根據企業財務情況，調用SOAP 與REST，企業財務數據實時訂閱，有效地避免了財務數據出現封閉的問題，提高化工企業財務數據集成效果[1]。基于Spark 的化工企業財務數據集成方法，是利用大數據分析的方法，以一種Spark Feature Weighted Stacking 方式，提取財務數據特征，根據特征選擇合理的集成小組，大幅度提高數據集成精準度[2]。以上2 種方法都能對企業財務數據進行集成，無論是SOAP 與REST，還是S-FWS，都不能消除相似重復記錄的數據，影響數據集成效果[3]。數據倉庫是在企業決策的過程中，能夠提供數據支撐的方式，該文將其應用在化工企業財務數據集成方面，為財務數據集成提供保障。

1 化工企業財務數據的數據倉庫集成方法

1.1 生成企業財務數據集成本體

數據集成指集合不同源、不同結構的數據于一起并消除其多元性與異構性的過程。對不同結構的數據進行數據集成，用戶在訪問這些數據的過程中無須考慮對異構數據訪問的實現方式，只需要了解數據的訪問方式即可。該文該文主要研究關于化工企業財務數據的基于數據倉庫的集成方法。數據倉庫是面向主題的、集成的、不可更新的，并隨時間不斷變化的數據集合，用以支持管理部門的決策分析過程，與一般數據庫相比，數據倉庫具有數據查詢量較大、對實時性要求不高、數據更新不頻繁、使用用戶較少等特點，主要用于分析與決策。

不同的財務報表、生產報表存儲在不同的系統模塊中，數據繁多而且結構復雜，集成較為困難。化工企業財務數據包括企業資產收益數據、盈利數據、項目利潤數據、資產增長數據、負債數據以及融資數據等[4]。多種數據在集成的過程中，通過生成財務數據集成本體的方式，將命名不統一的數據進行兼容，并根據主體模式的數據組織方式劃分出數據的字段元素，從而獲取數據倉庫的元數據信息。該文以字段表述或定義各個數據元素，本體部分的語法及含義見表1。

表1 本體部分的語法及含義

數據模式與本體機構相似，可以通過制定數據集成規則，將數據模式轉換成本體[5]，見表1。生成的本體與原本體映射結構不同，用來反映不同的財務數據，保證不同類別的數據能夠統一集成，提高集成效果。

1.2 基于數據倉庫清洗化工企業財務數據

數據清洗是指將集合后數據中發現的如缺失數據、無效數據、重復數據以及異常數據等錯誤進行修改，從而獲得高質量數據的過程。對不準確的數據進行分析，有可能由于數據質量的不足而使用錯誤的分析方法，從而得出錯誤的分析結論。該文對對數據集成本體進行重復數據的檢測。

數據集成本體的重復數據檢測問題的成因復雜，其清洗方案一般基于特定領域設定其特定的規則，甚至采取需要人員干預的方式。該文利用數據倉庫，將生成的數據集成本體作為元數據，輸出到數據倉庫中，按照倉庫的記錄統一后，將數據倉庫中的化工企業財務數據合并成一個數據集，再對其進行數據清洗[6]。數據清洗的窗口滑動情況如圖1 所示。

圖1 數據清洗的窗口滑動示意圖

如圖1 所示，在數據清洗的過程中，在當前窗口生成關鍵詞，按照順序依次生成不同窗口的關鍵詞。按照不同窗口的關鍵詞生成情況排序，并在數據倉庫中記錄。在已排序的數據集移動到一個固定大小的窗口中，通過檢測窗口內的財務數據，判斷數據之間的匹配程度[7]。W為的窗口大小，該窗口的可用數據個數用w表示，當窗口移動時，窗口第一條數據被移出，新進的窗口的數據與第二條數據相比，如果相似程度較高則移出，相似程度不高則保存，由此消除數據倉庫中相似重復記錄的數據。數據相似度如公式（1）所示。

式中：sim（x，y）為數據倉庫中新進數據與元數據的相似程度；simfi為主體字段的相似度；Wi為第i個數據窗口。在數據倉庫中存在n條數據，窗口大小為w，那么生成的關鍵詞操作排序為O（logn），當w ＜O（logn）時，數據清洗完畢，相似重復記錄的數據可以忽略或不存在；當w≥O（logn）時，數據清洗未完成或清洗終端，相似重復記錄的數據仍存在。

對數據是否為重復數據的判斷標準，一般采用定位字符串比較方法，即計算相同字符個數與短字符串的長度的比值，其值即為相似度的匹配得分。該方法能夠有效解決部分名稱縮寫問題，但對一些名稱相似的非縮寫數據并不能起到很好的效果。因此改進該計算方式，通過以計算相同字符個數與字符串長度平均值的比值避免出現類似問題。

1.3 構建化工企業財務數據本體集成模型

為了實現化工企業財務數據的高效集成，該文在數據清洗完成后，構建了化工企業財務數據本體集成模型，匹配化工企業財務數據集成屬性。集成模型如圖2 所示。

圖2 數據本體集成模型圖

如圖2 所示，該文設計的集成模型中包括數據倉庫層、中間層、數據源層等3 個部分。數據倉庫層是數據倉庫中清洗完畢的數據按照主體進行排序的數據，清晰地表達了數據倉庫中各類財務數據的集成任務。中間層是標記數據存儲與提取的數據倉庫模式，根據倉庫的詞匯指導建立數據源，與數據倉庫中的本體數據映射，自動實現數據的抽取、轉換與裝載過程[8]。數據源層是模型的數據輸入層，將清洗完成的數據通過DS1、DS2、DSn進行數據對接，完成數據查詢任務。假設O是一組數據對應的集合，G是O中所有對象的集合，則對模型中各類集成數據進行屬性匹配，如公式（2）所示。

式中：t（x，y）為集成數據m與m'的屬性匹配程度；O（x，y）為一組數據集合中數據m與m'的相似度指標；G（O（x，y））為O中所有對象集合的數據相似度指標；c為帶有G（O（x，y））標記數據出現的次數。根據t（x，y）的值，判斷集成任務完成的數據屬性匹配程度，進一步提高數據集成精準度。

2 數據集成方法的有效性試驗

為了驗證該文設計的企業財務數據集成方法的有效性，該文以文獻[1]基于服務調用和消息隊列的化工企業財務數據集成方法、文獻[2]基于Spark 的化工企業財務數據集成方法作為對照，與該文設計的基于數據倉庫的化工企業財務數據集成方法進行對照試驗。試驗結果則以對比三者的F1-score 值及不同節點模式情況下F1-score 值變化情況呈現，后續試驗過程及試驗結果如下所述。

2.1 試驗過程

這次試驗選用Ontology Alignment Evaluation Initiative 提供的數據集作為測試數據，該數據集中存在多種領域的數據，其中，mark 數據集描述的是化工企業財務數據，主要包括56 對本體數據，將其劃分成I～VII 個類別，編號為101的本體作為原始數據的參考本體，描述了完整的化工企業財務數據，用作匹配基準數據。102 本體是與化工領域無關的本體，這次試驗不考慮。將mark 數據集放在集成模型中進行數據集成，集成流程如圖3 所示。

圖3 集成模型訓練流程圖

如圖3 所示，試驗過程中利用數據倉庫通過串行的方式，訓練多個同類基分類器，并將mark 數據集的56 對本體數據依次訓練，在子訓練集1～n中訓練，通過基分類器的數據分類，自動將化工企業財務數據集成。數據集成后，該文利用F1-score 指標作為判斷模型集成效果的依據，F1-score指標如公式（3）所示。

式中：F1-score為衡量模型集成準確性的指標；P為數據集成精確度；R為數據集成查全率。F1-score值越高，模型集成的數據準確性越高。

2.2 試驗結果

在上述試驗條件下，該文隨機選取I～VII 共7 個試驗數據集，其中的化工企業財務數據各不相同，可以保證試驗的真實性。分別使用文獻[1]基于服務調用和消息隊列的化工企業財務數據集成方法、文獻[2]基于Spark 的化工企業財務數據集成方法以及該文設計的基于數據倉庫的化工企業財務數據集成方法的集成模型，在單節點運行模式與雙節點運行模式下，對比3 種模型的F1-score 值。試驗結果見表2。

表2 試驗結果

如表2 所示，使用文獻[1]基于服務調用和消息隊列的化工企業財務數據集成方法后，集成模型在單節點與雙節點模式下的F1-score 值相對較低。其中，在單節點模式下，數據集I～VII 中F1-score 平均值約為0.869；在雙節點模式下，數據集I～VII 中的F1-score 平均值約為0.830。使用文獻[2]基于Spark 的化工企業財務數據集成方法后，集成模型在單節點與雙節點模式下的F1-score 值較為穩定，均高于0.850 的集成標準。其中，在單節點模式下，數據集I～VII 中F1-score 平均值約為0.888；在雙節點模式下，數據集I～VII 中F1-score 平均值約為0.879。

使用該文設計的基于數據倉庫的化工企業財務數據集成方法后，集成模型在單節點與雙節點模式下的F1-score 值相對較高，均超過0.950。其中，在單節點模式下，數據集I～VII 中F1-score 平均值約為0.981；在雙節點模式下，數據集I～VII 中F1-score 平均值約為0.981。由此可見，使用文獻[1]方法后，單節點與雙節點模式下F1-score 值均較低且不同節點模式下平均值相差較多，數據集成準確性與穩定性較低；使用文獻[2]方法后，單節點與雙節點模式下F1-score 值均比文獻[1]方法高且不同節點模式下平均值差值有所提高，因此與相較文獻[1]方法相比，集成模式更具有有效性；使用該文設計的方法后，單節點與雙節點模式下F1-score 值均比文獻[2]方法高且不同節點模式下平均值幾乎相同，表明說明該集成模型在進行數據集成的過程中，準確性與穩定性更佳，集成的數據更加有效，因此該集成模型設計成功，符合該文的研究目的。

3 結語

隨著化工企業信息化建設發展，財務系統、自動化系統在化工企業得到了較為廣泛的應用，逐漸達到企業實現財務信息化的建設目標。由于化工企業財務數據相對獨立、封閉，因此通過財務軟件系統很難進行數據整合，使財務數據不滿足企業不斷變化的經營需求。該文利用數據倉庫設計了一種化工企業財務數據集成方法。通過生成數據本體、處理數據和集成模型等方式，將化工企業財務數據進行有效地集成，將滯后的企業財務數據沉淀下來，及時提升企業的競爭力與決策力，對化工企業的進一步發展具有重要的作用。