田豐,楊洋
(衡水市人民醫院, 河北 衡水 053000)
作為文化事業單位,電子檔案館負責接收和管理各類檔案,方便社會服務。伴隨著社會水平的不斷提高,人們對檔案的要求也越來越高,檔案分類的概念也不斷深化,數字化檔案服務需要智能化、個性化和知識化。相關學者為簡化電子檔案搜索步驟,進行了大量研究[1-2]。
文獻[3]在多云服務器環境下,考慮到惡意TPA可能會竊取用戶隱私的情況,提出一個支持批量審計的數據擁有性證明方案,遠程校驗用戶數據是否完整存儲于云服務器,有效抵抗惡意云服務器的攻擊,保證針對惡意云服務器的安全性;文獻[4]采用多進程和多線程的軟件框架,對多源導航的驗證周期進行預處理,實現大數據量、高實時性和高并發性的導航信息采集,并利用TCP/IP協議族搭建多導航傳感器數據采集系統,其精確性、拓展性得到提高;文獻[5]引入噪聲過濾機制,提出增量式學習的數據流集成分類算法,以增量式C4.5決策樹為基礎,檢測概念漂移,保持數據流抗噪性,提高分類器加權集成模型的動態更新效果,實現檢測概念的準確性和抗噪性優化。
但傳統方法進行電子檔案智能分類的智能性較差,特征辨識能力不強,對此,本文提出基于模糊聚類算法的智能電子檔案自動分類方法,展示了本文方法在提高電子檔案智能分類能力方面的優越性能。
設計智能電子檔案系統需要考慮外界運行條件,以系統信息安全為目的。在設計硬件時需要考慮系統運行與維護的成本,在軟件設計中需要考慮保障電子檔案信息自動分類的準確性與效率。具體硬件與軟件設計如下文所示。
電子檔案信息自動分類系統基礎硬件設計中采集數據模塊選擇8通道、內置16位和雙極性輸入的AD芯片,可以保證電子檔案信息的同步采樣;系統線性動態范圍設置在10~20 dB;根據電子檔案系統的安全特性需求,選擇網絡并行接口設計。網絡基礎配置為千兆自適應交換機下的局域網;服務器硬件CPU不低于3.2 GHz,內存16 GB,硬盤500 GB,千兆網卡;操作系統環境可選Microsoft Windows2007及以上的版本。
為了保證智能電子檔案分類系統的數據存儲模塊與數據分類的動態連接,排除干擾信號,在電路端口處接入Sallen-Key低通濾波器,可以有效濾除干擾信號,維護系統的穩定性。Sallen-Key低通濾波器,如圖1所示。

圖1 Sallen-Key低通濾波器示意圖
至此,完成了智能電子檔案信息自動分類系統硬件部分的設計。
在檔案館中,通常只有檔案館工作人員才有錄入和修改檔案的權限。檔案管理員將檔案屬性和附件發送到業務邏輯層,進行處理,再將檔案信息存儲到本地數據庫、磁盤和區塊鏈數據保護子系統中。當點擊新增檔案界面和更新檔案界面的“保存”按鈕后,新增或更新表單的檔案屬性和附件信息會被發送到存儲控制器中,執行添加或修改的操作,再將相關信息同步到區塊鏈數據保護子系統中。普通用戶可以通過該系統進行查詢、驗證和借閱操作,檔案管理員可以對用戶和檔案進行管理操作,整個搜索過程具有繁雜性且技術要求高,為此進行電子檔案智能信息采集和特征分析,優化電子檔案自動分類方法。
1.2.1 電子檔案智能信息采集
為了實現基于大數據平臺的電子檔案智能分類,基于多樣本特征信息采樣方法,構建電子檔案信息采集模型,結合電子檔案信息的特征分布,進行電子檔案信息的綜合數據采集,采用模糊信息特征分析方法,進行電子檔案智能分類的大數據分析,結合模式識別方法[4-5],建立電子檔案智能分類模型,提高電子檔案智能分類管理能力。實現結構圖,如圖2所示。

圖2 電子檔案智能分類實現結構圖
根據圖2所示的電子檔案信息采樣模型中,構建電子檔案信息融合模型,采用模糊信息融合方法,進行電子檔案信息分類[6-7],構建電子檔案信息參數融合模型,得到特征分布集,如式(1)。

(1)

(2)

1.2.2 電子檔案信息融合處理
提取電子檔案信息的信息熵,采用關聯規則特征分布式挖掘方法,進行電子檔案信息融合和自適應調度[9],結合運行狀態特征檢測方法,構建電子檔案信息的統計分析模型,如式(3)。
u(t)=Cn[f(X,t)+p(t)+K]
(3)
式中,K表示總特征統計值。通過對電子檔案信息的特征提取結果,進行特征重構,采用空間分布式融合方法,建立電子檔案信息融合模型,分析電子檔案信息大數據的關聯規則集[10-11],采用空間分布式融合技術進行電子檔案信息的高分辨組合,得到組合后的主成分特征量,如式(4)—式(6)。
(4)
(5)
(6)
式中,A/B表示電子檔案信息的模糊特征分量;θ表示電子檔案信息大數據的譜分解系數;fg表示電子檔案信息的采樣率;fm表示電子檔案信息狀態點的頻率。在電子檔案信息的運行過程中,采用關聯規則特征檢測方法實現對電子檔案信息的譜特征檢測,得到電子檔案信息的運行狀態監測的頻率分量,在采樣分布區域中,得到電子檔案信息狀態監測模型,如式(7)。
x(t)=[1+Acos(2πfg+N)]
cos[2πfmt+Bsin[2πfg+φ]+N]
(7)
式中,N表示電子檔案信息的譜峰值。考慮到電子檔案信息的顯著性特征[12],得到電子檔案信息統計特征值表達式,如式(8)。
(8)
式中,φ表示顯著特征值。根據上述分析,建立電子檔案智能分類的特征檢測模型,根據大數據分類結果,進行信息融合和分類識別。
1.2.3 電子檔案的分類特征提取
提取電子檔案信息的信息熵,采用關聯規則特征分布式挖掘方法,進行電子檔案信息融合和自適應調度,電子檔案信息的運行狀態屬性分布集,如式(9)。
(9)
結合相似度特征分析方法,提取電子檔案信息的關聯規則特征集,擬合電子檔案信息狀態統計特征量,如式(10)。
(10)
式中,Vj表示電子檔案信息的自相關特征量,其中電子檔案信息特征分布集,如式(11)。
(11)
結合模糊度特征檢測方法,進行電子檔案信息分類識別,得到電子檔案信息融合特征分布集,如式(12)。
fs=θj,kN
(12)
采用主成分識別方法,進行電子檔案信息融合,得到特征判決式,如式(13)。
(13)
式中,L表示電子檔案信息特征分量。計算電子檔案信息的模糊度特征量,如式(14)。
(14)
式中,μ表示電子檔案智能分類的閾值系數,結合統計特征分析方法,進行電子檔案信息的特征提取[13]。
1.2.4 電子檔案自動分類

(15)
式中,
(16)
將電子檔案信息的運行狀態數據進行特征分解,結合統計特征聚類分析方法,得到電子檔案智能分類矩陣X的奇異值分解結果,如式(17)。
X=UDVT
(17)
式中,U∈Rm×m表示電子檔案信息綜合數據的特征分布正交矩陣,V∈RM×M,初始化電子檔案信息定位的聚類中心F(xi,Aj(L)),i=1,2,…,mj=1,2,…,k。
求出其個電子檔案信息的特征值λ1,λ2,…,λl,采用空間特征點分布的偏離值,根據電子檔案信息的屬性特征,進行電子檔案信息分類,得到分類結果,如式(18)。
(18)
式中,SURE(ωm,μ,L)表示電子檔案信息的關聯規則項。
結合神經網絡學習方法,構建電子檔案智能分類器,如圖3所示。

圖3 神經網絡分類器
如圖3所示,在用戶層,為不同領域的信息資源、不同的數據集成和網絡檢索工具提供所支持的資源聚合描述規范,同時資源聚合描述可以將更大范圍的異構數據聯合起來,為用戶提供良好的導航工具,擴大檢索范圍,提高信息檢索能力;在資源層,可采用試點運行的方法建立數據整合標準,包括集合級的描述、對象級的描述、子資源聚合以及它們之間關系的描述,通過這些描述實現分布式信息檢索、對象級資源的定位、異構信息系統之間的操作非常重要;在互操層,異構信息系統間的互操作不同于對資源對象的描述,具有分布式的特點,具有很多的層次,描述的對象位于不同信息系統,因此,這些描述對象的格式、數據結構、類型和檢索接口等都是異構的。立體、動態資源聚合描述規范能夠實現異構資源對象間的無縫組合,實現異構信息系統間的互操作。至此,實現基于模糊聚類算法的智能電子檔案自動分類設計。
為了驗證本文方法在實現電子檔案智能分類的應用性能,進行仿真實驗分析,在Kaggle(https://www.kaggle.com/datasets)平臺中進行電子檔案信息的采樣,最終樣本數為1 200,對初始電子檔案信息采樣率f0=1 kHz,模糊相關性特征分布系數為0.15,對電子檔案信息采樣的帶寬為80 dB,相關性系數為σ0=0.2,β=5,m0=0.9,根據上述仿真環境和參數設定,進行電子檔案智能分類,得到采集的電子檔案數據,如圖4所示。

圖4 電子檔案信息數據采集
以圖4的電子檔案信息綜合數據采集為輸入,提取電子檔案信息的關聯規則特征集,擬合電子檔案信息狀態統計特征量,實現電子檔案數據分類,得到分類結果,如圖5所示。

圖5 分類結果輸出
分析圖5得知,在進行分類結果輸出時,本文方法對輸出點的擬合程度較高,說明本文方法進行電子檔案分類的智能性較好,可應用于實際。
測試電子檔案智能分類的精度,將本文方法與文獻[3]批處理數據擁有性證明方案、文獻[4]實時并行采集處理與傳輸系統、文獻[5]新型含噪數據流集成分類的方法進行對比,得到對比結果,如表1所示。

表1 電子檔案智能分類的精度對比
分析表1得知,在不同的迭代次數下,本文方法進行電子檔案智能分類時,精度值皆高于其他文獻方法的精度值,說明其定位精度較高。
不同的電子檔案信息采樣模型,其空間特征的分布式融合程度不同,即信息融合程度不同,檔案信息分類結果也受到限制。將本文方法與文獻[3]、文獻[4]和文獻[5]方法進行對比,如圖6所示。

圖6 不同方法信息融合程度對比結果
由圖6可知,在40秒時間內,與其他文獻方法相比,本文方法模糊相關性特征分布系數可保持在0.15左右,說明本文方法對特征分布情況掌握較好,可實現電子檔案信息分布式檢測,因為本文采用關聯規則特征分布式挖掘方法,進行電子檔案信息融合和自適應調度,提取電子檔案信息的統計特征量,實現局部信息擬合。
考慮到電子檔案信息的顯著性特征,本文在對采集的電子檔案信息大數據進行模糊聚類和特征分布式融合處理后,進行電子檔案信息融合和自適應調度,其調度結果體現電子檔案分類效率,也就是說,在相同的自相關特征量限制下,調度時間短,電子檔案信息分類效率越高。不同方法信息分類效率對比結果,如圖7所示。

圖7 不同方法信息分類效率對比結果
由圖7可知,與其他文獻方法相比,本文方法的分類時間一直保持在6秒左右,因為本文基于多樣本特征信息采樣方法構建電子檔案信息采集模型,其模型可實現信息融合和自適應調度,分類效率高,具有良好的實際應用效果。
1.本文提出基于模糊聚類算法的智能電子檔案自動分類方法。建立電子檔案智能聚類分析模型,采用模糊信息聚類方法,進行電子檔案智能分類,提高電子檔案信息的分類能力。
2.經過仿真實驗分析得知,本文方法進行電子檔案分類的智能性較好,且分類效率和實際應用性得到驗證,提高了電子檔案的自動化管理能力,可為該領域的相關研究提供參考。