

摘要:社會的進步和科學技術的迅猛發展,各類研究成果以前所未有的高速度增長。擬采用稀疏表示模型,使用稀疏重建算法,通過重建實現對學者信息的采集。
關鍵詞:信息采集;稀疏模型;重建算法;高效
1 引言
隨著學術交流活動的日益活躍,研究人員通過圖書出版的形式將研究過程中形成的對某一問題的總結性思想、某一領域取得的前沿成果等進行記錄和傳播。這些圖書一般具有較高的學術水平和原創性,在某種程度上體現了作者的學術積累并以“學術著作”的名稱為學術界所認同和使用,逐漸成為日益重要的學術文獻,對這種承擔重要功能和作用的學術文獻進行數據采集和分析具有重要的意義。
社會的進步和科學技術的迅猛發展,各類研究成果以前所未有的高速度增長,直接導致了相關文獻數量的急劇增長。僅以科技文獻為例:據統計,全世界每年出版的圖書有80萬種以上。學術信息的爆炸式增長,研究人員和研究管理人員面臨選擇的難題,如何從浩如煙海的文獻中獲取最有效的信息資源無疑是一項嚴峻而重要的課題。
一方面,相對期刊論文而言,學術著作通常篇幅大、出版和使月周期長、電子化程度低。這些因素造成對學術著作數據的采集和分析都比較困難。另一方面,相對期刊論文而言,有關著者的基本信息包括姓名、所在單位、項目支持情況、學者類型等基本情況不能直接從著作本身準確獲取。因此,如何有效獲取學術著作的數據是亟待解決的問題。
本文多維度分析學術著作相關特征,創新性提出基于稀疏模型的采集方法,實現對學者信息、學術著作的匹配,建立稀疏模型,有選擇地聯動高校機構知識庫(科研管理系統)的數據,從而實現對學術著作相關信息的采集和分析。
2 基于稀疏模型的學術著作信息采集模型
立足于信號本身就具有稀疏性或可壓縮性的先驗特性。Donoho[1],Candès [2]等提出信號采樣和重建的理論—壓縮感知。考慮到學者信息與學術著作的匹配問題的實際情況,即相對于著作信息,學者的信息--學者的姓名和單位具有稀疏性,因此提出將稀疏重建模型引入到學術著作信息采集,公式如(1)所示:
subject to?(1)
其中待重建的為N個學者信息,表示為待重建的未知信號,那么可以通過求解一個最小平方的問題重建信號,即存在最優支撐集的索引和滿足,其中是矩陣的第J列。通過最小化誤差函數實現對學者信息的獲取。
3 結果分析
采用待重建的信號維度是1024,對應數據庫里有1024個學者信息,稀疏度K的范圍為100至150,即有100至150名學者信息需要采集。仿真結果如表1所示,模型所使用的觀測矩陣為滿足約束等距性質的貝努利隨機矩陣矩陣,在稀疏度范圍的100至150的情況下,成功重建的概率為99%以上。
4 結語
隨著通信和電子技術的飛速發展, 人類對信息量的需求與日俱增。與此對應的大量數據產生。如何有效提取和采集有用信息是亟待解決的問題,特別是各類研究成果如何有效與學者信息配對。考慮到信息本身的特點,從稀疏的角度出發解決問題是一個實用高效的方法。
參考文獻
[1] Y. Tsaig, D.L. Donoho. Extensions of compressed sensing. Signal Processing.2006, 86(3): 533-548
[2] E. J. Candès, J. Romberg, and T. Tao. Robust uncertainty principles: Exact signal recognition from highly incomplete frequency information. IEEE Transactions on Information Theory.2006, 52(2): 489-509
[3]練秋生,陳書貞. 基于解析輪廓波變換的圖像稀疏表示及其在壓縮傳感中的應用. 電子學報. 2010, 38(6): 1-6
[4]劉亞新,趙瑞珍.用于壓縮感知信號重建的正則化自適應匹配追蹤算法. 電子與信息學報. 2010,32(11):2713-2717
畢雪,助理研究員,項目資助編號:SCAA16B10,四川學術成果分析與應用研究中心,西華大學重點項目資助Z1520908,四川省教育廳資助項目17ZB0416,教育部春暉計劃項目資助Z2017075
1西華大學電氣與電子信息學院;2四川學術成果分析與應用研究中心