陳世雄
【摘要】本文從信息技術發展推動企業檔案數字化出發,提出利用中國知網來充實豐富館藏資源,特別介紹了中國知網及電力勘測設計知識服務平臺特點、功能及比較評估,最后展望未來利用知識管理系統建成知識驅動型的創新文化企業。
【關鍵詞】檔案數字化;數字檔案;中國知網;知識管理
福建省電力勘測設計院(以下簡稱福建院)建院至今積累了大量的檔案資源,隨著信息技術的發展,這些檔案資料的載體逐漸數字化、信息化,并要求對數字檔案資源進行有效管理和在線利用,為此,數字檔案館建設成為福建院檔案信息化建設的重點,在機讀目錄數據庫建設、館藏檔案數字化、檔案網站建設、數字檔案館實施方面均取得了長足進展,檔案信息化建設全面、有序、系統發展。為充實豐富數字檔案館館藏,福建院數字檔案館建設后續工作,即館藏檔案數字加工也是檔案數字化建設的重要內容,這是今后相當長一段時間內福建院的檔案工作重點,同時,對院購買的紙質規程規范及圖書,外購大量的信息資源,包括電子規程規范、圖書、期刊、論文等外部信息資源,通過與電力標準化信息系統、中國知網鏈接,減少了或免購了規程規范、圖書、期刊等紙質版,使知識的傳遞速度增快,滿足生產的需要,有效地提高生產效率,還大大的減少了檔案庫房和檔案裝具,從而降低保管成本。下面詳細介紹中國知網及電力勘測設計知識服務平臺,并利用該平臺補充豐富福建院館藏資源。
一、知網平臺及電力勘測設計知識服務平臺技術特點
(一)基于云計算非結構化數據庫技術。知網云數據庫系統KBASE能夠實現對PB級異構非結構化資源進行存貯、檢索、管理,具有優異的全文檢索性能和強大的海量非結構化數據存儲管理能力,擁有超過500萬詞匯量的、大百科式的概念關系詞典,具備業界領先的中文智能信息處理能力。云數據庫系統KBASE可以支撐大數據分析計算的海量非結構化知識資源庫管理,該系統是目前管理數據量最大,檢索速度最快的全文檢索系統,其性能和穩定性經受住了近20年大規模商業海量數據分析系統應用的考驗。
(二)自動XML數據加工技術。自動XML數字資源加工主要是對數字出版物的內容進行XML化的結構化數據加工,并對數據進行規范化處理,XML數據獲取技術采用版面理解技術、自動標注技術、主題詞標引、自動分類技術對數字資源進行深度加工處理,形成結構化XML數字資源。
(三)自然語義處理技術。對中外文自然語言的字、詞、句、篇、章的輸入、輸出、識別分析、理解、生成等操作和加工。實現的技術包括:單詞、主題詞的理解和切分;全文文本存貯和檢索;自然語言問答系統;關鍵詞自動抽取;自動文摘、自動分類;人名、地名、機構名、專有名詞等命名實體的辨識和自動提取等。
(四)大數據挖掘處理技術。基于知識挖掘技術開發的知識元檢索系統,提供概念定義搜索、圖片搜索、圖形搜索、表格搜索、數值搜索等多源異構大數據系統的檢索與分析功能以及學術趨勢分析、智能翻譯助手等知識服務功能。根據數字化編輯生產需要,研發了人機結合的自動標引技術和自動生產流水線,建設了500萬概念關系語義詞典庫。
(五)知識組織技術。知識組織是對知識客體進行整理、加工、控制等一系列組織化的過程及方法。在網絡信息社會,知識組織的目的是向網絡用戶提供經過整序、分析、處理的網絡信息。知識組織相關技術主要有知識元、知識網絡、語義網絡。
(六)知識關聯分析處理技術。一是共現分析方法。將各種信息載體中的共現信息定量化的分析方法,以揭示信息的內容關聯和特征項所隱含的寓意。二是共詞分析。主要對具體某一組詞分別兩兩統計它們在同一篇文獻中出現的次數,在此基礎上對這些詞進行分層聚類,揭示出這些詞之間的親疏關系,進而分析這些詞所代表的學科和主題結構演變。三是共引分析。指兩篇文獻同時被后來的其他文獻所引用。具有共引關系的文獻之間借共引強度體現彼此間的關聯度和內容的相似性,同時基于共引關系所形成的文獻共引網絡將學科之間的關聯與親疏直觀地呈現出來。四是作者耦合分析。指兩個作者共同引用的文獻越多,他們的研究興趣越接近。原理主要是將兩個作者通過引用文獻的次數作為統計樣本,通過構造矩陣,聚類分析的方式,計算作者之間的相似度,進而分析具有相同研究方向的作者。五是知識網絡路徑分析。通過對已知的知識節點和網絡結構等信息進行分析,來預測網絡中尚未產生知識節點之間關聯的可能性。六是社會化復雜網絡計算分析。由社會學家根據數學方法、圖論等發展起來的定量分析方法,社會網絡分析法可以從多個不同角度對社會網絡進行分析,包括中心性分析、凝聚子群分析、核心—邊緣結構分析以及結構對等性分析等。
(七)知識可視化技術。知識可視化以數據分析技術、知識網絡分析技術為基礎,利用圖形設計、認知科學來構建、傳達和表示復雜知識的圖形圖像手段,除了傳達事實信息之外,知識可視化的目標還在于傳輸人類的知識,并幫助他人正確地重構、記憶和應用知識。知識可視化展示技術主要有知識地圖和知識圖譜。
(八)KNS知識網絡服務平臺構建技術。在知識組織元數據規范方面,已經在期刊、學位論文、會議論文、新聞報紙、年鑒與統計年鑒、政策法規、專利、標準、科技成果、圖書專著、百科、詞典、手冊、海外文獻等多種知識制定了元數據規范標準,保證了知識數據的準確規范。在知識組織廣度與深度方面,已經實現在多源、多語言、多模態類型的異構知識文獻中,對主題、作者、機構、關鍵詞、出版物、基金、數值、公式、表格、圖片等多種元數據的自動標引、分類、存儲及檢索技術的研發,數據在準確率和召回率保持國內領先地位。在知識組織粒度方面,已經實現對知識文獻數據的XML碎片化加工標引技術,將文獻知識組織的粒度細化到章節、段落、甚至是語句。細粒度的知識組織保證了知識概念語義網絡的準確性。在知識組織形式方面,已經實現知識檢索導航平臺——KNS知識服務平臺、基于知識元的知識網絡的構建——知網節系統,以及初步建立了基于學術概念的RDF語義網絡。
二、知網電力勘測設計平臺功能結構模塊介紹
(一)業務導航。業務導航展示電力勘測設計單位的主要業務類型,包括火力發電、水力發電、風力發電、核電、其他新能源、輸配電、工程造價、工程總承包、工程監理、電力節能、安全標準化以及經營管理等方面。點擊每個導航節點,即可進入該導航節點的檢索結果頁面。
(二)產業情報。產業情報主要是電力相關的資訊,包括產業動態(勘測設計行業、同行動態)、市場資訊(工程信息、招投標信息)、電力動態(電力產業規劃、電力體制改革、發電動態、輸配電動態)、最新科技(前沿技術、技術標準制修訂、專利技術、科技成果)、政策法規(電力政策法規、工程建設、投資管理、財金稅費)等。該模塊內容可以輔助領導決策層獲取電力行業的發展趨勢和熱點問題,掌握同行競爭者的現狀,為領導決策層確定本單位的發展方向,制定發展戰略和經營目標,提供情報支撐。
(三)熱門專題。平臺展示了目前電力勘測設計單位關注的六大熱門專題——1000MW超超臨界、特高壓、BIM模型、大數據應用、能源互聯網、國際工程索賠。這些專題是電力勘測設計單位在發展中遇到的新問題,或者是與其自身發展密切相關的行業發展大環境。這些專題的設置為電力勘測設計院解決發展中遇到的問題提供了經驗借鑒、解決方法、解決方案等。
(四)科技創新。平臺展示了發電技術(火電、水電、核電等)、電網技術(輸變電、配電)、勘測技術(水文氣象、測量、巖土工程)、環境評價、水土保持,以及電力及相關行業國家標準、行業標準、國外標準、中國專利、海外專利、科技成果等具體欄目。這些欄目內容涵蓋了火電、水電、核電、風電與新能源、輸配電等電力工程規劃、勘測、設計等方面的技術規范、規程、標準、工程技術、案例、經驗總結等,環評技術、水保技術以及電力及相關行業的標準、專利、科技成果等,為生產人員攻關工作中的技術難題提供了文獻支撐。
(五)閱覽室。平臺主要展示了電力、建筑、環境等方面的原版出版物——期刊、報紙、工具書、年鑒。該模塊主要為電力勘測設計單位提供原版出版物,為工作人員整刊閱讀文獻的需求提供服務。點擊每本刊物的封面,即進入該刊的整刊閱讀頁面。
三、知網總庫與電力勘測設計知識服務平臺比較及評估
(一)知網總庫。知網總庫種類齊全覆蓋面廣,內容覆蓋自然科學、工程技術、農業、哲學、醫學、人文社會科學等各個領域。資源涵蓋期刊、報紙、博士、碩士、會議、年鑒、統計年鑒、專利、成果、圖片、法律、外文等。同時總庫按照10大專輯,168個小專題劃分,方便大家按照學科查找。
(二)電力勘測設計知識服務平臺。《電力勘測設計知識服務平臺》通過運用CNKI知識發現網絡平臺技術(KNS6.6)、數據整合、數據挖掘等技術將與電力勘測設計單位業務相關的電力工程規劃、勘測、設計,工程總承包、工程監理、環評、水土保持方案編制,標準、專利、科技成果以及企業經營管理等文獻資源從CNKI海量資源中提取出來單獨成庫,并邀請行業內的專家指導設置專業導航,形成電力勘測設計單位的知識服務信息化平臺。
(三)知網總庫與電力勘測設計知識服務平臺對比。
根據價格對比分析,在相同的資源情況下,如果使用《電力勘測設計知識服務平臺》費用比使用《中國知網總庫》費用節省,同時《電力勘測設計知識服務平臺》不僅具備知網總庫的功能,同時還能實現知識熱點、競爭情報、市場動態等知識推送。還對資源進行模塊劃分,方便大家閱讀;且平臺頁面比知網總庫頁面更具針對性及專業性,更符合設計人員的閱讀習慣。
四、結語
福建院于2004年開始使用中國知網數據,從知網發文情況統計,在福建省電力行業,福建院發文情況排在第一位,屬于學術研究前端,在省內占據重要地位。知網《電力勘測設計知識服務平臺》為福建院的轉型發展、產業提升、科技創新提供智力支持,為企業領導決策層、電力規劃、電力勘測、電力設計等生產研發部門、職能部門等關鍵崗位工作人員提供業務知識和決策支撐。未來平臺將與福建院知識管理系統平臺資源整合,打破知識孤島現狀,員工可以通過統一檢索的方式很快獲取到需要的知識,促進內部的知識共享和交流,實現多種多樣數據庫和業務系統之間跨系統的知識關聯,建成知識驅動型的創新文化企業。