向彩霞、毛瑞琪、趙曉媛 /北京航天長征科技信息研究所
黃正軒 /正大夫國際管理顧問(北京)有限公司
王愛武 /中國運載火箭技術研究院

“十四五”期間,世界格局更趨復雜,航天發展作為戰略博弈的關鍵砝碼和經濟增長的重要引擎,得到了世界各國的廣泛重視。隨著未來對航天產業持續加大投入,相應的知識資源也隨之增加,如何充分發揮知識資源的最大效能服務科研,是中國運載火箭技術研究院
圖書館工作人員一直潛心研究和實踐的重大課題,將有效的知識資源加以記錄、整理、傳承下來,建成研究院特色數據庫。其中,最為關鍵的技術之一就是知識資源標引。筆者從知識資源的標引技術入手,結合知識資源管理工作,研究該項技術在研究院內部知識資源自建數據庫中的研究與運用。以豐富航天一院知識資源管理,搭建內部知識資源管理的信息平臺,促進科研生產模式轉型和高質量發展。
知識資源標引是對文獻所涉及的主要內容進行分析、選擇和描述,轉換成文獻特征標識的過程,文獻特征標識是對文獻進行再次組織排列的重要標記。其目的是將標引結果用于檢索,通過檢索將大量有用的信息提供給用戶使用,服務于項目和科研。標引的質量和效率直接影響知識資源處理的質量和進度、數據庫建設的規模,直接關系到檢索時的查準率和查全率。隨著全球化、信息化進程的加速,知識標引已廣泛應用于所有文獻、文檔、網頁信息等各類型信息,標引技術的發展已經成為知識資源建設的重要標志。
知識資源標引技術經歷了從完全人工標引向自動標引的轉變。人工標引又稱手工標引,是將文獻主題分析和分析結果轉換成檢索標識的工作全部由標引人員完成的文獻標引模式。自動標引是利用計算機自動給能表達文本信息內容的主題詞或關鍵詞的過程。自動標引技術按標引詞的出處,可劃為自動抽詞標引與自動賦詞標引兩大類。自動抽詞標引,由計算機系統自動抽取標引詞,保證是文本中的詞和短語,可以代表文本信息的主題內容。自動賦詞標引是指從知識資源中查找受控詞表中的控制詞,選取能表示知識資源主題內容的特定詞語的過程。目前,自動標引的研究主要集中于自動抽詞標引,而關鍵詞自動提取是自動抽詞中的一種識別片段或詞匯的自動化技術。
相比于人工標引,自動標引技術的優勢主要體現在處理速度高速、處理能力強大、穩定性卓越、成本低廉。目前,自動標引發展成為知識資源主要的標引技術手段。中文自動標引的方法有很多種,各種標引方法各有優勢又存在一定的局限性。筆者根據實現手段,主要從選詞標引、全文標引和關鍵詞標引3 種標引方式進行論述。
研究院圖書館至今已經歷60 余年的建設與發展,是一座擁有導彈航天專業特色的科技圖書館,多年以來,通過開展資源服務、科技查新、專題檢索和文獻研究,積累了豐富的工作經驗,為型號研制、科研生產、重大事項決策等工作提供了有效的服務與保障。其形成了大量的具有專業特色的內部紙質文件、內部業務知識、圖紙、檔案、科技成果、標準、知識產權、多媒體資料、情報等內部資源信息以及外購的知網、萬方、外文數據庫等外部資源信息。但是資源信息管理分散、開發利用不足、共享渠道不暢,形成了資源的信息孤島,需要建立一套完整的數據管理系統平臺進行資源的統一管理和利用,實現信息統一的查詢、獲取,助力研究院管理決策、科技創新和成果轉化管理,保障現有資源高水平、大規模創造與有效轉化運用,促進自主研發和創新驅動高質量發展。
研究院知識資源自建庫項目從2019 年開始策劃、調研準備,歷時3 年,通過知識資源標引數據平臺,完成27 個特色專題數據庫搭建,部署完成試應用,順利通過項目驗收進入推廣應用階段。該平臺的實施落地是研究院知識資源自動標引技術的實踐應用和技術創新,也是研究院內部知識資源庫建設和推廣的重要里程碑,標志著研究院圖書館在知識資源建設方面的能力提升和技術進步。
圖書館于2000 年開始建設數字圖書館,2002年在內網向全院用戶開放,其數據庫資源主要依賴于外部數據庫采集。經過20 年的建設與發展,設有圖書館借閱、中國知網期刊、萬方博碩論文、外文數據庫、外文電子書、超星電子書、國家科技圖書、外文博碩論文、航天科技信息系統等九大數據庫。
目前,本地數字文獻資源總量近87T,非本地資源60T,分別占比59%和41%,年用戶點擊量近千萬次。隨著自媒體技術的發展,為進一步提升研究院數字圖書館文獻服務能力,2019 年底,圖書館完成了掌上數字圖書館APP 的設計開發。2020年初上線,為全院讀者提供文獻資源服務,內容包括館藏資源、中國知網、萬方數據、外文題錄、軍事書目、精品文化、特色資源等模塊。讀者可以利用碎片時間,充分發揮智能手機的互聯網優勢提高工作和學習效率。
基于用戶平臺的知識資源建設與發展,以及海量的沒有實現集中收集、標引和提供檢索利用的內部有效知識資源現狀,研究院圖書館需要利用自動標引技術將以上資源進行整合建庫,開發并提供檢索應用。為此,經過多方調研對比,圖書館與中國知網合作引入“STM 中文智能信息處理平臺”,搭建研究院知識資源底層數據基礎。
基于中國知網知識資源總庫的用戶管理系統進行后臺統計分析,隨機抽取研究院院屬各單位2021 年間用戶檢索數據進行用戶檢索行為分析,通過用戶的檢索項確定知識資源的標引項,具體數據如圖1 所示。

圖1 各類檢索方式占比
用戶采取的檢索方式包括題名檢索、作者檢索、關鍵詞檢索、機構檢索、摘要檢索、全文檢索及主題檢索7 種,檢索內容基本包含了基礎的標引字段,大部分字段只需從知識資源內直接提取。通過對比檢索方式,用戶采取主題檢索與全文檢索的方式,分別占比50%以及26%,用戶往往采取直觀的檢索方式進行知識資源的搜索,以快速獲取所需的知識資源,為自動標引的項目實施提供了支持。
為了實現知識資源自動化高效標引,最大程度減少人為操作,使知識資源及時發布并得到有效利用,需配合相關計算機輔助系統進行操作。自動標引一般針對關鍵詞或主題進行標引,通過從知識資源中提取出一組能最大程度上概括其內容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對知識資源進行標引,使用戶通過輸入關鍵信息檢索到該文檔的簡要信息。清華同方有限公司開發的“STM 中文智能信息處理平臺”可實現以上目標,配合“KBase 全文數據庫管理系統”“TPI信息資源建設與管理系統”,實現數據庫建設、資源上傳及發布、資源標引及使用一系列知識管理功能。
通過建立數據庫的方式,確定標引字段并上傳數字知識資源,通過“STM 中文智能信息處理平臺”中的字符識別技術,利用各種模式識別算法分析文字形態特征,判斷文字的標準編碼;按通用格式存儲為計算機的文本文件,實現讓計算機認字、文字自動輸入的過程。該技術已達到中文識別實用化成熟程度,準確性高。
基于用戶行為分析、知網平臺功能情況,從選詞標引、全文標引和關鍵詞標引3 種標引方式對該平臺對知識資源自建庫自動標引工作需求的全覆蓋進行探索。
一是選詞標引方式。基于“STM 中文智能信息處理平臺”,對可以直接引用知識資源的內容作為標引內容的題名字段、作者字段、機構字段、時間字段、摘要字段。通過平臺的“選擇取詞”“畫框取詞”等方式,利用字符識別技術(OCR)對適量文字及段落文字進行識別認字并完成標引內容的自動化填充,相較于人工輸入標引內容,選詞標引更加高效。
二是全文標引方式。全文標引若采用人工標引的方式,其難度難以想象,尤其是對于長篇的知識資源或文字信息不可采集的情況。全文標引唯一作用于全文檢索,該檢索方式始于20 世紀90 年代,最顯著的特點是提供對海量數據的管理與快速查詢,“文海撈針”是對全文檢索的形象描述。全文檢索的內含主要體現為待檢索的源數據、檢索對象是全文,使用的檢索方式為針對全文匹配,檢索結果是全文信息,需要將知識資源內所有文字內容設置為標引字段。通過ORC 字符識別技術,全文標引的難題迎刃而解。
三是關鍵詞類標引方式。一般而言,知識資源中的關鍵詞是文獻核心內容的濃縮與提煉,關鍵詞的標引對檢索質量有至關重要的作用。從用戶的檢索習慣看,通過關鍵詞檢索的用戶僅有1%。導致這一現象的問題在于關鍵詞檢索必須確保檢索詞與關鍵詞之間的準確性,知識資源自帶關鍵詞由資源作者提供,數量較少,出現偏差會導致檢索反饋。為此,如何豐富關鍵詞一直是標引工作急需解決的問題,如通過人工標引的方式再次提取知識資源關鍵詞將大幅增加標引的難度,實現關鍵詞自動化標引。
關鍵詞作為整篇知識資源的核心,一般在整篇文獻中的出現頻率占有很大比重,重復次數越高則越可能是知識資源的關鍵詞。為此,詞頻分析方法也成為了最常用的關鍵詞提取方式之一。如采取有效的技術手段將知識資源進行詞頻統計的話,則可以有效地將知識資源中出現頻率最多的詞語進行提取并篩選成為新關鍵詞。“STM 中文智能信息處理平臺”可有效解決這一問題。通過“STM 中文智能信息處理平臺”的自然語言處理引擎與智能文本挖掘引擎,充分利用中國知網海量語料資源以及全學科概念關系詞典,有效實現歧義切分和詞語辨識,實現“關鍵詞自動標引”功能。該功能可規定關鍵詞提取的數量、標引源、關鍵詞輸出字段,最終實現基于詞頻的關鍵詞自動標引。
一是知識資源數據庫的建立。利用“TPI 信息資源建設與管理系統”,根據知識資源類型建立相應數據庫,用于對知識資源進行整體分類。數據庫建立可依據知識資源類型或知識資源專業或專題進行個性化建設。
二是標引字段的選取。數據庫建立過程中,需選取通用于該數據庫的標引字段,標引字段的選取可依據知識資源類型列舉的字段,也可自行編制標引字段的名稱、規定字段長度、設置是否必填。
三是標引文本的導入。數據庫建立完畢后,向數據庫內導入待標引文獻文本,文獻文本格式為PDF。
四是基本標引字段的標引。數據庫建立完畢導入待標引知識資源后,通過“STM 中文智能信息處理平臺”對知識資源進行標引,待標引字段為建立數據庫過程中所選取的標引字段。選擇待標引字段后,利用系統自帶的取詞功能,在知識資源文本內進行選取,通過ORC 識別后轉化為文字編碼并自動完成字段值填充。
五是關鍵詞類字段的標引。關鍵詞自動提取需要利用“QBE 數據查詢工具”,此工具可實現對同一數據庫下的所有知識資源同時進行關鍵詞自動提取。提取前可配置關鍵詞的提取數量、多個標引源以及輸出結果的標引字段,系統將根據系統詞表對選取的標引源進行處理,提取關鍵詞并反饋填充至相應的標引字段。
六是人工校驗。完成所有標引字段的標引工作后,工作人員通過“STM 中文智能信息處理平臺”查看關鍵詞自動提取后的結果,對標引結果進行審核與修訂,確保所有標引字段完成無誤后保存,完成標引工作。
經過該項目實施,基本實現了研究院自有特色數據庫建設從無到有的里程碑變化,開啟了圖書館知識資源自建庫時代。基于圖書館自主開發和收集的知識資源和同方、知網的“TPI 信息資源建設與管理系統”進行知識資源導入、標引及發布。
基于研究院航天運輸總體技術論文集、研究院新型動力技術及應用論文集、研究院仿真與虛擬實驗技術論文集、高空風修正資訊、新智能技術發展資訊、國內外航天政策資訊、伺服資訊等,進行數據庫建設、數據標引以及歸類發布。通過“KBase全文數據庫管理系統”建立“航天運輸總體技術”“新型動力技術及應用”“仿真與虛擬實驗技術”、高空風修正資訊、新智能技術發展資訊、國內外航天政策資訊等數據庫。建庫完畢后,依據標引字段選取內容,結合知識資源實際設置數據庫標引字段。該項目一期共建設27 個數據庫,所選取的標引字段取自于已有知識資源類型模板內的字段,選取過程中可對字段屬性進行編輯,更改字段名稱、字段長度以及是否空項或必備。
標引字段選取完畢后,即可向數據庫內添加知識資源,開展標引工作。除此之外,數據庫管理支持分類導航功能,可對單一數據庫進行知識資源分類,如依據研究院航天運輸總體技術專業組會議集自有分類,新建“發展戰略”及“關鍵技術”兩類導航。
完成數據庫建設及知識資源導入后即可通過“STM 中文智能信息處理平臺”逐一對知識資源進行標引。文本區顯示所需標引的知識資源文本,編目區展示知識資源所在的數據庫設置的所有標引字段,選擇相應標引字段后可于文本區內選詞或框詞進行填充,填充內容在標引數據區展示并可進行二次編輯。
相較于傳統的手工標引,使用“STM 中文智能信息處理平臺”能夠有效實現標引過程與標引結果輸出的一體化。標引過程中,提取知識資源原文的標引數據標引操作簡單,無需進行二次核對,在標引速度和文字處理效率上有顯著提升。
除提取來源于知識資源內的標引內容外,為實現知識資源檢索的全面性,還需對特定的標引字段進行補充,其中關鍵詞標引字段可采取自動化標引操作。關鍵詞擴充是利用“QBE 數據查詢工具”執行,可對單個數據庫內的所有知識資源進行批量操作,通過設置關鍵詞提取個數,選取需操作的數據庫表,選擇關鍵詞的提取位置,提取關鍵詞輸出字段位置,最終獲取由系統根據詞表所獲取的關鍵詞,將反饋至對應的標引字段下。一般而言選擇提取的關鍵詞數量越多,提取的準確性越差,且與知識資源自帶關鍵有重疊的情況時,需再次通過“STM 中文智能信息處理平臺”進行二次篩選。
主題檢索通過設置主題標引字段可實現用戶的前端檢索操作,為達到標引的快速簡便化,主題標引暫采用“題名+摘要+關鍵詞”的標引方式,即主題標引的內容涵蓋題名、摘要、關鍵詞的標引內容。
該項目實施可以將組織內部大量長期存儲的有效的知識資源進行標引,發布提供使用,大大提高了內部知識資源的利用效率,也有利于知識資源的延續和傳承,特別是專題數據庫的建成,可有效服務于組織內部各項目建設。
實現對所發布的數據庫的集中展示;對一個或多個數據庫內知識資源進行檢索;合并多個數據庫形成專題展示。這些功能可基于后臺管理進行個性化配置,配置內容包括數據庫發布,使“TPI信息資源建設與管理系統”關聯數據庫;發布設置,配置單個數據庫的檢索字段、概覽字段、細覽字段等;跨庫檢索設置,使多個數據庫進行統一檢索。
目前該項目建設僅涉及數據庫的建設,由于經費及建設周期等原因,內外部知識資源跨庫檢索功能的建設將依托其它項目逐步實現。
研究院圖書館利用TPI 建庫向導創建數據庫,開展知識資源標引,明確標引字段項目,著重研究關鍵詞標引方法,嚴格關鍵詞選詞規范與校驗,以便用戶能高效檢索所需的知識資源,該項目實施在各專業領域具有很好的應用場景。但是,知識資源標引工作是一個長期繁瑣的工程,目前該系統自帶的概念詞典還無法完全滿足關鍵詞提取的準確性,只有通過不斷對知識資源進行數據分析及機器學習,逐漸形成研究院自建庫專業詞表,才能持續不斷推進此項工作長遠發展。基于此,該項目第一階段實施之后,不斷提升用戶對自動標引和機器學習的認識,并不斷積累和完善豐富研究院自有專業數據庫,依然是圖書館未來為之不懈努力的目標。