趙志耘,劉 耀,朱禮軍,吳欣雨
(中國科學技術信息研究所,北京 100038)
當前的復雜信息環境中,知識數據呈現一種“不穩定狀態”,來自開源情報的大規模非結構化數字資源需要經過先進的知識組織建設才能成為高質量的知識來源,為實現需求導向的知識服務奠定基礎[1]。數字資源建設的核心是知識組織模式[2],知識組織模式根據建設需求的變化,經歷了從數字資源整合向數字資源聚合的轉變[3],數字資源整合一般采用自頂向下的“分類”的知識再組織理念,近期的數字資源聚合則采用自底向上的“聚類”的知識再組織理念,形成集概念主題、學科內容和科研對象實體為一體的立體化知識網絡。資源聚合的發展方向,一是基于增強語義,主要研究方向有基于概念關系分析的數字資源聚合[4]、基于本體的數字資源語義聚合與可視化[5-6]、基于關聯數據的數字資源聚合[7-8];二是基于發現關聯,發現關聯又可細分為基于計量分析和基于社會網絡分析[9]。
數字資源建設的目的是知識服務,通過不同的服務平臺與服務模式實現知識的共享和再利用[10]。知識共享與再利用的對象可分為兩類,一類是基于特定需求對原始資源進行加工處理后形成的知識庫,可以直接再次服務于相同需求;另一類是基于需求進行知識組織加工的業務流程,可以再次用于處理類似需求的不同資源。主流知識利用模式有學科信息門戶服務模式、專業化知識服務模式、個性化定制知識服務模式、數字化參考咨詢服務模式和自助式知識服務模式[11]。大部分知識服務系統融合了多種服務模式,但目前的解決方案側重于支持第一類對象的建設與利用,而缺少對第二類對象的關注[12]。
近年來,有關知識組織與利用模式的國家社會科學基金項目多集中于對知識庫、知識圖譜和知識服務的研究,充分調研后,發現這些研究項目在領域泛化能力和知識服務自動化方面存在一些不足和問題。中醫知識組織模式創新研究(19AZD018)[13]、機構知識庫可持續發展研究(17BTQ024)[14]、基于大數據分析技術的中醫信息服務知識庫研究(17BTQ063)[15]、科技論文全景式摘要知識圖譜構建與應用研究(19BTQ061)[16]、融合知識圖譜和深度學習的在線學術資源挖掘與推薦研究(19BTQ005)[17]等項目的主要研究領域是語言學、圖書館和情報學,存在領域限定性強、知識組織工程量大、周期長等不足,無法靈活解決工程需求。而針對知識服務的研究,如基于媒體融合的圖書館知識服務優化機制研究(19CTQ008)[18]和用戶交互與知識構建雙重驅動的知識服務平臺評估研究(19BTQ081)[19],主要是對服務形式的分析,未能很好解決業務驅動下的知識組織與再利用的自動化問題。業務組織模型也僅在管理學領域的面向健康數據的認知圖譜研究(15BGL191)[20]中得到較為全面的利用。
根據上述對知識組織模式與利用模式的介紹,可以得出現有知識服務存在的兩大問題:①現有知識庫構建不夠靈活,沒有基于認知模式進行智能化知識結構構建[21-22],導致知識體系的構建不僅昂貴,還機械呆板,無法對現有知識體系進行二次組織,因而不能靈活響應日益增加的個性化服務需求[23-25];②現有研究多集中于單一領域內的語義結構化、知識圖譜和知識庫構建方式,且關于知識服務的研究局限于系統功能設計,知識組織與知識利用脫節,缺少突破領域壁壘進行知識再利用的能力,無法在業務和問題驅動下實現知識組織和知識再利用的有機整合,使知識組織和資源加工面向需求、面向服務。
針對知識服務領域現存的兩大問題,本文從業務需求入手,將研究內容分為四個部分,其中業務組織模型的理論與方法研究是指導知識組織與再利用的中心思想,業務自動生成與業務再利用能力從業務層面進行知識再利用的方法研究,敏捷的專業知識組織能力從資源層面進行知識組織的技術研究,新型知識服務模式研究則主要解決知識再利用的實踐問題。
復雜信息環境對知識組織和再利用方法都提出了更高的要求,之前針對單一領域結構化資源的處理方法不再適用于來自開源情報的大規模非結構化數據,固定的業務模型也無法滿足日新月異的知識服務需求。在新環境下,為了解決知識服務領域現存的兩大問題,本文提出圖1所示的整體研究框架,重點研究建設一個理論、兩種能力和一套服務模式。“一個理論”是指復雜信息環境下業務組織模型的理論與方法;“兩種能力”是指敏捷的專業知識組織能力,用于資源的快速解析,以及業務自動生成與業務再利用能力,用于業務模型的快速構建;“一套服務模式”指的是基于PaaS(platform as a service,平臺即服務)模式和SaaS(software as a service,軟件即服務)模式的新型知識服務模式,該新型知識服務模式由業務再利用方法和知識組織技術支撐,能夠為不同需求提供對應的知識服務組配路徑,形成靈活敏捷的知識服務平臺。本文形成的新型服務模式給予了SaaS用戶一定的業務定制能力,并降低了PaaS用戶的使用門檻,為知識再利用提供解決方案。

圖1 研究框架
在知識服務領域中,業務即為用戶提出的知識服務需求,業務組織即為調配各類資源,從分析需求、開發工具到完成需求的完整流程。業務組織和業務組織得到的結果都被稱為知識,是知識服務的素材。在復雜信息環境下,現有的業務組織模型無法根據需求高效利用資源,導致在解決個性化任務時力有不足。為了彌補這一缺陷,首先要形成系統的業務認知體系,并對業務流程中節點的資源構建機制建模,從而形成整體的業務組織模型,指導知識組織與再利用建設。業務組織模型理論與方法研究按照流程可以分為業務認知體系構建、基于業務的需求解析模型和業務驅動的代碼組配模型。
軟件項目研發流程中沉淀的業務認知,需要有一個具備存儲及推理能力的載體,即認知圖譜。業務資源數據可分為兩大類:文檔類資源和代碼類資源。文檔類資源代表各個業務節點形成的知識,代碼類資源則代表著數據流轉的全部過程。
為了賦予軟件資源解決問題的能力,本文提出構建認知的兩個維度(圖2)。首先,通過模擬軟件開發的流程,得到軟件開發的一般步驟,作為縱向的認知方式;其次,通過從資源中挖掘知識關聯,得到橫向的領域知識認知。

圖2 業務認知體系
通過分析業務流程可以得出,需要建立起的認知聯系有以下兩個方面:需求與實現方式,即功能之間的認知聯系;流程節點之間的認知推導,即流程相聯依據。以文檔類資源為核心,以代碼類資源為補充,對于每個業務節點形成業務資源深度協同的認知結構,通過需求-功能-代碼的方式進行連接,圖3為定制爬蟲業務基于認知體系構建的認知圖譜。虛線框表示同級的任務節點拆分,即橫向認知關聯;箭頭連接的是按照軟件設計流程上一環節與下一環節的對應關系,體現了縱向的認知關聯。

圖3 定制爬蟲業務認知圖譜
需求階段是軟件研發中的重要初始環節,需求的表示方式通常為自然語言的文本形式,存在于各種項目需求文檔、概要設計書、詳細設計書中。需求文本具有兩個特征:存在某一概念為業務的預期呈現結果;存在某一概念為達到這一結果的處理描述。
本文將業務劃分為三種需求處理類型,通過定義每種需求類型的概念結構特征,確定業務所屬的需求處理類型。本文假設研究的無結構需求文本都具有“需求-處理”式結構,即在需求文本中至少包含一個“需求”類概念與一個“處理”類概念。在研究構建的需求概念結構中,針對具體業務,將“需求”類概念細分為“詞匯”“句子”和“篇章”類概念。構建相應的需求文本概念結構模型如表1所示。

表1 需求文本概念結構模型
本文將業務需求文本對插件代碼所使用的自然語言處理工具建立映射關系,映射路徑為“需求文本-需求處理類型-代碼庫-細分代碼庫-代碼檢索”。需求文檔的解析結果示例如圖4所示。

圖4 需求文檔解析結果示例
業務驅動的代碼組織即跨過手動調試的步驟,使代碼能夠根據需求追蹤到符合業務需求的代碼組件,從算法代碼庫中構建出面向業務的代碼組件。在這個過程中,將與業務需求相關的代碼檢索出來,基于檢索到的面向業務的代碼,通過算法資源庫中與代碼組件所關聯的豐富的文檔與論文資源,在組配后能實現算法的正常運行。
代碼組配有兩種具體使用場景,一種是需求直接匹配單一代碼塊,在該場景中,輸入需求已被拆分為代碼步驟的最小顆粒度。此時,組配重點是確保多個需求對應代碼的輸入輸出、運行環境、解釋器版本等信息的一致性,通過在候選代碼中篩選符合條件的代碼塊進行重組,從而確保代碼的可運行。
另一種場景表現為輸入需求顆粒度比現有代碼顆粒度大。此場景的處理機制是輸入需求,以需求為關鍵詞檢索到代碼資源庫中所有相關的經過擴充語義和包含結構信息的代碼組件,隨后將檢索到的代碼組件進行聚類,根據聚類結果判斷該需求所需步驟以及各步驟間的順序,即每一需求內部形成小型組配任務。該使用場景需要實現兩層組配,第一層組配是外層需求代碼間的組配,該層組配與第一種場景一致,重點在確保代碼組合后可以正常運行。第二層組配是單一需求拆分后的內部代碼的組配,在內部組配時需要考慮到篩選出的代碼間的適配問題,只有運行環境、輸入輸出等符合要求,才能實現組配。兩層組配完成后,最終實現代碼的可運行。具體模型如圖5所示,圖中的需求1為第一種場景的處理流程,需求2為第二種場景的處理流程。

圖5 算法路徑組織模型
形成的算法代碼庫和組織路徑如圖6所示。

圖6 算法代碼庫和路徑組織示例
在復雜信息環境下,研究業務自動生成與業務再利用能力的目的是解決業務知識組織與知識再利用之間存在的斷層問題,為應用示范提供業務知識資源及模型依據,也為下文的新型知識服務模式賦能。
按照業務的處理流程,自動生成與再利用方法研究主要包括單業務資源解析、多系統知識關聯和業務資源再利用路徑自組織,整體框架如圖7所示。

圖7 業務模型自動生成整體框架
單業務資源解析是根據Schema規范對業務知識進行形式結構化處理,再利用各類知識抽取手段進行內容結構化處理,形成單業務知識庫,同時指導內容結構化生成。單業務解析的關鍵流程如下。
(1)形式結構化:提取業務文檔、代碼,以及相關軟件規范、論文等資源中的結構,作為多系統功能知識關聯的前提。
(2)內容結構化:對業務文檔進行概念提取、概念關系標引,提取需求與功能對,對代碼進行語義分析,提取功能與流程對。
(3)知識資源庫構建:利用單業務資源的結構形式及內容結構的解析結果構建單業務知識資源庫。
單業務資源解析中形式和內容語義會隨著資源本身而改變,例如,代碼資源的形式語義為代碼的編寫規范,如圖8所示,其中每個類(class)是一個功能模塊,可以當作一個任務,每個方法(meth‐od)可以實現一個完整的小流程,而代碼資源的內容語義為代碼實際的功能描述,需要通過特征抽取與關聯挖掘獲得,解析流程如圖9所示。

圖8 代碼結構

圖9 代碼業務資源解析流程
多系統知識關聯要對完成解析的單業務資源進行關聯,形成業務知識網絡,關鍵流程如下。
(1)關聯特征提取:分析提取業務資源結構、內容中的需求功能關聯特征。
(2)業務知識關聯:關聯具有相似資源與特征的資源,判斷單業務的功能及流程節點間的鏈接關系,形成多系統關聯的業務知識網絡。
以文檔和代碼資源關聯為例,如圖10所示,業務知識網絡構建的具體步驟為:①業務知識層級向量表示(文檔層級結構、需求分析-軟件設計流程、概念及其關系提取);②對需求文檔在業務層級上進行映射;③對候選代碼組合在業務層級上進行映射(函數命名原則拆解、注釋信息、特征代碼等);

圖10 文檔+代碼知識關聯流程
④根據相似度進行排序。
業務資源再利用路徑自組織基于單業務解析與多系統知識關聯的結果,以期通過業務路徑自組織實現業務資源的再利用,關鍵流程如下。
(1)多源融合的業務與功能關聯網絡構建。基于需求與業務資源庫,使用網絡表示方法對業務知識網絡進行向量表示。
(2)業務流程與功能關鍵節點發現。通過特征工程以及圖數據挖掘,構建需求與功能、功能與流程對應的關鍵節點關系判定模型,作為新需求指導業務生成的路徑構建基礎。
(3)業務路徑自組織。劃分需求對應的功能與子功能,自動獲取各功能下業務資源,對業務節點進行關系判定,實現相關資源、技術、工具和模型的自動組織,進而實現從新需求自動構建功能流程的路徑方法。
敏捷的專業知識組織能力研究目的是形成以自然語言處理及深度學習技術為壁壘的、將數據資源向顯性知識轉換的敏捷組織能力,賦予模型解決實際問題的能力。單篇文本是業務資源里知識的最小單元,通過對單篇文本的知識結構完全挖掘并結合多篇文本關聯的知識自組織模型,可在資源有限情況下提供快速針對具體問題進行知識組織的能力,作為技術能力為業務模型賦能。
單篇文本全解析主要研究專業文本的知識結構全解析,解決單篇文本中知識結構的全標引、全解析問題。
單篇解析能否全面、準確,是敏捷知識組織的基礎。單篇全解析的主要思路為“先驗知識-海量文本-知識體系-單篇文本知識結構”的映射路徑,融合先驗知識和領域知識,形成領域隱性知識結構,并基于該體系學習無結構語料的隱性結構。數據處理流程如圖11所示。

圖11 知識結構全解析數據處理流程
單篇全解析的關鍵技術節點如下。
(1)復雜語境下的知識發現。在不進行顯性標注的情況下進行語義單元的識別,利用篇章結構形成語義單元形式語義向量,結合形式語義與內容語義進行先驗知識的映射以及實體到實體的解碼,通過模板將知識標引任務轉化為文本生成任務,實現概念自動標引。
(2)開放關系中的知識發現。提出“先驗知識-海量文本-知識體系-單篇文本知識結構”的映射路徑,通過先驗知識與文本之間相互映射進行知識發現、結構與語義的融合,實現先驗知識與文本的相互轉化,完成文本知識發現與深度結構化。
(3)知識映射的路徑發現。使用大量語料進行任意領域知識體系的發現,對所發現的知識體系進行精煉,確立篇章隱含結構模型,結合概念及其關系標引結果,利用算法識別單篇文本的隱含篇章結構,指導單篇文本知識結構生成,從而實現全解析的目標。具體技術路線如圖12所示。

圖12 知識結構全解析技術路線
利用單篇全解析技術,對圖13所示的無標注的新聞進行解析,解析后的結果如圖14所示。處理后的知識結構包含該單篇中的所有實體及其類型、各個實體之間組成的關系以及隱含的主題信息。

圖13 未標注新聞

圖14 處理后的單篇知識結構
完成單篇全解析目標后,即可從單篇文本的處理轉向對多篇文本的處理。多篇文本關聯的知識自組織模型主要解決多篇文本中知識自組織模型的構建與路徑識別問題,即基于多源數字資源知識,自動組織相關資源、技術、工具和模型,從而挖掘知識結構之間、概念之間的關聯和相似關系,進一步揭示知識關聯路徑規律。
知識關聯自組織的關鍵技術節點如下。
(1)數字資源知識自組織模型構建。通過對單篇文本形成的資源庫進行假設分析,分析文本的語義結構和組織結構,構建知識網絡,得到數字知識關聯的路徑。
(2)數字資源知識自組織模型識別。利用知識文本結構化解析技術、主題提取和概念識別技術、知識結構關聯技術,對多篇不同文本進行結構計算,進行實驗驗證與分析,得出自組織模型。
數字資源知識自組織模型的生成。對未標記的開放文本首先進行單篇解析,使用關聯模型結合文本和結構進行關聯路徑判斷,實現知識關聯路徑自動生成。具體技術路線如圖15所示。

圖15 數字資源知識自組織技術路線
利用數字資源知識關聯自組織技術,對圖16所示的政策進行擴散路徑計算,解析后的部分結果如圖17所示。在政策擴散路徑圖中,有向線段的起始點是作為擴散源的政策,終點為存在擴散關系的政策,線段上標記的數值為該擴散關系的置信度,加粗的一條為置信度最高的擴散路徑。

圖16 政策文本

圖17 政策擴散路徑圖示(部分)
通過業務組織模型構建的理論與方法研究,探索加強業務模型自動構建技術與敏捷的專業知識組織方法,其目標就是實現傳統知識服務模式向新型知識服務模式的轉變。其中,新型知識服務模式有兩種,分別為PaaS模式和SaaS模式。這兩種新型的服務模式各自對應著不同的業務群體,能夠根據用戶需求、用戶技術水平、設施情況等針對性地提供服務。此外,基于SaaS、PaaS的新型知識服務模式要求對業務相關的技術模塊進行合理且有效的組件拆分與組件細化,不僅能提高面向復雜業務的處理能力,還可以良好地應對未來開發技術的迭代與更替,在技術日新月異的信息時代站穩腳跟。
SaaS和PaaS是基于云平臺的新型服務模式。SaaS服務模式即軟件即服務,在這種服務模式下,應用將作為服務提供給客戶。在傳統的SaaS服務模式下,用戶不需要考慮工具開發或者數據庫管理,使用封裝好的應用獲取定制的知識服務。PaaS服務模式即平臺即服務,在這種服務模式下,開發平臺將作為服務提供給用戶。PaaS平臺能夠幫助用戶降低開發成本,提高開發效率。傳統的PaaS可以解決一定的個性化需求,但用戶門檻較高,用戶必須有一定開發基礎,才能基于提供的基礎設施以及開發平臺,調用或改寫不同組件,完成業務資源處理。
基于對業務組織的理解,本文提出了SaaS和PaaS在知識服務領域形成的新型服務模式,能夠解決個性化需求,給予SaaS用戶更高的使用自由度,并給予PaaS用戶更低的使用門檻。在知識全解析與知識關聯的技術支持下,SaaS用戶可以在現有知識模型基礎上進行二次建模,通過對數字資源的重組構成新的知識服務并共享給其他用戶。對于PaaS用戶而言,本文基于拆解組件的知識組織與再利用機制,對知識服務的數據獲取、模型構建、工作流編寫、可視化展示的全流程進行了工具和技術覆蓋,并對流程中的每個節點的工具和技術提供自行開發、改寫或重組現有組件、調用現有組件這三種模式,大大降低了PaaS模式的使用門檻。如果用戶為特定知識領域的專業人員,需要提供該領域的知識服務,可使用本文中構建的PaaS平臺實現。用戶基于自身專業知識,在平臺構建數據模型,余下流程中均可以采用頁面配置的方式使用平臺現有組件,最終完成知識服務平臺的構建。如果用戶具有一定的開發基礎,還可以對各個流程組件進行改寫或自行開發,新開發的組件可以上傳至平臺,供其他用戶使用。總而言之,用戶可以將自身的知識能力和平臺能力結合,基于需求進行二次開發,并且將開發完成的知識服務平臺作為SaaS服務銷售給次級用戶,完成從to B(to business)到to C(to custumer)的商業模式轉換。
新型的SaaS知識服務模式指基于業務組織模型,整合單業務流程、多系統業務知識關聯、業務知識庫,實現一整套業務自動化生成流程;搭建便于用戶直接從設備訪問并使用的軟件服務,實現基于業務組織模型的業務再利用。對用戶而言,他們可以利用平臺現有資源,新增業務模型并進行再利用。
藥食同源藥方獲取是SaaS知識服務模式的一個示范。用戶想要在中醫古籍資源網站上獲得所有藥食同源的方劑,在傳統的知識服務模式下,針對這一需求,需要首先獲取所有藥食同源的藥方,進行處理并展示。在新型的SaaS服務模式下,可以實現對該個性化需求的靈活響應,即一切都在現有網站上進行,基于當前資源,根據用戶輸入的業務模型形成展示結果(圖18),之后其他用戶可以再次使用該模型查看結果(圖19),完成資源共享與再利用。

圖18 用戶自定義業務模型

圖19 查看并使用平臺上已有的業務模型
PaaS知識服務模式提供了面向開發人員的數字資源知識庫的基礎平臺,允許開發人員根據自身業務對數字資源的需求,構建不同的知識主題和知識場景,其核心在于覆蓋業務需求全流程的基礎平臺以及可復用的插件、工具和接口。
根據業務流程和知識場景,本文將PaaS基礎平臺構建分為六個部分分別進行搭建,如圖20所示。

圖20 PaaS平臺組成
對于可復用組件,平臺以微服務的理念拆解現有的多種數據加工工具,允許PaaS服務模式下開發人員在此基礎上進行創造性知識服務建設。所有平臺上已有和上傳的資源、工具均可以再次使用,并構建從需求到代碼的映射模型(圖21),實現基于需求的自動化工具推薦。

圖21 從需求到代碼的映射模型
當前平臺已經可以實現從數據到服務平臺生成的無代碼路徑,專業技術人員不需要具備代碼知識,即可通過配置(圖22)形成服務平臺(圖23)。

圖22 前臺配置頁面

圖23 生成個性化服務平臺
情報感知作為PaaS服務模式的服務示范,其目的是對互聯網中的信息進行挖掘與整合,對開源情報進行溯源分析和立體式信息提取,實現輔助決策。情報感知的關鍵技術節點如下。
(1)面向回溯的資源發現。從現有資源中抽取內容語義和結構語義,獲取與現有資源類似的新資源列表;對資源可信度進行評價并排序,將排名較高的新資源加入資源庫,并計算新的內容語義和結構語義,不斷迭代完成面向回溯的資源發現。
(2)多語言感知單元提取。定義情報感知中的感知單元,根據現有的主題知識圖譜和形成的資源庫,構建包含主題的感知單元模型,解決元素分散以及單個篇章中可能出現多個感知單元的問題;基于網絡敘事的生成機制,解決多語言的問題,最終完成主題下的感知單元提取任務。
(3)演化路徑與階段判別。基于分布假設,形成主題下的事理圖譜;基于網絡輿情演化過程,對包含時序信息的感知單元演化路徑進行發展階段劃分,生成演化式摘要。
在PaaS平臺中,可以實現上述需求,處理流程如圖24所示,形成的知識服務如圖25所示。

圖24 情報感知PaaS平臺處理流程

圖25 情報感知知識服務平臺
本文提出一個理論、兩種能力和一套服務模式,從需求入手,以業務組織模型理論與方法為指導,通過業務模型自動構建研究,形成針對資源特點的個性化業務模型;針對當前知識組織模式中知識庫構建成本高昂、缺少靈活構筑資源的個性化解決方案且數據利用程度過低的問題,建立高效敏捷的知識組織機制,利用單篇全解析及多篇路徑自組織等技術手段,實現快速解析資源的目的,為真實項目的應用服務提供技術支持;以新型服務平臺及具體服務為示范,建立基于技術和工程的知識共享模式示范,形成了兩大創新內容。
1)基于技術的顛覆性知識共享模式
形成新型知識共享與服務模式,在技術與工程思想指導下,快速分解業務需求,自動生成業務鏈條,為業務問題提供智能化、個性化、以業務為驅動的知識組織服務方案。基于扎實的技術與工程能力,基于對實際業務需求的分析與拆解能力,避免了紙上談兵的知識體系構建研究。
2)快速靈活的業務模型構建技術
在專業知識組織方面,通過單篇文本全解析與路徑自組織技術研究,實現高精度的資源解析及知識體系構建。在業務模型構建方面,靈活的資源解析技術避免了大型領域知識庫構建的高昂成本,為資源共享與再利用賦能。
本文為相關學術領域提供了思想方法和關鍵技術上的創新,包括一種新的知識抽取和業務模型自動構建方法,以此拓寬自然語言處理的應用場景,為數字資源知識共享與知識再利用研究豐富先驗知識,積累可用資源。未來將按照本文所提出的知識組織和再利用框架,探究新型知識服務模式的優化與具體知識服務場景下的應用能力,從而提升復雜信息環境下數字資源構建對知識服務的支撐能力,不斷豐富和拓展知識服務領域的模式和方法。