戎軍濤
(中國人民大學信息資源管理學院 北京 10089)
解決人類知識信息的獲取和利用,滿足人類的知識需求是信息檢索的核心任務,也是國內外圖書館信息學追求的目標。20世紀60年代以來,信息檢索領域經歷了系統導向模式、行為導向模式,目前正在向認知導向模式轉向。系統導向模式將信息檢索看成是一種簡單的物理或機械式的匹配活動,盡管在不斷地改進算法,但由于忽視了用戶的存在,因而在檢索效率上遇到瓶頸。行為導向和認知導向都屬于用戶導向模式。行為導向的信息檢索更加注重觀測用戶的信息搜尋行為,引入了用戶的心理、情境、需求、情緒等變量,但缺乏對信息資源內容的關注。20世紀70年代以來,認知觀的引入給信息檢索提供了新的視角。信息檢索本質上是一個認知過程,目的是滿足用戶信息需求,進一步改善用戶知識結構[1]。1992 年,P. Ingwersen提出了與情境相關的整體主義認知觀,揭示了信息檢索的認知轉向路徑[2]。認知導向的信息檢索引入了更多的變量因素,如信息行動者、工作任務、信息系統、信息對象、社會組織情境等,使得信息檢索系統越來越復雜,不再僅僅是單維度的、靜止的、簡單的關鍵詞匹配活動。數據智能時代,以大數據與認知計算為代表的智能技術為信息檢索提供了更加豐富的理論技術和應用實踐基礎,同時也改變了人們對人工智能技術的認知。信息檢索系統以更加智能的形態出現,向以知識圖譜為基礎的智能檢索、智能問答系統轉變,開始重視人們在信息利用過程中的知識結構和認知能力,強調信息系統和用戶雙方在認知層而非物理層上交互的重要性。
由于認知信息檢索理論引入檢索者認知變量,更加符合人類信息檢索行為認知過程的實際情況,因此認知信息檢索具有良好的發展前景。認知觀的引入能詳細闡釋信息檢索交互的相關細節,為信息檢索發展提供了新的思路和方法,但是認知導向的信息檢索系統尚處于理論觀念革新和系統模型構建階段,尚未驗證成熟,人們對認知信息檢索框架的認識也較為模糊。本文從認知視角出發,旨在探索信息檢索的本質,闡明認知導向內涵,構建動態的認知信息檢索的基本框架模型,促使信息檢索領域重新定義、精煉和改進,為改善信息獲取和利用效果、解決信息檢索各種問題提供有價值的參考方案。
信息檢索的研究框架通常包括三個基本要素:信息檢索者、信息對象、信息系統,其核心問題是人與目標信息的匹配。圍繞不同的要素展開研究,會形成不同的理論導向模式:以信息系統為中心進行研究,就形成了系統導向模式;以信息檢索者的行為為中心進行研究,就形成了行為導向模式;以信息對象和人的相互作用為中心進行研究,就形成了認知導向模式。
自20世紀50年代以來,系統導向的檢索或客體范式是信息檢索領域的主流,關注的是如何快速、高效地構建文獻信息檢索系統,產生了大批有影響力的文獻數據庫。在此期間,著名的 Cranfield檢索評測實驗提出了許多目前仍然被廣泛采用的檢索評價指標[3]。在20世紀70年代到80年代,許多信息檢索的理論與模型被提出,如矢量空間模型、概率模型等。20世紀90年代以來,在互聯網技術的推動下,信息檢索進入以搜索引擎、數字圖書館、網絡導航等形態為主的網絡信息檢索階段,研究領域擴展到文本檢索、自動問答、文本過濾、跨語言檢索、主題識別等多個領域。
系統導向模式關注的是技術、算法、模型,其研究目標是按照需求來設計能識別大量相關文獻并對其進行排序的算法,研究重點是作者文本、文本表示、提問式與檢索技術[4],包括文本分類與聚類、文本索引、關鍵詞匹配、單元詞標引、元數據描述、檢索相關性、系統互操作等。但是系統導向的信息檢索沒有考慮使用系統的人的因素,其理論假設是用戶需求已經明確,找到文本就能滿足的用戶需求[5]。因此,系統導向的信息檢索系統是單向度的、靜態的、固化的,人與系統之間缺乏必要的反饋與交互,難以滿足用戶知識需求。
20 世紀 70 年代以后,用戶導向的信息檢索受到關注,側重研究用戶與系統的交互以及信息搜尋行為,主要包括用戶的信息需求、獲取、查詢、交流、利用等行為,因此用戶導向的信息檢索也被稱為行為導向模式。英國情報學家T.D.Wilson于1981年提出了信息搜尋行為的情境模型,1996年再次對其進行修訂,1999年進一步提出信息檢索、信息搜索與信息行為的嵌套模型,揭示了主要概念間的嵌套關系,其核心思想是:IR 總是處于信息搜尋過程的情境之中,而信息搜尋又是構成整體信息行為的其中一種[6]。Ellis描述了各類社會科學家個體的信息搜尋行為特征,提出了研究人員的信息搜尋模型[7]。Kuhlthau提出信息檢索的過程模型,主要包括發起、選擇、探索、制定、收集和呈現六個階段[8]。Spink描述了信息檢索過程的交互、循環模型,即每個搜索策略可以包含一個或多個循環,每個循環可能包含一個或多個交互反饋事件[9]。
信息檢索的行為導向模式側重于經驗研究,具有較強的實證性和應用性,注重心理、情感、需求、動機等心理因素,采用社會學、行為科學、心理學等學科的理論、方法和實踐來探討信息行為的影響因素,其目標是理解人類信息檢索行為,關注的是用戶的問題空間、信息問題、請求、與媒介的交互、接口設計及表達方式等。行為雖然反映人類的主觀世界,但是行為并不等同于人類的主觀世界,它僅僅是主觀世界的社會化表現。所以,用戶行為并不能完全揭示、反映用戶信息需求,但行為本身卻是通向人類認知的媒介。
20世紀90年代,信息檢索領域開始轉向以用戶認知為導向的認知范式,更加關注用戶認知行為、檢索模型及影響因素等,將用戶看作信息吸收和利用的主體,情境、任務和相關性等都是與認知信息檢索相關的重要概念[10]。Belkin的知識非常態理論[11]、Dervin的意義構建理論[12]、Brooks的知識方程理論[13]等都是經典認知范式模型,其理論假設是人類的主觀世界會受到外界信息的輸入而改變。Ingwersen在Belkin模型基礎上提出了信息搜索的認知交互模型,進一步描述了用戶進行信息搜索時,在信息對象、搜索系統與設施、界面、用戶的認知空間以及社會和組織環境中會發生一系列的動態認知交互過程[14]。Saracevic基于信息使用的“獲得—認知—應用”模式,提出信息搜索行為的分層交互模型,模型從系統、用戶到社會情境是動態的交互過程,并有三個交流層:通信層、認知層和情境層[15]。從認知科學角度探索用戶認知結構的意義構建過程以及知識創新的認知機理,是認知導向關注的理論基礎研究。
認知導向模式是一種主體與客體的動態交流范式,強調知識的主觀性、建構性、認知性,重視與用戶的互動,注重知識的利用效果,關注用戶吸收知識后認知結構的改變,其目的是滿足知識需求,推動知識創新。認知導向要求“知識”應當做廣義的理解,它不僅僅是一種對象,同時也是一種過程,更是一種體驗[16]。因此,知識、信息不再是一種靜態的客體,而是一種多元、動態、交互的轉化過程。對知識的認識不應當局限于對知識及知識活動的靜態描述,而還應表現為以知識、人及兩者之間相互作用為核心的一種動態過程[17]。當然,認知導向與系統導向、行為導向的信息檢索并不是完全割裂的關系,而是發展、繼承和融合的關系[18]。認知導向的信息檢索范式應該是以認知范式為主導、同時整合“系統導向”“行為導向”兩大范式的綜合范式。
認知信息檢索是用戶認知空間與系統的知識空間發生在知識層面的交互,是與傳統系統導向信息檢索和行為導向信息檢索相區別的檢索模式。用戶認知導向下的信息檢索系統涵蓋用戶、情境、任務、知識、系統等要素,其內在要求是以問題情境需求為導向,通過人機迭代交互過程來動態構建恰好符合用戶問題的個性化知識資源。因此,檢索系統模型設計要重點解決的問題是如何通過對信息資源的深加工呈現與用戶認知相匹配的結果,促進用戶對任務的認知和理解,降低認知負荷,提升檢索效率。
用戶通常是帶著問題來進行信息檢索。檢索始于問題,問題源于情境。有效的理解知識或創新知識往往是在具體的問題環境中、通過解決問題的過程來實現的[19]。情境基于應用問題和應用目標,蘊含著對知識的需求;同時也對交互過程反饋的知識內容進行解析、解釋、關聯、轉變、重組,為知識內容的驗證提供意義基礎和處理框架。
認知建構主義認為,人在與任務情境的交互過程中產生了“不連續”的狀態,形成了“知識非常態”,產生了信息需求。根據泰勒提出的信息需求層次理論,信息需求分為內在需求、意識需求、表達需求和受限需求[20]。內在需求表示用戶還沒有意識到的需求,意識需求表示用戶頭腦中反映出的模糊不清的需求,表達需求表示用戶頭腦中明確的信息需求,受限需求表示用戶表達出來的信息需求。在人類認知世界中,需求通常表現為問題。因此用戶需要通過檢索行為來解決問題,恢復知識常態,完成人與任務情境的交互。問題是信息檢索的邏輯起點,也是信息檢索的邏輯終點,能否解決用戶問題,滿足用戶需求,改善用戶知識結構,是檢索系統設計成敗的關鍵。因此,信息系統的資源組織、檢索交互、結果利用等都要緊緊圍繞用戶問題的解決來進行。
傳統的信息檢索系統僅僅是文獻檢索系統,將用戶對信息的利用局限在對文獻的檢索獲取上,忽視對用戶利用、處理和管理信息的豐富多彩的過程、行為和系統的支持,難以從用戶角度來靈活組織和利用信息資源。而認知導向的信息檢索系統是知識檢索系統,是一種以用戶為中心來聚合資源、服務、信息利用活動的動態機制,根據用戶在其信息活動中的動態需求來快速和動態地構建、集成、嵌入信息資源與服務機制[21]。因此,知識檢索要求信息資源組織與控制必須達到知識層面,形成多粒度、多維度的開放、動態、交互資源體系。
一方面,信息資源需要通過數據化碎化為不同粒度的、符合人類認知的知識對象單元。另一方面,知識單元要求進一步形式化為可計算、可重組、可融匯、可再創造的知識對象,而且可以和使用者進行個性化、動態化的交互以形成新的數據對象和知識內容[22]。知識單元顆粒度有大有小,層次有高有低,強調完整性、獨立性、層次性、多粒度性。知識元的排列組合構成了不同粒度的知識單元。每一個知識單元都有明確的定義、屬性、內容和載體描述,是一個明確的知識對象,可以被鏈接、解析、處理、聚合。知識單元符合用戶認知習慣,方便用戶依據個性化需求自由組合、聚合、融合知識。
交互革命發生于20世紀90年代,是信息檢索認知轉折的一個重要方面。信息檢索本質是用戶需求和系統知識的匹配。匹配的過程就是用戶與系統交互的過程,交互目的是改變用戶的認知狀態。人類的認知狀態在信息檢索和利用過程中隨著信息的發現和獲取而不斷變化演進,導致人類的需求也處于不斷變化發展的狀態。因此,用戶的信息需求情境是一個典型的動態變化的情境,而且受現實環境、技術條件限制,用戶需求并不能完全準確地表達。但是信息需求可以通過交互行為而被明確。一次具體的檢索過程并不能滿足用戶的信息需求,若干檢索過程交互的疊加才能接近用戶的利用需求。交互發生在多個層面和多個維度,涉及任務、內容、界面、技術等要素。這就導致用戶需求和知識的匹配必然是交互的、迭代的、反復的過程。具體的信息檢索交互涵蓋一系列過程,一般包括用戶需求、具體問題、檢索操作、檢索結果、知識利用、反饋迭代等環節。交互的迭代性使人機在認知層面的匹配度不斷增強。這種交互的結果對認知系統和檢索系統都有影響。交互可以進一步明確問題需求的具體表達,也可以進一步挖掘認知結構中潛在的信息需求[23]。交互性也要求知識服務和知識庫的設計要體現動態性。
通過比較、綜合信息檢索領域的經典模型,我們可以發現信息檢索框架一般包括以下幾個核心要素:用戶認知結構、信息檢索系統、界面、信息對象、社會組織環境等。根據用戶認知導向的內涵、特征,綜合考慮信息檢索的諸多復雜要素,我們構建了用戶認知導向的信息檢索系統框架模型,包括用戶認知系統、信息檢索系統以及交互系統三部分,見圖1。

圖1 用戶認知導向的信息檢索模型
用戶認知系統是用戶的認知結構形成、建立、演化的空間,包括認知結構和社會環境兩大要素。認知結構與社會環境通過互動完成認知建構。用戶的認知建構是認知結構社會化的過程。用戶認知結構的形成主要受到用戶內部認知能力和社會外部環境的影響。認知能力主要包括用戶認知風格、認知水平、情感狀態、領域知識與檢索經驗等[24];社會環境是檢索活動存在與發生的自然與社會文化背景系統,影響、決定、制約著檢索活動的開展。社會環境具有社會、文化或組織特征,與對象、系統、領域以及檢索者的工作和日常任務、情感、動機、喜好等密切相關,主要包括社會角色、家族環境、宗教信仰、科學理性、文化傳承、風俗習慣、行為規范等一系列要素。用戶認知結構的改變與演化則需要檢索交互反饋信息的輸入。廣義地說,交互反饋信息也屬于社會環境要素。用戶認知結構改變與否,也是衡量檢索結果是否達到認知利用層面的重要標準。
認知結構也是一個動態平衡的過程結構。在認知能力、社會環境、交互反饋信息的作用下,用戶認知系統一方面通過“同化—順應”的過程,將有利于其認知結構發展的信息、知識納入自身結構體系中,不斷豐富、改善、發展自身的認知結構狀態;另一方面通過信息排斥或免疫機制將不利于(或者威脅)自身認知結構存在的信息清理、篩除,確保自身認知結構的獨立和穩定。
信息檢索系統屬于知識資源服務系統,包括知識資源庫系統和計算挖掘系統。知識資源庫是信息檢索系統的數據基礎,承載的是有序知識的集合,提供相應的知識服務。知識庫的資源組織以用戶行為習慣、認知結構以及問題情境為導向,而不是以資源本身的客體屬性為組織依據。知識組織是知識庫形成的核心環節,通過對文獻內容中蘊含的知識元進行有效識別、抽取、標注、關聯和重組,并在此基礎上構建知識元體系,實現基于知識元層面的知識組織和發現。基于知識元的文本資源內容組織過程包括知識元抽取、知識元標引、知識元庫、知識元鏈接、知識元集成、多粒度知識庫、知識元映射等一系列流程。通過抽取信息資源中的知識實體、屬性以及實體關系,進行語義標注和概念關聯,形成類似認知結構的語義概念網絡,可以多維度、多層次、多方位、多粒度地揭示知識資源。被語義標注后的知識資源在任何粒度層面上(句、段、章、文獻)都可以被解析、表征、鏈接、嵌入、集成、融匯,方便用戶依據自身需求靈活地分析、組織、調用和聚合信息內容。
在知識庫的基礎上,可以開展計算、挖掘等知識服務。知識之間存在著十分復雜的關系,知識之間的語義關系是進行知識之間邏輯推理、挖掘與重組、關聯服務的根基[25]。其中,因果關系是推理、問答等智能知識服務最依賴的關鍵語義關系,多種語義關系可以抽象為因果關系,如作用關系、影響關系、治療關系、演化關系等[26]。基于豐富的知識網絡關系,一方面可以開展多維度的語義檢索,實現知識層面的匹配;另一方面,依據知識規則可以對知識庫的語義網絡進行計算、挖掘、關聯、推理,發現潛在的知識關聯,進而發現新的知識模式。
交互系統是用戶認知系統和信息檢索系統進行知識匹配的交流空間。交互系統由場景、需求表達、語義解析、交互模塊四部分組成。
場景是用戶信息檢索、獲取與利用行為的具體問題情境。歷史情境和實時交互情境(檢索會話)共同構成了當前場景,并直接影響認知行動者對當前狀態的認識與理解。用戶在一定場景下進行檢索時,根據問題的特征形成不同的問題定向,采取不同的檢索策略來獲取信息。
需求表達是指將用戶的內在信息需求呈現為規范的、形式化的檢索語言。人類信息需求分為強信息需求和弱信息需求。強信息需求是那種問題結構清晰、易于辨別和利用、可以通過對具體文獻具體內容的檢索、獲取和閱讀來滿足的需求。弱信息需求指那些問題結構模糊、知識范圍不清晰、缺乏明確且系統的檢索發現步驟、需要動態解構和探索大量文獻內容才可能部分滿足的需求[27]。明確的信息需求通過需求表達環節可以表示為規范的檢索表達語言,潛在的信息需求則需要進一步挖掘,才能成為明確的信息需求。
語義解析負責自然語言與系統知識語言的轉換:一方面,將用戶交流的自然語言解析為系統的知識操作語言;另一方面,負責將系統的知識檢索結果(例如,概念網絡圖譜)轉化為用戶的自然語言。
交互是信息檢索的動態、循環的過程,在面對復雜和動態變化的研究問題時,需要不斷進行交互來挖掘、滿足不同層面的需求。在交互過程中,用戶通過對獲取信息進行判斷、修改和篩選等來解決當前的知識異常狀態。交互在三個層面展開,分別是系統層、內容層和認知層。系統層交互指用戶與系統界面的交互,包括物理硬件、通信設施、系統規則、查詢表達等方面的對話處理過程。內容層交互是指用戶對檢索內容相關性匹配的判斷過程,用戶通過評價、利用、比較、解釋和修改等行為與資源內容互動。認知層交互是指在語義層面的認知判斷過程,通過系統反饋、用戶修正等環節使檢索結果不斷接近用戶需求,改變認知結構。
根據認知導向的信息檢索特征和框架模型,我們以科研活動為場景,設計了一個預期的面向用戶需求的知識服務系統作為應用范例,來進一步討論認知導向的信息檢索框架。
面向用戶需求的知識服務系統原型系統由三部分組成(見圖2),分別是資源層、計算層和服務層。資源層是系統知識中心,計算層是系統運算中心,服務層是交互中心。計算層以服務層數據為導向,對資源層進行檢索、查詢、推理、運算等操作,返回結果。服務層負責用戶與結果的匹配和交互,不斷修正結果,完善運算層的算法模型。

圖2 面向用戶需求的知識服務系統
4.1.1 資源層
資源層是整個服務系統的知識來源,負責提供數據、信息和知識資源。資源庫是最底層的文獻數據庫,收錄的資源類型多樣,既包括圖書、期刊、標準、報告、專利等文獻資源,也包括數據、網站、音頻、視頻、動畫等數據資源。經過知識抽取、標注、消歧、關聯等處理環節,將信息資源“碎化”為具有一定語義的細粒度知識元,借助本體概念模型和關聯數據加以語義聚合,形成具有語義關聯的知識元集合,并存入知識元庫。資源庫和知識元庫都有服務接口通向計算層,方便計算層對不同粒度的數據進行抓取。資源庫主要提供粗粒度的文獻、信息、數據資源,知識元庫主要提供細粒度的知識資源。
4.1.2 計算層
計算層是知識服務系統的運算交互核心,負責解析、處理、分析、推理不同的數據,完成數據查詢、語義匹配、認知計算等功能。解析引擎負責讀取、解析、轉換自然語言,形成語義表達。計算引擎依據一定的知識規則進行推理、計算,挖掘知識間的隱性關聯,完成知識發現。檢索引擎主要負責執行語義查詢命令,完成精準的語義檢索和數據檢索。在服務調度引擎的統一調配下,解析引擎、計算引擎、檢索引擎統一協調工作。計算層支持主題導航、語義檢索、開放關聯、動態聚合、內容推薦、知識發現、情報計量、可視化分析等服務功能。
4.1.3 服務層
服務層是知識服務系統的應用終端,負責靈活構建用戶的問題情境,表達用戶需求,動態聚合資源,完成知識服務。服務層的功能主要有知識推薦服務和知識定制服務。情境化主題推薦模塊主要負責知識推薦功能。用戶行為數據通過行為感知模塊獲取,用戶人口統計特征、社會文化環境、問題場景等數據通過情境感知模塊獲取,經過需求計算后獲得用戶偏好模型。情境化主題推薦機制在用戶偏好模型的支持下調用服務調度引擎,完成知識資源的推薦。在知識推薦交互過程中,用戶偏好模型不斷被用戶修正。
個性化主題定制模塊負責完成知識的靈活定制服務。用戶將需求表達為問題模式,構建問題空間,進一步通過問題空間定制不同的主題情境。系統依據個性化的定制主題,形成豐富的個性化查詢請求,并通過調用服務調度引擎,進行主題資源動態聚合,形成圍繞個性化主題的、不同粒度、不同層次的資源集合。同樣,在知識閱讀交互過程中,用戶的主題定制數據不斷被用戶修正。
我們以科研用戶為例,來說明知識服務的運行機制。科學活動的生命周期一般包括了解趨勢、產生思路、設計組織項目、設計實驗、進行實驗、數據收集與組織、數據分析、交流發布、成果保存[28]。在數據智能時代,科研用戶的知識需求通常表現為戰略性閱讀、數據計算與實驗、把握前沿趨勢、循證決策支持等。具體場景如下:
知識服務系統記錄用戶的日常閱讀、瀏覽、下載、關注等行為數據,并構建用戶偏好模型,形成用戶畫像數據,并據此定期向用戶推送信息。用戶通過閱讀推送的信息進一步挖掘其內心的想法和需求,要求進一步了解相關領域的前沿、重點、熱點、動態等信息,并完成個性化的交叉復合主題定制。系統依據主題定制需求,動態組織、聚合知識內容中的主題、人物、事件、時間、地點、機構、方法、過程、公式、工具、結果等對象,同時聚合包含這些知識的資源實體和對外關聯數據,如期刊、圖書、專利、報告、機構、網站等,形成“內容—載體—關聯”的多粒度、多層次、多維度的資源集合,示例場景見圖3。用戶通過閱讀知識,快速構建知識體系。通過與知識文本互動,及時標注、記錄閱讀過程產生想法、靈感、啟迪性的思想,并通過語義鏈接,動態完成知識的關聯躍遷式閱讀,動態解決閱讀中隨時產生的需求,不斷修正主題定制數據。在知識交互式閱讀過程中,所有這些知識對象都可計算、可重組、可融匯、可再創造,而且可以和使用者進行個性化、動態化的交互以形成新的數據對象和知識內容,可以滿足用戶數據驗證、試驗需求。

圖3 關于“知識基本組分”主題的動態知識資源聚合體系
信息檢索領域經歷了系統導向模式、行為導向模式,目前正在向認知導向模式轉向。認知導向的信息檢索本質就是客觀知識集合與人類精神世界需求集合在認知層面的匹配,涉及社會組織情景、工作任務、用戶認知結構等一系列要素。認知導向的信息檢索系統設計要求遵循問題情境驅動原則、資源知識化構建原則和交互動態迭代原則。認知導向的信息檢索系統邏輯框架包括用戶認知系統、信息檢索系統以及交互系統三部分。用戶認知系統是用戶的認知結構形成、建立、演化的空間。信息檢索系統是資源服務系統,包括知識庫系統和計算挖掘系統。交互系統是檢索系統和用戶交互的邏輯空間,由場景、需求表達、語義解析、交互模塊四部分組成。該模型理論上能夠支持用戶與系統的靈活交互,幫助用戶更好地理解和識別需求,發展認知,支持實踐的應用研究。面向用戶需求的知識服務系統原型作為應用范例,進一步論證了認知導向的信息檢索框架模型的預期服務場景。