黃夢婷 劉偉成





關鍵詞:扎根理論;信息檢索;感知價值;影響因素
摘 要:為了優化用戶檢索行為,提高用戶檢索效率,設計一個更加高效的個性化文獻推薦系統很有必要。從用戶視角切入,探索用戶在信息檢索過程中的感知價值影響因素,從而設計解決方案,使推送內容更加精確,可以有效解決信息過載問題。文章選擇26名有豐富檢索經驗的用戶進行半結構化訪談,基于扎根理論對訪談內容進行三級編碼,發現感知價值受到用戶主觀性、文獻客觀性和平臺服務三方面的影響,并對感知價值影響因素的作用階段進行分析,發現高效的個性化文獻推薦系統需要實現對用戶和文獻的正確刻畫。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2022)01-0082-07
Web2.0時代,學者們可以在浩如煙海的數字資源里通過檢索獲得有可能滿足需求的數據。開放獲取運動為學者們獲取超過自身接收能力的文獻數據提供了契機,但同時也帶來了信息過載問題。解決信息過載問題的方案之一就是設計一個更加高效的個性化文獻推薦系統,從而優化用戶檢索行為,提高用戶檢索效率。用戶的文獻檢索行為以期望消除不確定性為起點,以不確定性得到消除而結束,中間通過與檢索平臺的互動逐漸消除不確定性。互動是檢索流程中的關鍵部分,包括用戶選擇檢索平臺、用戶輸入檢索詞、平臺響應并返回檢索結果以及用戶瀏覽平臺返回的檢索結果四個動作,當平臺返回的檢索結果不能消除用戶的不確定性時,用戶會重新輸入檢索詞。也就是說,在檢索過程中,用戶會經歷一系列的隱式選擇并做出決策,如:從多種檢索工具中進行選擇、確定檢索詞、篩選有價值的文獻等,這些逐步消除不確定性過程中的影響因素正是本研究的研究重點。
1 研究現狀
用戶相關性用于判斷用戶需求和文檔的直接關系[1],也是用戶在檢索過程中做出決策的支撐。目前,面向用戶相關性的研究主要有兩個方向:一個是基于計算機視角展開算法層面的研究,或是探索用戶相關性的測度方法[2-4],或是基于用戶相關性的效果增強研究[5-7]。另一個則是基于用戶實際展開理論層面的研究,國內近期研究成果較為豐富和全面的是周國民、王健團隊,他們針對科學數據展開研究;張貴蘭主要研究了科學數據的相關性標準,包括內涵和使用特征[8-9],韋草原傾向于研究感知價值,他基于多因素說分析了感知價值的概念模型[10],構建了基于感知價值的科學數據用戶相關性模型[11]。此外,該團隊還對相關性標準、線索和感知價值之間的關系展開了研究[12]。近年來,國外傾向于從計算機視角對用戶相關性展開研究,理論方面的研究較少。Javier基于社會網絡分析法分析了推特上極端分子行為與用戶相關性之間的關系[13],Ameer提出了一種觀察用戶交互行為的方法[14]。與其他數據相比,文獻數據的個性化程度較高。現有的用戶相關性研究中關于文獻數據的內容較少且與用戶的聯系不夠緊密,因此,筆者基于扎根理論分析用戶是如何在一次次隱式選擇中做出決策的。
筆者認為,用戶相關性取決于用戶的感知價值,用戶的感知價值越高,檢索結果的相關性越高,因此,筆者將從感知價值的綜合評價說角度展開研究,基于Kuhlthau的信息檢索模型設置訪談提綱,為訪談對象虛構出一次檢索的完整過程,接著利用扎根理論分析有檢索經驗的信息檢索者的半結構化訪談內容,從而使隱含的用戶主觀選擇顯式化為一個個影響因素。
2 理論基礎
2.1 感知價值
感知價值原本屬于市場營銷學的概念,因為用戶對文獻相關性的評估類似于對產品價值的評估,都是依靠用戶的感受或體驗判斷的,所以被引入圖情領域。目前,定義顧客感知價值主要從權衡說、多因素說和綜合評價說這三個角度切入[15]。權衡說將感知價值類比為“利潤”(獲得收益與投入成本之間的差額),代表學者是Zeithaml,他指出感知價值是顧客在權衡感知利得和感知利失之后的整體評價[16];多因素說則認為顧客感知價值來自特定的價值維度,代表論述是Sheth的五要素學說(實用價值、認知價值、社會價值、情感價值和約束價值)[17],以及Sweeney和Soutar提出的四要素學說(質量價值、價格價值、社會價值、情感價值)[18];綜合評價說認為顧客感知價值來源于顧客對產品屬性、功能或作用等方面的偏好或反感,是對產品的綜合評價,其代表學者Woodruff指出,情境是研究顧客感知價值必不可少的一個因素[19]。在信息檢索中,用戶的感知價值更多取決于感知利得,再加上筆者研究的重點是其影響因素,因此權衡說和多因素說不適合本研究,筆者將從綜合評價說角度進行研究。
2.2 信息檢索流程模型
Kuhlthau從用戶角度對信息檢索過程進行了研究,他認為信息檢索是消除不確定性的過程,隨著檢索的推進,用戶的不確定性逐漸消除,認知也由模糊走向具體,動作從探索相關的信息(Relevant)變為尋找相關文檔(Pertinent),并將情感因素引入檢索過程[20]。Kuhlthau建立了一個信息檢索流程模型(Information Search Process,簡稱ISP),具體模型見圖1。
本研究主要探索用戶在信息檢索過程中感知價值的影響因素,因此筆者以Kuhlthau的信息檢索過程模型為基礎,根據其對信息檢索過程的劃分,對以下六個流程進行深入調查:一是“開始”。即用戶意識到自身缺乏知識或理解,產生了檢索需求。二是“選擇”。即用戶預測每種選擇的結果并選擇最可能成功的操作,從而確定要調查的不確定領域或主題要采用的方法。三是“探索”。即用戶通過不斷地查找與瀏覽系統推送的內容獲得新信息,逐漸形成研究的焦點或個人觀點。四是“形成”。即用戶從探索階段獲得的信息中確定研究焦點。五是“收集”。即用戶收集與研究焦點相關的信息。六是“結束”。即用戶解決了問題,消除了不確定性。
Kuhlthau的ISP模型展示了一次檢索的完整過程,模型中的六個階段按照邏輯和時間順序進行推進和過渡,模擬出了用戶從產生檢索需求開始到檢索過程中瀏覽、接收并轉換信息直至滿足需求的全過程,為本研究訪談提綱的設置提供了理論依據。
3 研究方法與過程
3.1 研究方法
本研究基于扎根理論探索信息檢索過程中感知價值的影響因素。扎根理論采用自下而上的方法進行研究,對收集到的數據進行開放式編碼、關聯式編碼和選擇性編碼,從訪談數據中挖掘和提煉檢索過程中影響用戶感知價值的影響因素。使用扎根理論進行研究的優勢在于所有理論都是基于現實數據獲得的,而非基于假設進行研究,減小了先入為主對研究結果的影響,避免了在研究過程中忽視假設之外的影響因素。
3.2 研究對象
為了保證訪談質量,需要邀請有資深檢索經驗的用戶進行訪談,筆者共訪談了26名信息檢索用戶,包含3名教授,2名副教授,5名研究生,16位本科生。其中,教授和副教授都是信息管理與信息系統專業(以下簡稱信管)的教師,有豐富的科研經驗和檢索經歷;研究生也都來自信管專業,已有兩年左右的科研經歷,調研活動增強了他們的信息檢索能力;本科生人數最多,大部分具有信管的學科背景,他們接受過專業的課程指導,包括理論和實踐;非信管專業的學生則選擇了大三或大四發表過文章的學生。無論是哪個專業的學生,都具有相對豐富的檢索經驗。
3.3 研究過程
半結構化訪談是一種幾乎無約束的訪談,是一種只需根據設置的提綱進行提問的開放式訪談,對時間、地點、提問和回答的方式沒有具體要求。訪談根據提綱模擬的場景進行,訪談者會根據訪談對象的回答提出新的問題,深入挖掘現象背后隱藏的原因。本研究的訪談提綱源于Kuhlthau的ISP理論,將檢索分為開始、選擇、探索、形成、搜索和結束六個階段,具體問題如下:
1.進行檢索的目的?預期獲得哪些信息?
2.如何確定和選擇檢索信息要采用的方法?
3.在檢索的過程中,如何判斷信息相關?
4.如何從與主題相關的繁雜數據中篩選出符合需求的信息?
5.最終是否獲得了需要的信息?怎么判斷出來的?
6.通過信息檢索,獲得了什么?付出了什么?
在正式訪談前,訪談者應先向對方做出如下聲明:“在我們的訪談中,信息是廣義上的信息,是用來消除隨機不確定性的東西。信息的來源多種多樣,包括但不限于搜索引擎、專業網站、出版書籍資料以及論文數據庫。在訪談中,您需結合自身檢索經歷進行回答。另外,為了保護您的隱私,您在回答過程中可以用簡單的詞語或相關術語進行概括。”訪談過程中,訪談者一方面要為訪談對象模擬出從產生檢索需求開始到檢索過程中瀏覽、接收并轉換信息直至滿足需求的全過程,從而從不同訪談對象的回答中逐步探索出感知價值的影響因素;另一方面要保持輕松的訪談氛圍,鼓勵訪談對象分享個人的訪談經歷。訪談結束后,筆者將音頻文件轉錄成文字,借助NVivo軟件進行編碼分析。
4 編碼分析
扎根理論方法把對資料分析和歸類的過程稱為編碼,其將搜集的資料不斷打碎、整理和重組,從而挖掘概念、提煉范疇[21]。筆者基于扎根理論進行了三級編碼,分別是開放式編碼、關聯式編碼和選擇性編碼,三者之間遵循嚴格的上下級關系,后者在前者的基礎上進行。開放式編碼借鑒彭偉、于小進等的定義,包括定義現象、發展概念和發掘范疇這三個步驟[22],筆者將收集的雜亂數據進行抽象、整理和命名,編碼出有序而不重復的范疇;關聯式編碼和選擇性編碼則是對開放式編碼得到的范疇進行聚類處理,即將具有聯系的范疇劃分到一個主范疇中;選擇性編碼需要從主范疇中提煉出核心范疇,進而梳理與描述主范疇和核心范疇之間的“故事線”。
4.1 開放式編碼
在開放式編碼過程中,筆者先將原始音頻數據轉換成的文字信息按照信息檢索的流程定義現象,然后對定義的現象進行概念化和范疇化操作,再將相同范疇的概念、相同概念的現象進行分類,最后按檢索流程推進的順序進行排列。經過開放式編碼,筆者定義了54個現象、37個概念和18個范疇(分別是需求來源、需求強度、平臺功能、數據可得性、數據獲取方式、檢索結果反饋、檢索技巧、知識積累、研究經驗、知識獲得、文獻主題、預期結果、學科背景、文獻屬性、知識結構、學術鑒賞力、學術敏感性和信息價值),開放式編碼示例(部分)見表1。
4.2 關聯式編碼
關聯式編碼就是將開放式編碼得到的范疇進行歸類。筆者根據主體不同,將18個副范疇劃分為3個主范疇,分別是用戶主觀性、文獻客觀性和平臺服務,詳見表2。
4.3 選擇性編碼
選擇性編碼就是對關聯式編碼得到的主范疇進行總結以得到核心范疇。本研究提煉出的核心范疇是“影響用戶感知價值的影響因素”,分為三個主范疇,分別是用戶相關性、文獻客觀性和平臺服務。從編碼結果可以看出,用戶的感知價值主要來自兩方面:一方面是用戶獲得數據的途徑是否方便,這與文獻的獲取方式和平臺服務有關;另一方面是用戶通過檢索獲得了有價值的信息,這是用戶與檢索平臺和文獻之間交互產生的結果,是用戶完成檢索后基于獲得了滿足需求或符合預期結果的新知識這一結果得出的結論。詳見下頁圖2。
4.4 理論飽和度檢驗
筆者完成編碼后,基本不會再出現新的范疇。同時,筆者又對四名具有信息管理與信息系統學科背景和一定檢索經驗的研究生進行訪談,對訪談內容重新進行編碼分析后沒有出現新的范疇,說明本研究具有較好的理論飽和度。
5 結果分析
用戶是否愿意接受個性化推薦系統與系統為用戶提供的服務質量密切相關。目前,計算機無法完全理解自然語言,用戶的檢索行為實際上是一種相關性檢索,即推薦系統根據用戶的檢索詞推送可能滿足用戶需求的數據,用戶經過對比與思考從檢索結果中找到消除不確定性的信息。也就是說,要提高用戶對文獻推薦系統的滿意度,必然需要考慮用戶相關性這個問題,而用戶在判斷推薦結果是否相關又與感知價值密不可分。
Kuhlthau的ISP模型揭示了在信息檢索不同階段用戶個體認知因素的變化,他認為用戶的信息檢索是一段動態的、主觀的、易受影響的過程,其在不同階段的不同選擇都會對接下來的行為產生影響,研究該過程中影響感知價值的因素,能從用戶視角對文獻推薦系統進行優化,從而更加精準地推薦符合用戶需求的文獻,下頁表3展示了信息檢索過程中感知價值影響因素的作用階段。
由表3可知,影響因素集中表現在探索和收集階段,這也是用戶和檢索平臺以及文獻之間互動最多的階段。在這兩個階段,用戶都需要從檢索平臺獲得“相關文獻”,并基于自身需求、預期結果和個人綜合能力判斷文獻的主題是否相關,同時根據文獻的各屬性判斷其可信度并分析文獻包含的價值。另外,形成階段也是比較容易受影響的階段,這一階段的影響因素與用戶主觀性相關。開始階段只受需求來源的影響。選擇階段是用戶基于自身需求通過預測數據獲取的便利性和平臺的特色功能選擇檢索平臺的過程。檢索是否結束則與用戶和文獻都相關,當用戶無法從文獻中獲得新的有價值的信息或獲得了滿足需求的信息時,檢索結束。
筆者通過分析發現,要設計一個用戶滿意度較高的推薦系統,離不開對用戶群體綜合能力的評價和預期結果的預測,這些信息可以從登錄賬號獲得;也離不開對文獻特性的準確描述,這要求文獻在錄入數據庫時正確標記;還離不開檢索平臺的功能優化。
文獻數據庫的檢索用戶一般來自高校、科研院所或學術組織,而這些機構都有能力獲取用戶的學科背景、研究經驗和知識結構,因此,機構可以通過設置登錄賬號解決信息過載的問題。如果要求檢索結果達到查全和查準的要求,設計檢索式進行檢索是最好的解決辦法,但筆者通過訪談了解到大部分用戶是通過檢索主題、關鍵詞和標題查找文獻。當用戶輸入“病毒”時,計算機專業用戶需要了解的是“計算機病毒”,醫學專業用戶想要了解的是“生物病毒”。通過用戶登錄賬號中的學科信息可以幫助系統排除干擾信息,以高校學生為例,他們登錄文獻數據庫的賬號一般是學號,而學號中包含了學生的學歷(本科在讀、碩士研究生在讀還是博士研究生在讀)、學科背景和入學年份,系統能通過學歷判斷用戶的研究經驗,再結合入學年份和學生培養計劃推測學生的知識結構。需要指出的是,推薦系統需要推薦學科相關,但不能只有學科相關,因為跨領域、跨學科的研究能給原領域帶來新的研究點和研究方法,如:感知價值原本屬于市場營銷學的概念,引入圖情領域之后就給用戶相關性研究帶來了新的研究方向。
數據庫中的文獻可以通過增加屬性標識提升查準率。筆者通過訪談發現,用戶最常使用的檢索方式是一框式搜索,即直接在主頁的搜索框中輸入檢索詞,只要文獻的標題、摘要或關鍵詞中出現相同字符就會被作為檢索結果推送給用戶。例如,在萬方數據庫檢索“用戶相關性”,相關性排序下,標題為“基于空間相關性的大規模分布式用戶光伏空間分群方法”的文獻被排在第13位推送出來,該文獻可以說與“用戶相關性”毫不相干,但在數據庫的視角下,該文獻是高度相關的。這種現象可以通過賦予文獻正確標記得到解決。
6 結論與啟示
6.1 研究結論
筆者對26名具有檢索經驗的用戶進行了半結構化訪談,訪談內容嚴格遵循提綱,同時在真實對話中插入了新問題,引導用戶將隱式的決策過程顯露出來,并對訪談內容進行了編碼處理,探索出了信息檢索過程中用戶感知價值的影響因素,發現感知價值受到用戶主觀性、文獻客觀性和平臺服務三方面的影響。筆者還對感知價值影響因素的作用階段進行了分析,發現探索和收集階段是用戶和推薦系統交互較為頻繁的階段。在這兩個階段,用戶需要通過表達需求從檢索平臺獲得“相關文獻”。研究發現,高效的文獻推薦系統離不開對用戶和文獻的正確刻畫。一方面,研究機構應充分發揮成員ID的作用,將檢索用戶的學科背景、知識積累、研究經驗和知識結構等描述綜合能力的因素納入其中;另一方面,在收錄文獻時,研究機構還應要求作者和編輯共同填寫文獻的主題字段。
6.2 局限性與未來展望
本研究還存在一些不足,一是本研究訪談的人員雖包含教授、副教授、研究生及本科生,但大多數為檢索經驗相對豐富的本科生,后續研究中應盡可能選擇具有多年科研經驗的用戶進行訪談。二是本研究基于扎根理論研究信息檢索過程中感知價值的影響因素,但只做了定性分析,沒有進行定量分析,未來可以調查各因素的權重,構建結構方程模型,這樣既能反過來驗證本研究的研究成果,又能調查出影響用戶感知價值的重要因素,從而促進個性化推薦系統的發展,提高用戶檢索效率。三是對用戶和文獻的刻畫目前只做了初步設想,未來可以進行深入分析,探索一種既不泄露用戶隱私,又具有可行性的刻畫方式。
參考文獻:
[1] WANG P L, WHITE M D. A cognitive model of document use during a research project. Study II. Decisions at the reading and citing stages[J]. Journal Of the American Society for Information Science,1999(2):98-114.
[2] 徐紅艷,王丹,王富海,等.融合潛在狄利克雷分布與元路徑分析的用戶相關性度量方法[J].計算機應用,2019(11):3288-3292.
[3] 趙小明,張群,岳昆.基于靜電場理論和PageRank算法的微博用戶相關性分析[J].云南大學學報(自然科學版),2015(2):207-214.
[4] TERESA A, JOSEP A, RAMON B, etal. Measuring user relevance in online debates through an argumentative model[J].Pattern Recognition Letters,2020(5):41-47.
[5] 任永功,王玉玲,劉洋,等.基于用戶相關性的動態網絡媒體數據無監督特征選擇算法[J].計算機學報,2018(7):1-19.
[6] SAGAR U, YI S, DAWEI S, etal. Modeling Multidimensional User Relevance in IR using Vector Spaces[C]. The 41st Internatio0al ACM SIGIR Conference on Research & Development in Information Retrieval. New York: Associtiaon for Computing Machinery,2018:993-996.
[7] EERRANO W. Intelligent Recommender System for Big Data Applications Based on the Random Neural Network[J].Big Data and Cognitive Computing, 2019(1):15-43.
[8] 張貴蘭,王健,周國民,等.科學數據用戶相關性標準研究[J].圖書情報工作,2019(4):112-121.
[9] 張貴蘭,周國民,潘堯,等.科學數據相關性標準使用特征[J].圖書情報工作,2020(10):56-65.
[10] 韋草原,王健,張貴蘭,等.基于扎根理論的科學數據用戶感知價值概念模型研究[J].情報雜志,2018(5):182-188.
[11] 韋草原.科學數據感知價值與用戶相關性判斷研究[D].北京:中國農業科學院,2018.
[12] 劉建平,王健,周國民,等.基于科學數據的用戶相關性判斷實證研究[J].數字圖書館論壇,2017(4):22-31.
[13] JAVIER T,ANGEL P L,GEMA B O, et al. Analyzing the relationship between relevance and extremist discourse in an alt-right network on Twitter[J]. Social Network Analysis Mining,2020(10):68-94.
[14] AMEER A. Dynamic Diversification for Interactive Complex Search[C]. European Conference on Information Retrieval 2019. Lecture Notes in Computer Science. Springer eBook: Springer Nature,2019:369-374.
[15] 倪淵,高宇東,楊露,等.網絡平臺環境下的顧客感知價值結構、影響因素及效應:基于文獻計量視角[J].商業經濟研究,2020(8):80-84.
[16] ZEITHAML V A.Consumer perceptions of price, quality, and value: a means-end model and synthesis of evidence[J]. Journal of Marketing,1988(3):2-22.
[17] SHETH J N,NEWMAN B I,GROSS B L. Why we buy what we buy: a theory of consumption values[J].Journal of Business Research,1991(2):159-170.
[18]SWEENEY J C,SOUTAR G N. Consumer perceived value: development of a multiple item scale[J]. Journal of Retailing,2001(2):203-220.
[19] WOODRUFF R B. Customer value: the next source for competitive advantage[J].Journal of the Academy of Marketing Science,1997(2):139-153.
[20] KUHLTHAU C C. A principle of uncertainty for information seeking[J].Journal of Documentation,1993(4):339-355.
[21] 姚延波,張丹,何蕾.旅游企業誠信概念及其結構維度:基于扎根理論的探索性研究[J].南開管理評論,2014(1):113-122.
[22] 彭偉,于小進,鄭慶齡.基于扎根理論的社會創業企業資源拼湊策略研究[J].財經論叢,2019(1):81-90.
(編校:周雪芹)
1642501705299