999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

發現系統用戶檢索式行為研究

2020-06-12 11:37:42王俊楊麗萍韋曉瑩
新世紀圖書館 2020年4期

王俊 楊麗萍 韋曉瑩

摘 要 本文以西交利物浦大學為例,對發現系統中用戶的大量檢索式數據進行分析,分別從檢索式的語種、主題、檢索字段、檢索策略、檢索效果和檢索事件來揭示用戶檢索式的一般行為特征。揭示的特征包括:(1)用戶采用的檢索式語種以英語為主;(2)用戶檢索式表達的主題傾向于人文社科領域;(3)用戶在發現系統中對檢索字段的選用和檢索策略的運用高于搜索引擎。針對反映的特征和問題,本文在資源整合、系統優化、信息素養課程設置方面提出改進建議。

關鍵詞 檢索詞 檢索式 檢索行為 發現系統

Abstract Taking Xian Jiaotong-Liverpool University as an example, this study investigates users search queries in discovery service including language, topics, search fields, search strategies, search results, and search events. It identifies the general characteristics of users queries behavior, including: (1) users prefer to build their search query in English; (2) search topics primarily focus on social science and/or arts & humanities; (3) users take more advantage of search options and search strategies in discovery system than in search engines. By analyzing the characteristics and problems revealed, we proposed several recommendations such as enhancing the integration of library resources, optimizing user interface of the discovery system, and redesigning instruction courses of information literacy.

Keywords Search term. Search query. Query behavior. Discovery system.

西交利物浦大學(簡稱“西浦”)在2011年初開始關注網絡級發現系統。2012年通過平臺部署、測試與評估,最終采用EBSCO Discovery Service(EDS)作為“一站式”資源發現平臺,并命名為“Discover”。西浦圖書館從系統和服務整合的角度去思考和圖書館密切相關的用戶群體,不斷挖掘系統的新功能和新服務;Discover逐漸成為西浦師生訪問圖書館資源的主要工具[1]。本文以西浦Discover用戶為調查對象,通過前期在發現系統中配置谷歌分析工具(Google Analytics, GA)[2] ,持續收集用戶群體在信息活動后留下的大量數據,重點關注和分析用戶群體在檢索詞、檢索式和檢索流方面的特征。

1 研究方法與對象

1.1 信息檢索行為的概念界定

關于用戶信息行為的研究,特別是在網絡環境下對該命題的研究,受到不同學科領域研究人員的密切關注,他們從不同角度探索信息行為理論模型、研究方法及特定情景下信息行為。根據Wilson典型的信息行為嵌套模型(又稱“洋蔥模型”)可知,信息行為是一個涵蓋性的術語,次層概念是信息覓食行為,信息檢索行為則是包含在信息覓食行為之中的[3]。信息檢索行為是指信息用戶在微觀層面與信息系統之間的交互行為,主要包括檢索平臺的選擇與切換、檢索前提問式、檢索詞選擇、檢索式構造、布爾操作符的使用與否、檢索結果瀏覽與選擇、鼠標移動軌跡、網頁翻閱頁數、檢索結果獲取等[4]。

檢索式是用戶搜索相關信息時所表達的一種語言。Wacholder提出從語言學的三個維度(詞匯、語法和語義)對檢索式的特點進行分析,其中,對詞匯的研究主要針對檢索詞的來源、檢索詞的個數及其分布等情況,對語法的研究主要是考量檢索式中若干個檢索詞之間連接關系,語義的研究主要側重于理解檢索式的含義[5]。本文主要探討信息檢索行為中關于信息檢索式的一般行為,分別從檢索詞的選擇、檢索式的構建、檢索式的質量和效果進行相關分析。

1.2 研究對象的界定

文章以西浦師生為對象開展調查,研究分析他們在圖書館“一站式”發現系統中的檢索行為。西浦是一所中外合作大學,學校專業課采用全英文教學,接受中英兩國高等教育質量保證體系的評估,多個學科獲得權威國際專業組織認證。

1.3 研究方法

谷歌分析(GA)作為一個網絡分析工具,能夠實時揭示網站上發生的用戶真實行為數據,常被用于評估和優化圖書館相關網站的功能和布局[6-7]。另外,由于GA工具配置在圖書館自建的網站上,數據統計和分析由圖書館員自己管理,在評估電子資源的使用方面,GA可以作為數據庫商提供的使用統計報告的補充,幫助圖書館更加全面地評估和決策[8-9]。西浦圖書館自2015年開始就在其發現系統平臺(Discover)上部署了GA,用來獲取用戶訪問該平臺的詳細行為數據,以此分析平臺上用戶信息行為的一般特征,優化平臺的用戶界面設置[2]。本文選取平臺上2019年4月1日至30日的訪問記錄,重點考察用戶在平臺使用中的檢索式行為特征。

2 檢索式分析

在GA產生的行為報告中,網站搜索維度子報告提供了用戶在Discover的具體搜索行為信息,包括搜索字詞、網頁瀏覽頁數、搜索后停留的時間等。報告顯示,在選定期間內,用戶訪問Discover共產生了25 700個會話,其中87.43%的訪問使用了搜索功能,唯一身份搜索次數為55 351。進行搜索的用戶,每次會話平均瀏覽的網頁數量為6.57,會話平均時長為11分40秒,會話平均包含2.46個檢索式;沒有進行搜索的用戶,每次會話平均瀏覽的網頁數量為1.54,會話平均時長則為2分59秒,均大幅度小于進行搜索的用戶。

2.1 檢索式語種分析

根據GA搜索字詞報告,在選定期間內共出現檢索式記錄43987條。從檢索式的語種分布來看,如圖1所示,英文檢索式占總量的87.6%,中文檢索式(含中英混合檢索式)僅占7.1%。此外,5.3%的記錄為韓語、日語等小語種檢索式,以及含有DOI、ISBN、ISSN等特殊字符的檢索式。分析表明,發現系統用戶在檢索過程中呈現出英文檢索式占據絕對主導的現象。歸其原因,這與西浦的英語教學環境有著密切關系。與國內傳統高校不同,學校從大一開始便強化對學生的學術英語教學,要求學生掌握英文資料的查找和引用的基本能力。英文學術資源不僅是教職人員的科研需求,也是學生所依賴的學習資源。

2.2 檢索式主題分析

檢索式又稱檢索提問式或檢索表達式,是指在計算機檢索中表達用戶檢索提問的邏輯表達式,由一個或多個檢索詞和各種布爾邏輯算符、位置算符及系統規定的其他連接組配符號組成。通過檢索式的主題分析,我們可以了解用戶關注哪些領域。

2.2.1 數據清洗原則

數據清洗是數據挖掘的第一步,也是非常關鍵的一步。在聚類之前,將檢索式中包含的所有布爾邏輯符(AND、OR、NOT)及用戶使用的搜索字段(AU、TI等)去除,只留下關鍵字。同時排除包含一些特殊內容的檢索式,例如DOI、ISBN號、ISSN號等。由于算法限制,中英文搜索字詞是分開聚類的,主要的區別在于英文是以單詞為單位,中文以詞語為單位。

2.2.2 K-均值算法

本文采用計算機文本聚類的方法對龐大的檢索式記錄進行分類,并且采用數據挖掘與知識發現領域中最常用的K-均值(K-Means)算法。該算法由MacQueen最早在1967年提出,是一種基于劃分的經典聚類方法[10]。K-均值算法的關鍵在于K值的選擇,這關系到聚類結果的準確性。如果聚類得到的簇與簇之間的差異性明顯,而同一簇內的關鍵字又相互緊密關聯,那就表明聚類結果相對準確。通過反復試驗,發現K值取28時,得到的簇符合上述特征。

2.2.3 檢索式主題

基于K值聚類的結果如圖2所示。在選取的時間段內,西浦用戶的信息需求主要集中在以下主題:⑴大型上市公司的人力資源管理、員工獎勵制度、企業社會責任等(Cluster 0, 7, 10, 12);(2)信息技術、人工智能與深度學習(Cluster 1, 11);(3)城市規劃與建筑美學(Cluster 2, 3, 4);(4)環境污染與可持續發展(Cluster 5, 20, 23);(5)中國經濟、人口、城鎮化和房地產政策等(Cluster 8, 9, 15, 17, 27);(6)兩岸關系與中美貿易(Cluster 21, 25);(7)高等教育與畢業生職業發展(Cluster 6, 13, 19, 24);(8)外語教學方法與實踐(14, 22);(9)1997年與2008年金融危機(Cluster 16);(10)刻板印象與跨文化交流(Cluster 18);(11)國際新聞業與數字媒體(Cluster 26)。

此外,對中文檢索詞進行聚類得到13個Cluster,如圖3所示。從得到的中文檢索詞聚類分析來看,中文的檢索主題更傾向于社會性和區域性課題的檢索,如社會主義、方言、蘇州工業園區、天津等。

2.3 檢索式字段分析

Discover默認的檢索模式是關鍵字檢索,這也是用戶最常用的檢索模式。在處理分析所有獲取的檢索式記錄時發現,部分用戶仍會主動地選用高級檢索模式,按需求選擇不同的檢索字段,如作者(AU)、題名(TI)、主題詞(SU)、來源(SO)和刊名(JN)等。通過提取檢索式中所有包含來源(SO)和刊名(JN)的字段,可以整理出用戶關注的來源期刊列表,以及這些期刊在Discover中的收錄情況。這對于圖書館資源查漏補缺有重要參考價值。

通常,系統管理員可以在Discover后臺直接勾選由系統商提供的資源數據包,快速地將訂閱資源整合到Discover可訪問館藏中。但是有調查指出,由于數據庫/出版商沒有及時向發現系統商提供更新的資源數據包,導致發現系統商持有的資源包與實際資源列表不一致的現象普遍存在[11]。以Springer Nature出版社為例,2019年DRAA組團采購的全學科期刊數量是1993種,而EBSCO的資源數據包Springer Journals (DRAA)只有1921種。對比后發現,通過選定字段檢索的期刊Environmental Sustainability(ISSN: 2523-8922)被遺漏,并未包含在資源數據包內,這使得用戶無法從Discover獲取該期刊上的文章內容。此外,提取檢索式中期刊信息,除了能夠幫助圖書館核對訂閱期刊是否有漏刊現象外,還能了解到用戶在平臺中檢索開放獲取期刊的行為,對于那些元數據還未添加到Discover中的開放獲取期刊,館員可以隨時登陸EBSCO管理員平臺進行配置。

2.4 檢索式策略分析

為了達到理想的檢索效果,用戶要善于選擇使用各種檢索技術,其中最常見的技術就是布爾邏輯檢索及截詞檢索。在Discover系統設置上,西浦圖書館將布爾邏輯符限定在按大寫拼寫開啟,只有當用戶輸入AND、OR及NOT,才能觸發布爾邏輯符的功能。在高級檢索模式下,系統提供了多個檢索字段的輸入框,字段之間配有布爾邏輯符供用戶選擇。此外,Discover 系統也支持截詞檢索,用戶可通過運用符號 *、#、?來構建自己的檢索式。

2.4.1 布爾邏輯檢索分析

經統計,在選定的時間區段內,西浦用戶使用布爾邏輯的檢索式占比為12.2%,其中11.3%為英文檢索式,而中文檢索式僅為0.9%。相比于其它調查揭示的搜索引擎用戶使用布爾邏輯檢索的比例,發現系統用戶使用布爾邏輯檢索的比例要明顯高于搜索引擎用戶[12]。歸納原因,除了用戶群體本身信息檢索能力差異外,用戶信息需求差異和檢索系統差異也是極為重要的原因。相比搜索引擎的用戶,發現系統的用戶通常檢索學術資料,在檢索過程會考慮資料的查全率和查準率,而搜索引擎的用戶一般搜索非學術性問題,偏好于使用自然語言檢索,不太在意檢索式的構造。在系統差異上,發現系統在用戶的初次檢索結果頁面提供了高級檢索框,可以快速地選擇使用布爾邏輯優化檢索式。

2.4.2 截詞檢索分析

截詞檢索也稱通配符,就是把檢索詞截斷取其中的一部分片段,加上截詞符號一起輸入檢索,系統按詞的片段匹配數據庫的索引詞,凡包含這些詞的片段的文獻均可檢出。在英語中,詞通常有多種形態,這些不同的形態大多只具有語法上的意義,對于檢索而言意義是相同的。截詞檢索通常使用在英文檢索式,主要用于檢索詞的單復數、不同詞性的詞尾變化、詞根相同的一類詞,以及同一詞的不同拼法等。使用截詞檢索不僅能簡化檢索式,還可以擴大檢索范圍避免漏檢,但使用時要謹慎,如果使用不當,則會造成誤檢。例如,Discover中出現的下列檢索式(案例一,如圖4),polic*不但檢索出policy、policies的記錄,而且還檢索出police、policeman等,致使檢索結果偏差。

2.5 檢索結果偏差分析

觀察檢索式與執行該檢索式后用戶相應的網頁瀏覽情況,可以推斷出用戶信息需求和其得到的檢索結果之間是否存在偏差。如果用戶在運行檢索式后對于返回結果的瀏覽量為零,甚至隨即跳出系統,通常可視為檢索失敗,用戶未能滿足檢索期望。通過對于這些檢索失敗情況的深入分析,圖書館不僅可以在日常信息檢索課程上糾正學生信息檢索的不當的行為和習慣,也可以此為線索調整用戶平臺的設置,引導用戶正確使用資源和服務。

調查發現,當今大學生在信息檢索方面比以往任何時候都更加依賴搜索引擎,并且他們容易把在搜索引擎上的使用習慣應用于圖書館提供的發現系統平臺檢索行為中,造成檢索結果與期望檢索到的結果大相徑庭。例如,從檢索式“建筑史 AND 期刊”可以推測,用戶期望查找與建筑史相關的期刊,但用戶檢索后隨即跳出了Discover系統,檢索結果的瀏覽量為零。檢索式“MAN016 AND past exam papers”則表明用戶期望搜索課程MAN016的往年試卷,檢索結果的瀏覽量顯示為零。另有不少用戶在Discover中檢索引文幫助信息,例如“如何引用中文資源”“哈佛引用格式指南”“如何引用中國法律條款”等(檢索式案例二,如圖5),同樣用戶在檢索結果的瀏覽量為零。顯然,用戶沒有在Discover檢索到想要的信息。

具體分析述檢索失敗的原因,不難發現很多用戶在發現系統中的使用習慣與其在搜索引擎的習慣基本一致。他們不會去主動地判別所使用系統或平臺的類型,而是選擇方便、易用、熟悉的系統,期望在該系統中查找囊括一切的資源和服務信息[13]。西浦圖書館將發現系統的主檢索框配置在網站首頁最醒目位置,自然也就成為了用戶嘗試搜索圖書資源與服務的首選。在發現系統的定位上,西浦圖書館將它規劃為學術資源的一站式整合系統,已經實現在元數據層面無縫地整合物理館藏目錄、訂購的電子書、電子期刊、學位論文,以及經學科館員甄選的開放獲取資源。但是,資源與服務的整合是一個循序漸進的過程,發現系統也有別于用戶習慣使用的公共搜索引擎,也就意味著并非所有的資源和服務都能通過其主平臺進行有效檢索。

目前,Discover可檢索的文獻粒度主要為文章和書目層面。要查找建筑史期刊,用戶應選取嵌入的電子期刊導航(E-Journals),按學科分類瀏覽或直接檢索期刊名。對于過往試卷,圖書館建立了獨立的存檔系統,按照學校規定學生必須登陸個人賬戶才能在試卷存檔系統中搜索及瀏覽最近三年的試卷,尚不能通過Discover訪問試卷的在線版。對于參考文獻的正確引用和標注,按學校教學委員會的要求西浦圖書館編制了常用引用格式指南,發布在圖書館的LibGuides[14]。針對學生經常咨詢的引文格式和引文工具,西浦館員在LibAnswers創建了此類問題的解答[15]。這些咨詢類的信息分散在圖書館網站的各個版塊,不能通過Discover 檢索獲取。

2.6 檢索事件分析

據筆者前期發表的研究,用戶在Discover檢索結果頁面中進行的分面點擊、下載全文、引用文獻,可以通過GA自定義的事件追蹤來標記。表1統計了在選定時間段內主要檢索事件發生的數量及比例。從表格的數據可以看出,點擊搜索、啟用擴展項和啟用限定條件的檢索事件數量基本相等。原因是Discover用戶在點擊檢索時,系統將自動啟用默認設置——擴展項和館藏條件限定。啟用館藏限定條件(Available in Library Collection)將檢索結果限定在本館可訪問的記錄內。當然,用戶可以手動移除這個限定條件,將檢索結果擴大到本館館藏外的文獻記錄。調查數據顯示只有極少數用戶選擇取消此默認的限定。在發現系統的數據處理上,只有添加為館藏的資源才能顯示全文訪問的選項;館藏外的數據,則是配置了館際互借選項。需要特別指出的是,用戶點擊分面的事件數占比為8%,不及點擊搜索事件的三分之一,說明多數用戶習慣于直接瀏覽檢索結果,不會利用結果頁面左側的分面功能精煉檢索結果。

無論用戶使用哪種檢索條件,信息搜索的最終目的是獲取相關的文獻全文,或是保存和引用信息等。一次有效的檢索,一般伴隨著全文下載、引用、導出等事件。表1統計顯示,在選定的時間內,用戶獲取全文共20 885次 (占總事件數的5.7%),包括PDF下載、HTML全文瀏覽及全文鏈接(跳轉到相應數據庫平臺下載)等。Research Starter是Discover提供的研究主題綜述性介紹,幫助用戶快速了解該主題的發展背景、關鍵知識點和應用案例。如果用戶的檢索式匹配到相關主題,Research Starter則會顯示在檢索結果的第一行。如表1所示,用戶點擊瀏覽Research Starter共計581次。另外,在檢索結果的詳細記錄頁面,系統提供了保存、引用、導出、永久鏈接等工具,便于用戶后續使用和引用。但是,這些事件數僅占總事件的2.96%。

3 結論和建議

用戶的檢索式行為是用戶表達信息需求的具體實施途徑,是信息搜索的核心過程。本文通過對發現系統用戶的檢索式的語種、主題分類、檢索字段、檢索策略、檢索事件等檢索行為進行綜合分析,并對檢索式質量和檢索效果進行評估,總結發現系統用戶的檢索式行為的一般特征如下:(1)由于西浦英語教學環境的特性,用戶輸入的檢索式以英文表達為主;(2)用戶檢索式表達的主題傾向于人文社科領域,自然科學領域涉及很少,這反映了西浦圖書館的人文社科資源受到用戶更多的關注;(3)用戶在發現系統中對檢索字段功能的選用和檢索策略的運用高于普通的搜索引擎,說明發現系統提供的檢索字段和布爾邏輯等高級檢索功能成為用戶優化檢索式表達的傾向性選擇;(4)造成用戶某些檢索結果偏差的原因一方面在于他們在信息檢索之前并未判別所使用的系統類型,另一方面是發現系統檢索范圍的局限性,使其無法完全覆蓋圖書館所有的服務項目和資源信息。本文分析結果借助大量用戶真實的行為數據得出,有較高的可信度和參考價值。針對上述特征和存在的問題,圖書館可以從下幾個方面改進工作,為用戶提供更優質的信息服務。

3.1 完善信息素養課程內容

參照分析得到的檢索式行為特征,圖書館可以調整信息檢索課程的設置,有針對性地干預和調節用戶在檢索層面的焦慮。首先,圖書館在設計信息素養課程時,要幫助用戶理清數字圖書館各個系統間的應用范圍、核心功能及區別,避免用戶因系統選擇不當而產生不能如期獲取信息的焦慮。其次,針對學生使用布爾邏輯、高級檢索的比例偏低,以及檢索技巧使用不夠熟練等問題,在信息素養教學形式上,要突出檢索策略的制定和檢索技巧的上機訓練。此外,依據用戶在發現系統的檢索詞主題聚類分析,圖書館可以在信息素養教學中選用用戶當前關注的主題作為課堂素材或案例,使講解更有針對性,更加貼合用戶的需求。

3.2 優化“一站式”發現系統功能

圖書館必須意識到,用戶需求和檢索結果之間存在較大偏差的檢索式,恰恰是改進系統功能的重要依據。高校圖書館應該優化發現系統的用戶界面,調整功能設置,增加或突出用戶實際需求的功能,降低用戶界面中面向管理員操作的功能比重。例如,在發現系統中加入自定義詞條匹配功能(term match)以擴充檢索范圍,提示用戶進入正確的路徑。當檢索式中出現檢索詞past exam paper或該詞的變體(past exam papers/past exampaper/exam paper/過往試卷/以往試卷)時,可以返回自定義的提示語,設問用戶是否需要查找過往試卷,并提供正確的訪問路徑。要在發現系統中增加可檢索的引文格式幫助,也可以參照設計匹配該資訊的詞條,加入到發現系統后臺數據庫中。這樣,不斷地在發現系統中積累和調整匹配詞條,引導用戶正確地使用圖書館資源與服務。

3.3 及時更新維護館藏資源列表

通過抽取大量檢索式中期刊信息,能夠幫助圖書館核對本館訂閱的期刊在Discover平臺是否有漏刊現象,督促出版社及時向系統商更新期刊列表,或者由館員手動上傳適合本館訂閱范圍的期刊列表,完成數據精確匹配。此外,對于那些用戶有實際檢索需求,卻因圖書館沒有訂閱而拒訪的期刊文章,可以及時補充到圖書館訂購計劃中。對于用戶實際檢索開放獲取期刊文章的內容,由于這些開放獲取期刊的元數據未添加到系統而造成用戶無法訪問,也需要系統管理員及時更新和維護可訪問資源列表。

主站蜘蛛池模板: 久久香蕉国产线看观看亚洲片| 国产免费羞羞视频| 亚洲成人黄色在线观看| 国产人成在线观看| 99视频在线看| 久热精品免费| 亚洲av日韩综合一区尤物| 国产成年无码AⅤ片在线| 成·人免费午夜无码视频在线观看 | 国产精品自在在线午夜| 欧美国产在线一区| jijzzizz老师出水喷水喷出| 五月婷婷丁香综合| 日韩精品少妇无码受不了| 久久精品国产999大香线焦| 特级欧美视频aaaaaa| 香蕉eeww99国产精选播放| 在线看片中文字幕| 国产剧情一区二区| 91在线播放免费不卡无毒| 在线精品亚洲国产| 97在线视频免费观看| 青青草原国产av福利网站| 91原创视频在线| 任我操在线视频| 日韩中文字幕亚洲无线码| a色毛片免费视频| 国产在线专区| 久久精品免费看一| 四虎影视无码永久免费观看| 欧美午夜视频在线| 亚洲一区精品视频在线| 中文字幕 日韩 欧美| 男人天堂亚洲天堂| 亚洲免费福利视频| 亚洲精选高清无码| 欧美日本一区二区三区免费| 国产真实乱子伦精品视手机观看 | 91精品福利自产拍在线观看| 亚洲日韩精品综合在线一区二区| 免费A∨中文乱码专区| 国产91色在线| 在线观看的黄网| 色视频国产| 欧美啪啪视频免码| 国产成a人片在线播放| 蜜芽一区二区国产精品| 欧美a级在线| 国产视频 第一页| 亚洲精品无码av中文字幕| 91小视频在线观看免费版高清| 丁香婷婷激情网| 99精品福利视频| 亚洲无码高清免费视频亚洲 | 99久久精品免费观看国产| 人禽伦免费交视频网页播放| 亚洲综合18p| 亚洲一区二区三区麻豆| 久久久久青草大香线综合精品| 一区二区理伦视频| 丁香婷婷激情综合激情| 久久精品国产在热久久2019 | 国产精女同一区二区三区久| 亚洲三级电影在线播放| 免费一级毛片不卡在线播放| 香蕉精品在线| 2020久久国产综合精品swag| 国产区在线观看视频| 亚洲三级视频在线观看| 国产综合精品一区二区| 91探花国产综合在线精品| 精品五夜婷香蕉国产线看观看| 日本黄色不卡视频| 欧美精品不卡| 日韩欧美中文亚洲高清在线| 国产麻豆精品久久一二三| 久久精品只有这里有| 国产亚洲高清在线精品99| 狠狠v日韩v欧美v| 成人av手机在线观看| 色综合久久综合网| 成人日韩精品|