周李梅,劉 勤,麥麗芳,陳 敏
(1. 中國水產科學研究院南海水產研究所 廣東廣州 510300; 2.中國水產科學研究院東海水產研究所,農業農村部遠洋與極地漁業創新重點實驗室,上海 200090)
順應大數據環境下文獻信息資源的綜合利用趨勢,中國水產科學研究院承接的“漁業專業知識服務系統”,對漁業學科領域的專著、科技期刊文獻、專利文獻、項目信息、學位論文等各項文獻情報進行了全面的搜集整理,為進一步提供知識服務打下文獻數據基礎。學位論文是作者為獲得某種學位而撰寫的研究報告或科學論文,一般不在刊物上公開發表,只能通過學位授予單位、指定收藏單位和私人途徑獲得。學位論文與期刊論文、會議論文一樣,都是對科研、生產和教學工作具有重要價值的文獻情報源。作為“漁業專業知識服務系統”整體文獻情報信息展示與利用的重要部分,英文漁業學位論文的搜集是該類型文獻分析與利用的基礎,因此數據搜集應重點考慮來源的全面性與檢索的準確性。
當前,集中獲取英文學位論文最便捷、最主要渠道為商用數據庫PQDT(ProQuest Dissertations and Theses Global)。PQDT是提供世界上最全面的學位論文服務平臺,截至2019年上半年,收錄了1743年以來,來自全世界各地超過3 000所大學的5×106篇引文與2.5×106篇全文作品 。PQDT又分為全文庫與文摘庫,國內機構主要通過中國高等教育文獻保障系統(China Academic Library & Information System, CALIS)鏡像訪問兩個數據庫,但檢索入口不同。從收錄范圍、收錄數量、收錄年限、更新速度方面,PQDT文摘庫存在明顯優勢[1],故選定為英文漁業學位論文題錄搜集的數據來源。
基于PQDT學位論文數據庫,結合信息檢索理論綜合利用數據庫檢索功能擬定漁業學位論文檢索策略,在力求數據集全面、可靠的情況下,進一步統計分析數據庫可下載的字段信息,為當前英文為主的漁業學位論文的總體情況提供說明。本文通過對各個檢索字段與功能的綜合運用以及對檢索字段之間關系的梳理,可為其他學科或研究課題英文學位論文檢索提供參考。
PQDT文摘數據庫提供了豐富的檢索入口,包括簡單檢索、高級檢索、命令行檢索等。具體檢索字段有:(1)文本字段,包括索引短語/關鍵詞字段(index term/keyword,IF/DISKW)、所有主題和檢索字段(all subjects & indexing, SU)、系統標引敘詞(subject, EXACT)、主題詞字段(subject heading, MAINSUBJECT)、文檔標題字段(document title, TI)、文檔全文字段(document text, FT)、摘要字段(abstract, AB)、全部文本字段NOFT;(2)作者字段(author, AU);(3)補充文件類型(supplemental file type, SPTYPE);(4)教育機構中的系部字段(department,DEP);(5)參考文獻字段(reference,REF);(6)大學/單位相關字段,包括機構字段(university/institution,SCH),位置字段(university/institution location,ULO);(7)導師字段(advisor,ADV);(8)出版物卷期字段(volume/issue, DISVOL);(9)委員會成員字段(committee member, CMT);(10)學位論文/畢業論文編號字段(dissertation/thesis number,DISPUB)。
通過多次檢索,反復試驗,總結了PQDT文摘庫文本字段之間的層級關系為:
NOFT=SU+TI+AB=(CC text+EXACT+IF/DISKW)+TI+AB
(1)
式(1)中,NOFT表示除全文之外的本文字段集合;SU表示所有主題和檢索字段,具體包含CC text、EXACT、IF/DISKW三個部分,其中CC text表示PQDT數據庫學位論文分類中4位分類字符后的文本內容 。
數據搜集主要通過主題檢索與分類檢索實現。
主題檢索方面,對PQDT文本字段NOFT、SU、MAINSUBJECT、DISKW、AB、TI、CC text等分別進行了檢驗,并選擇最合適的字段組配檢索。其中互斥強的文本字段為DISKW,TI與CC text。在實際檢索過程中,對3個字段應盡可能同時采用。摘要字段AB造成誤檢率高,直接舍棄。
分類檢索方面,PQDT文摘庫并未公示分類字段,但題錄信息中存在主題分類4位數字代碼具備實際檢索功能,檢索字段為CC。采用文獻數據集逆向統計分析學位論文題錄中的classification字段,提取每個4位代碼代表的1~4個相近的主題,如0792包含的主題為aquaculture、aquatic sciences、fish production,可直接用于本次相關文獻的檢索,檢索式為CC(0792)。以此類推,其他分類代碼同樣適用。
此外,部門字段DEP也具有一定的補充效果,可適當采用。本研究通過綜合運用主題與分類檢索字段,根據實際檢索結果求證選用檢索字段。
PQDT文摘庫包括兩個專題專輯,分別為人文和社會科學專輯(PQDT A - Dissertations and Theses A&I: the Humanities and Social Sciences Collection),收錄主題領域為文學與語言、社會科學、歷史、藝術;科學和工程學專輯(PQDT B - Dissertations and Theses A&I: the Sciences and Engineering Collection),收錄主題領域為科學與技術。兩個專輯可分別檢索,也可合并檢索。由于二者收錄存在較大差別,合并檢索誤檢率高,因此對科學和工程學專輯與人文和社會科學專輯分別設計了檢索策略。
1.2.1 科學和工程學專輯檢索策略
根據不同檢索字段對本專輯的檢索思路與檢索過程分段驗證,從而決定字段的取舍與組合。

表1 PQDT科學和工程學專輯漁業相關學位論文檢索式分段檢驗Tab.1 Retrieval segmentation test on fisheries-related thesis in PQDT science and engineering collection
表1中檢索詞包括概括詞與物種檢索詞:(1)概括詞即漁業領域主題詞,如fishery、aquaculture等;(2)物種類名,即常見魚類的通俗英文名或拉丁名,如puffer、bream、salmon等。參考中圖法列舉常見的研究類型或經濟價值較高的物種名為檢索詞。漁業物種類名繁多,不能窮盡,也受制于PQDT檢索詞上限,因此在物種類名選擇上盡量精簡。采用邏輯“或”連接物種英文常用名擬定初步檢索式,并在檢索過程中根據實際檢索結果查找數據噪音,添加停用詞,采用邏輯“非”去除這類干擾詞。此流程在人文和社會科學專輯適用。
PQDT支持合并字段檢索,不同字段檢索標識符采用逗號隔開,即表示同時檢索不同字段并返回所有去重后檢索結果。確定科學和工程學專輯檢索式綜合組配為:TI,DISKW(概括詞 OR 類名) OR CC(0792) OR DEP(fish* OR aquaculture),擬定具體檢索式為:
TI,DISKW(fishery OR fisheries OR aqu* cult* OR aqu* breed* OR polyculture OR mariculture OR “marine culture” OR “marine resource*” OR fisherman OR seafood OR seaweed OR “sea weed” OR aquaculture OR aquaponic* OR trawl OR crustacean OR shrimp OR molluscan OR oyster OR algae OR “aqua* product” OR trammel net OR bycatch OR by-catch OR “mesh size” OR catch* per unit effort OR IUU OR fish* stock enhanc* OR ((fish* NOT ("fluorescen* in situ hybridization" OR "filter in situ hybridization" OR "FISH analysis" OR selfish OR fishbone OR “fisheye”OR “fish-eye”OR “fish-shaped” OR “fisher”OR “fishers” OR “fishplate”OR “durie-Salmon stag*”)) OR (bream OR darter OR croaker OR porgy OR “sea bream” OR pargo OR sparid OR Snapper OR flounder OR plaice OR “Tinca tinca” OR “tinca-tinca” OR tench OR “Amur ide” OR “black-pacu” OR turbot OR salmon OR trout OR kelt OR puffer* OR fugu OR bonito OR tuna OR carp OR chub OR wrasse OR perch OR bass OR weever OR tilapia OR mackerel OR eel OR Capelin OR hornpout OR “huso huso” OR acipenser OR MEDAKA OR mackerel OR Sardine OR shark OR tongue sole OR grouper OR mullet OR sturgeon OR Silvery pomfret OR halibut OR herring OR Bluefin OR hake OR Oncorhynchus mykiss OR whiting OR crappies OR “sea urchin” OR japonicus OR phytoplankton OR zooplankton OR “sea cucumber” OR lamprey OR burbot OR catfish OR charr OR litopenaeus vannamei OR fingerling OR atlantic cod OR haliotis OR cichlid OR seahorse OR snail OR goby OR cod fish* OR zebrafish OR “lean pacu” OR yellowtail OR otter OR “sea lion” OR whale OR shellfish OR scallop OR abalone OR oyster OR clam OR mussel OR crab OR shrimp OR crustacean OR krill OR lobster OR prawn OR Penaeus monodon OR whelk OR Cephalopod OR octopus OR copepod OR cuttlefish OR nautilus OR squid OR alga& OR seaweed OR spirulina OR "sea mustard" OR undaria OR hijiki OR sargassaceae OR enteromorpha OR eucheuma OR gelidium OR kelp OR laminaria OR seatangle OR laver OR porphyra OR Gracilaria OR saccharina OR Sargassum))) OR CC(0792) OR DEP(fish* OR aquaculture)
截至2018年12月31日,檢索得科學和工程學專輯的記錄為38 417條。
1.2.2 人文和社會科學專輯檢索策略
人文和社會科學專輯采用的策略大致與科學和工程學專輯相同,但由于人文和社會科學專輯更偏向于社會科學、經濟學、管理學等科目,采用的檢索詞偏概括主題詞而非物種類名。將檢索式分為多段,與科學和工程學專輯類似,采用分類檢索與文本檢索結合的方法。此外對“0503農業經濟”類作了專門檢索,與NOFT字段組配篩選漁業相關文獻。
合并多個字段,并擴展部分漁業概況詞后,得到人文和社會科學專輯漁業學科檢索式為:
CC(0792) OR NOFT(algae OR shellfish OR fishery OR fishing OR aquaculture OR aquaponics OR seafood OR “marine resource”) OR SU("fish hatcheries" OR "fishing" OR "algae" OR "commercial fishing" OR "fish stocking" OR "fishing zones" OR "shellfish" OR "seafoods" OR "fish" OR "sport fishing" OR "fisheries" OR "fisheries management" OR "fishing industry" OR "fish production" OR "fishery economics" OR "aquaculture" OR "crustaceans") OR TI((fish* OR “aquatic product” OR seafood OR seaweed OR sea weed OR aquaculture OR shrimp OR molluscan OR oyster OR algae OR IUU) NOT(fisher OR fishbowl OR Fishbein)) OR (CC(0503) AND NOFT(fish*))
截至2018年12月31日,檢索得人文和社會科學專輯檢索結果3 999條記錄。
認定檢索效果的一般指標為檢準率與檢全率,研究中專門進行了抽樣測試。
檢準率也稱查準率、相關率[2],可以表示為:
(2)
本次檢索結果的檢準率檢驗主要通過對數據的標引統計體現。項目組對1869—2017年科學和工程學專輯與1888—2017年人文和社會科學專輯的數據,合計36 484條記錄進行了機器與人工聯合標引,篩出693條完全不相關記錄。計算

表2 PQDT人文和社會科學專輯漁業相關學位論文檢索式分段檢驗Tab.2 Retrieval segmentation test on fisheries-related thesis in PQDT humanities and social sciences collection
檢準率為:
漁業學科為綜合性較強的學科,與海洋學、生物學、環境科學都存在密切的聯系,本次檢索結果篩選較為寬松??傮w而言,本次分輯檢索的檢準率遠超90%。
檢全率也稱查全率、命中率[2],可以表示為:
(3)
檢全率檢驗一般采用特定數據集進行比對,特定機構發文作為檢全率檢驗是較為常用的方法。ProQuest也于2017年開始收錄中國大學學位論文[2],但仍以歐美大學為主,因此以國內大學的收錄數據量不具備檢全率檢驗的可行性。
美國部分高校學位論文自建數據庫開放題錄信息,項目組選取加利福尼亞大學(University of California, UC)漁業學位論文作為檢全率檢驗數據集,通過該校開放存取網站eSholarship 檢索獲取2014—2018年的漁業學位論文141篇,其中129篇被總數據集涵蓋。計算檢全率為:
以加利福尼亞大學數據集可以看出,本次檢索達到了較高的檢全率。
截至2018年12月31日,檢索得人文和社會科學專輯3 999條記錄,科學和工程學專輯38 417條記錄,合并去重,并去掉標引過程中的誤檢記錄,得到40 558條記錄,即40 558篇學位論文題錄信息,基于該數據集對漁業學位論文總體分布情況進行了分析。
漁業學位論文在PQDT數據庫中各年份均有分布,時間跨度較大。從數量上來看,1980—2018年期間,收錄的漁業學位論文數量較為集中,漁業學位論文數量達26 142篇,占全部漁業學位論文數量的64%。
2000年來,隨著漁業科學研究的深入,漁業學位論文數量均在1 000篇以上。如圖1所示,1999—2010年PQDT數據庫收錄的漁業學位論文數量一直呈上升勢態,在2010年全球的漁業學位論文數量達到了1 777篇的峰值;2010年后數量下降。
PQDT的學位論文均有一個或多個學科主題(Subject),每個主題對應一個4位分類代碼,4位分類代碼對應1~4個學科主題。40 558條漁業學位論文記錄對應的主題頻次為76 132次,選擇篇頻次超過1 000的主題分類代碼,得出PQDT漁業學位論文主要主題分布情況,如表3所示。可見本次數據集的主要主題為水產養殖、水科學、魚類生產、環境哲學、有機生物、動物學等,對應的主要分類為0792、0329、0472等。
PQDT數據庫中漁業學位論文分布于31個國家/地區,其中美國25 569篇,占總數的63.0%,加拿大6 723篇,占總數的16.6%,漁業領域的北美文獻約占總數的80%。其次,英國相關收錄為5 598篇,占總數的13.8%。從圖2可以看出,中國大陸的PQDT數據庫中漁業學位論文數量為1 111篇,占總數的2.7%,愛爾蘭、印度、瑞典、葡萄牙、西班牙等數據較為接近,其他22個國家或地區PQDT數據庫中漁業學位論文數量為609篇。PQDT漁業學位論文數據源集中在北美與歐洲地區,主要是美國、加拿大、英國等。

表3 PQDT漁業學位論文主要主題分布Tab.3 Main subject classifications of fishery dissertations in PQDT
這里的機構為各類型院校,主要為高校。PQDT數據庫中漁業學位論文分布于894所高校,以北美地區與歐洲地區高校為主。發文機構最多的為美國,合計478所,其次為英國177所,中國61所,加拿大56所,為漁業學位論文主要機構來源。機構的地區分布與文獻數量地區分布總體較為一致,但加拿大高校在漁業學科的學位論文平均收錄量遠超其他國家。
PQDT收錄漁業學位論文數量最多的十大高校分別為華盛頓大學、密歇根大學、加拿大達爾豪斯大學、英國斯特靈大學等,其發文數量如表4所示。

表4 PQDT收錄漁業學位論文數量前十的高校Tab.4 Top10 universities of fishery dissertations in PQDT
部分學位論文為雙語,統計所有漁業學位論文語種頻次為40 629。英語學位論文為39 003篇,占漁業學位論文總數的96.2%,其次為中文學位論文1 105篇,占總數的2.7%;法語學位論文298篇,占總數的0.7%;西班牙語154篇,占總數的0.4%,其他語種文獻極少。
對于PQDT數據庫功能的研究,較早的有徐淑慧等[3]對PQDT的檢索特點、界面情況進行了評述,白榕[4]、夏立娟和劉雯[5]對該庫進行了檢索功能分析與評價,二者主要從數據庫檢索、結果處理特點方面進行了評述,未深入到應用領域。項目組在數據庫的功能簡介與評述的基礎上,實踐了PQDT文摘庫的各項檢索功能,數據源方面對人文和社會科學專輯與科學和工程學專輯分別檢索,應用方面創新性采用了部分字段,從而制定了比較完備的英文漁業論文檢索策略,實現對漁業學科領域的學位論文題錄的搜集。由于檢索式的長度限制與對漁業學科的整體把握問題,可能造成少量檢索主題的遺漏。此外PQDT收錄的文獻經常性地補充更新,會出現不同時間使用同一檢索式檢索得到不同的數據量的情況。ProQuest公司也在不斷尋求與世界范圍的高校的合作,不排除單次合作收錄某一高校歷年學位論文數據的情況[6]。
通過檢索式設計,獲得了PQDT漁業學位論文40 558條題錄信息,統計分析了漁業領域學位論文的年度分布、學科、地區、語種分布,提供了英語語言為主的世界范圍內漁業學位論文的數量分布概況。不足的是PQDT用戶數據輸出字段較單一,分析維度較少。后續研究應充分利用PQDT單篇學位論文頁面中的詞條,可進行頁面抓取后,進行多維度綜合分析,進一步揭示不同地區、年份、機構研究主題的分布。
本文形成了可操作的基于PQDT文摘庫的漁業學位論文檢索策略,并在檢全率與檢準率方面滿足漁業專業知識服務系統的文獻類資源建設的要求。文中的文本字段關系總結與創新性采用4位字符分類代碼進行學科檢索的方式,均可用于其他課題研究中,可為學位論文的主題檢索策略提供重要參考。