摘要:隨著大語言模型的發展和生成式人工智能的出現,人工智能對圖書館科技咨詢的服務流程帶來重大改變,對科技咨詢服務模式帶來深遠影響,為科技咨詢服務的創新帶來新的思路。文章結合面向科技咨詢用戶的智能問答、文獻檢索、科技查新、文獻分析評價等服務內容,研究了大語言模型在圖書館科技咨詢服務場景下的具體應用實踐,為進一步推動大語言模型賦能科技咨詢創新應用提供思路和啟發。
關鍵詞:大語言模型;科技咨詢;圖書館;人工智能
中圖分類號:G252. 6" 文獻標志碼:A
作者簡介:常娟(1983— ),女,館員,碩士;研究方向:科技情報與信息服務。
0" 引言
隨著深度學習技術的發展和自然語言領域的突破,大語言模型已成為人工智能領域的一個重要研究方向。繼Transformer、BERT系列之后,OpenAI公司發布生成式預訓練模型GPT系列,國內的百度、騰訊、阿里、科大訊飛、華為等公司紛紛推出文心一言、混元、通義千問、訊飛星火、盤古等模型。這些模型通過大規模數據集的訓練和優化,采用無監督或自監督的方式,學習并掌握通用的語言知識和能力,理解和生成人類語言、圖像、音視頻等多種類型的數據。科學家指出,大語言模型描述的語義空間和人類語義空間越來越接近,已經產生類人智慧,其應用前景不可限量。
圖書館的參考咨詢服務是以用戶目標驅動的,將知識內容進行捕獲、分析、重組來解決用戶問題的過程,是圖書館在進行知識管理、組織、服務的智能化運營中的重要一環。隨著國家不斷強化科技創新部署,推動高水平科技自立自強的科技創新能力,科技咨詢服務也迎來新的發展,科技咨詢用戶也提出了更高的需求。大語言模型的訓練學習能力和生成能力給科技咨詢帶來更多的創新應用可能,對圖書館科技咨詢的服務場景、服務流程、服務模式都將帶來重大改變及深遠的影響。因此,本文結合面向科技咨詢用戶的服務內容,探討了大語言模型的應用情況,提出其在不同業務場景下的具體應用模式,為進一步推動大語言模型賦能科技咨詢創新應用提供思路和啟發。
1" 科技咨詢用戶的特征
科技咨詢用戶是指那些為了獲取特定的科學技術信息,為解決科技活動中的問題或尋求專業意見而使用科技咨詢服務的人。科技咨詢的用戶群體主要面向政府、科研機構以及企業。結合實踐工作進行初步分析,該群體中科研機構用戶和企業用戶是科技咨詢服務的重要用戶群,他們在科研生產活動中需要了解技術前沿、研究現狀和發展趨勢來輔助科研決策,掌握科研生產力、科技影響力情況,優化科研布局,了解科研合作情況,助力用戶人才引進和科研團隊組建,跟進業內同行的動態研究進展,對科研方向進行更新和修正,需要科技咨詢館員結合動態需求為用戶進行精準服務。結合用戶的這類需求,圖書館衍生出文獻檢索、科技查新、文獻分析評價及其他個性化服務等科技咨詢業務,在這些業務場景中充分發揮大語言模型的優勢及作用,研究其應用模式,對科技咨詢業務的發展具有重要意義。
2" 大語言模型應用場景
近年來,國家對科技創新高度重視,強調科技創新要面向重點科技發展方向建設知識組織體系,深入做好科技資源的語義揭示工作,增強知識發現能力。知識發現的概念最早在第十一屆國際聯合人工智能學術會議上提出,是指從海量數據中識別出有效或有潛在效用的信息并以可被理解的形式展現出來的過程[1]。知識發現自從被提出后,便成為人工智能界關注的焦點,數據挖掘、機器學習、規則提取等諸多知識發現方法在過去數十年間相繼被開發。隨著AI大模型時代的到來和人工智能技術的快速發展,大語言模型被應用到各行各業中,與之相關的新產品、新服務層出不窮。除上述常用的通用大模型外,國內各科技領域的行業大模型也相繼被設計開發,如華為的盤古氣象大模型、百度的智艙大模型、深圳市大數據研究院和香港中文大學的醫療模型華佗GPT-2等,但目前行業大模型主要在數字原生行業應用,其他行業領域應用較少,仍有待進一步研發與推進。大語言模型在圖書館界有廣闊的應用前景,未來必將廣泛應用于科技咨詢工作中。大型的語言模型通過信息檢索、文本摘要、模式識別與分析等功能幫助用戶定位所需的知識點,通過智能問答、內容創作等功能幫助用戶深度理解,啟發用戶創新思考,以有效輔助用戶知識發現。
2.1" 智能問答
大語言模型的出現將用戶交互從傳統的索引式、問詢式,轉換為更加靈活、自然的問答式。基于圖書館構建的大語言模型相關的智能問答系統或圖書館虛擬數字人,經過圖書館相應知識語料庫的預訓練,針對自然語言提出的問題,問答系統/數字人給出答案或做出相應的反饋,為用戶提供每天24小時的及時響應服務,智能導覽與咨詢服務,解答用戶關于開放時間、證卡要求、借閱政策、館內資源、圖書檢索及定位等問題,提高了服務的效率,增強了服務的體驗性和互動性。
2.2" 文獻檢索
大語言模型已被應用于圖書館現有館藏文獻數據的訓練與檢索。國家圖書館將基于大模型的智能問答系統與全國圖書館聯合編目中心掛接,用以檢索館藏信息。盧森堡國家圖書館與OpenAI公司合作,共同開發人工智能聊天機器人,檢索館藏已數字化的報紙文章[2],但目前仍存在查全率、查準率不高且只能實現初級檢索,無法整合多篇文章信息生成檢索結果等問題。瑞典國家圖書館利用NVIDIADGX系統開發人工智能模型對館藏數字化的瑞典語文本進行訓練,為學術研究提供支持,隨著對大模型訓練工作的開展,瑞典國家圖書館開發了生成文本模型并致力于將聲音、視頻形式的館藏轉換為文本等研究,幫助用戶使用自然語言進行檢索,高效獲取有用信息[3]。
大語言模型在文獻檢索領域有著廣闊的應用前景,能夠深度挖掘知識,拓展知識獲取和處理的邊界,為用戶提供更高效智能的工具。傳統的文獻檢索通常借助布爾邏輯運算符設計檢索策略,或者用復雜的機器語言輸入指令以篩選文獻,優化檢索結果,但大多數用戶受限于自身信息素養水平,僅依賴于簡單檢索,檢索效果較差,無法達到檢索目的。大語言模型的出現,能夠深入理解文本含義,處理自然語言提問的任務,通過與用戶進行多輪會話,幫助用戶進行漸進式研究和擴展,或者通過一段文本總結技術要點,提取檢索要素,生成檢索式,如智慧芽公司在專利檢索過程中利用大語言模型技術,使用權利要求、產品說明文檔、技術研討文檔等自動生成檢索策略的功能,使用戶的檢索更加便捷、高效。
雖然通用大語言模型具有良好的思維推理能力,但其專業能力弱,缺乏可解釋性的問題無法忽視,這些問題往往導致檢索生成的內容由于缺乏證據或者事實支撐而無法使用。為彌補生成模型的局限性,檢索增強生成(Retrieval-Augmented Generation, RAG)應運而生。RAG結合了檢索上下文相關信息和使用檢索到的知識指導生成兩種能力,在大模型生成響應時,不僅依據其內在知識,還能更有效利用外部知識(私有知識、實時知識、行業知識)[4]輸出更多有根據的信息,輔助大模型進行思維與行動,提高了答案的準確性和事實性,在生成時為用戶提供相關的上下文,解決了魯棒性和可解釋性的問題。盡管大語言模型相繼突破處理長上下文的能力,但由于數據存在復雜性和易變性,各專業領域的海量異構數據無法全部放入上下文窗口等原因,RAG并不能被替代。未來的發展趨勢可能是兩者融合,從而在保持經濟高效的情況下分析更多上下文,得到滿意的答案。
2.3" 科技查新
科技查新是指查新機構根據查新委托人提供的需要查證其新穎性的科學技術內容,經過文獻檢索與對比分析而作出結論。科技查新是科學研究、產品開發和科技管理等活動中的一項重要基礎工作。查新的檢索流程主要包括語義搜索、確定檢索要素、檢索要素擴展、構建檢索式、找到對比文獻進行對比分析等。大語言模型可以有效提高科技查新的工作效率。輸入一段技術描述文本,大語言模型通過生成文獻摘要,提取技術要點,輔助咨詢館員理解查新項目技術要點,確定檢索要素。大語言模型通過對海量技術詞庫的識別,幫助咨詢館員區分同義詞、近義詞,對下位詞、相關詞進行推薦擴展,從而提煉并擴展檢索要素,生成檢索條件。大語言模型還可以通過計算文檔的語義相似性來推薦相關文獻,幫助咨詢館員彌補因對查新項目理解不到位或檢索經驗不足,造成檢出文獻內容相關度不高的欠缺,快速、高效地修訂檢索式。通過將對比文獻輸入,大語言模型的文本總結與摘要生成能力能夠輔助咨詢館員快速理解文獻要點,提升文獻解讀效率,撰寫對比分析內容與查新結論。在查新報告撰寫完成后還可以通過大語言模型改善文稿質量,確保使用的術語與技術表述準確無誤。
2.4" 文獻數據加工與分析
傳統文獻數據的加工與分析是由咨詢館員處理完成的,其數據清洗、歸一化、規范化、統計分析、分類聚類的過程相當煩瑣復雜,耗時巨大。大語言模型能夠快速處理海量數據,通過對大模型的預訓練,讓模型看懂數據,根據提前預設的主題詞和語義相似度,對信息進行自動篩選、分類,可以將咨詢館員從煩瑣的工作中解放出來,僅需對大語言模型加工出來的分析結果進行鑒別與驗證。如大語言模型經過海量語料庫的預訓練,可以用于自動標引,改進以往人工標引的方式。唐曉波等[5]提出的基于BERT和TF-IDF的自動標引模型,基于多標簽分類算法,分別對短問句和長問句進行賦詞標引和抽詞標引,幫助用戶篩選信息,提升檢索效率。戎璐[6]基于ChatGPT構建的提示學習模型,能夠自動識別并分類圖書,有效改善以往人工標引的局面。此外,大語言模型的自動生成能力還可以用來從海量信息中迅速提取關鍵信息,生成摘要或分析報告,使咨詢館員撰寫分析報告時更準確地組織語言與技術表達。大語言模型經過預訓練,能夠抽取文本中的關鍵特征,理解文本中的情感色彩和觀點傾向,對公眾意見進行情感識別與分類,在輿情分析中亦具有重要價值。
2.5" 學術論文評價
學術論文評價是指基于論文的衡量與評價,往往采用同行評議、計量分析和內容分析的方法進行。大語言模型的出現將生成式AI帶入人們的視野,研究者們投入相關實證研究,以期發現在學術論文評價方面的應用可能。周海晨等[7]將專家評議文本與生成式AI產生的評價文本進行對比分析,結果顯示,生成式AI工具的評價內容簡短,形容詞較多,專家的評價則集中于研究實體;同時,也使用ChatDOC對期刊數據進行全文計量分析,在結果分析的基礎上提出ChatDOC存在專業性不夠的問題。目前的通用語言模型使用通用語料庫來進行訓練,在學術研究中通常在某特定領域專業性很強,通用語料庫無法滿足,需要使用特定領域的詞表和語料庫進行訓練,在常識、事實等方面引入通用語言知識,結合百科數據這類大規模知識庫,以提升模型的訓練性能。大語言模型通過內容識別、語義理解、文本標簽化、文本分類等功能在主題識別與內容分析方面表現良好。李西雨等[8]從科技論文中抽取與評價指標相關的文本,輸入微調大語言模型,通過語義評價指標的量化打分,實現對科技論文的語義評價。建立學術論文中關于研究內容、實驗設計及分析方法、研究結果等內容,學術論文影響力評價相關的引用和參考文獻等信息的數據集,將同行評議時對論文價值判斷的指標或依據進行定量化[9],或利用大模型大量學習論文價值判斷的指標數據,進行信息提取及量化打分,是未來學術論文評價可能的發展方向。
論文創新性評價往往通過相似度測算、關鍵詞或自然詞的對比來實現。大語言模型能夠快速處理復雜的數據特征,理解大量自然語言文獻及上下文關系,發現論文間的關聯和趨勢,可用于論文創新性評價。王雅琪等[10]利用ChatGPT進行了論文創新性評價,對生成文本進行分析,發現ChatGPT能夠將論文分別進行縱向分析和橫向分析,評價相對穩定、準確,未脫離現有的論文創新性評價標準,具有較好的客觀性、科學性。大語言模型能夠從創新點提煉、文獻對比分析、假設驗證、引用分析、重復性檢測等多個角度對論文的創新價值進行評價,雖然目前尚無法完全替代人類思維及領域專家的深度理解,但仍不失為一款良好的智能輔助工具。
2.6" 個性化服務
大語言模型能夠為圖書館用戶提供科技類圖書的主動推薦服務。大語言模型能夠分析用戶的借閱記錄、咨詢記錄、檢索歷史、評價反饋等多維度數據,構建更為精細的用戶畫像,通過理解用戶的學術需求、興趣變化、閱讀偏好等,為用戶提供更符合其需求的推薦列表。大語言模型能夠結合用戶所處的不同場景,做出符合用戶即時需求的基于情境感知的推薦。大語言模型能夠根據圖書的特征提取,構建相應的知識圖譜,為用戶推薦可能感興趣的圖書。已有研究人員構建基于ChatGPT的圖書推薦系統,應用于圖書評級推薦、用戶評級推薦和圖書摘要推薦中,推薦效果良好,接近甚至優于經典圖書推薦算法[11]。
大語言模型能夠為用戶提供定制化、連續性的定題跟蹤服務。大語言模型能夠快速處理海量數據,根據預設的主題詞和語義相似度,對信息進行自動篩選、分類,從而獲取最相關的內容。大語言模型通過識別特定主題隨時間的熱度變化、新增知識內容,識別研究熱點和專業領域動態更新,跟蹤科技動態,掌握科技現狀與進展情況,為科研用戶提供動態服務,為科研工作的決策與開展提供信息支持。
大語言模型能夠為科技咨詢用戶提供定制化知識導航服務。在垂直領域知識庫中,大語言模型能夠通過與知識圖譜深度融合,為用戶提供結構化的知識,能夠根據特定的知識特征找到相應的研究成果、實驗數據或關聯文獻;通過對數據信息的抽取、分析、生成,構建知識地圖,為用戶提供知識脈絡發展概況,使用戶獲得的知識更加系統化、精確化。
3" 結語
隨著大語言模型在圖書館科技咨詢服務中的進一步應用,智慧圖書館視域下的科技咨詢工作質量和效率獲得有效提升,咨詢用戶也將獲得前所未有的咨詢體驗、檢索體驗與知識獲取體驗。大語言模型的應用使用戶的簡單咨詢流程出現了顛覆性的革新,在復雜咨詢過程中,實現了資源的高效聚集,業務流程的持續優化,提高了咨詢館員的工作效率,在一定程度上改變了科技咨詢的服務范式。本研究闡述了大語言模型強大的自然語言處理功能在文獻檢索中的應用,削弱了館員使用檢索工具的要求,以交互式會話的方式達到檢索目的,同時,也對大語言模型應用于文獻檢索時缺乏可解釋性、缺少事實支撐的問題進行了初步探討。還結合大語言模型文本識別與分類、語義理解、文本摘要、文本生成、個性化推薦等功能,對如何有效利用大語言模型解決科技查新、文獻分析評價及其他個性化服務等業務場景中的問題進行了探究,提出這類業務場景中大語言模型的應用方法或途徑。
為進一步強化大語言模型與科技咨詢業務的深度融合,滿足用戶需求,未來的工作還需進一步開展。在當前環境下,咨詢館員應盡快提升使用大語言模型的檢索水平,掌握如何用自然語言提問,增強與大語言模型的交談能力。加快大語言模型與圖書館信息資源的掛接,強化領域庫、行業庫建設,通過人工智能訓練,實現資源的拓展與重塑。結合大語言模型應用場景,制定科技咨詢全流程服務規范,劃分人機邊界,使服務流程更加系統化、標準化。咨詢服務的核心是幫助用戶解決問題,因此,借助大語言模型進一步對用戶需求進行強化分析,識別用戶意圖,完善用戶畫像并提供個性化服務方案,是未來科技咨詢服務的關鍵。在用戶畫像的基礎上對標各項服務模塊,實現需求、資源、服務的精準匹配,全面提高科技咨詢服務的質量與效率。
參考文獻
[1]樊紅俠.知識發現及其在數字圖書館的應用[J].現代情報,2008(8):90-92.
[2]佚名.盧森堡:國家圖書館使用ChatGPT檢索館藏[J].陜西檔案,2024(1):61.
[3]佚名.瑞典國家圖書館利用AI解讀百年館藏[J].國家圖書館學刊,2023(6):49.
[4]田永林,王興霞,王雨桐,等.RAG-PHI:檢索增強生成驅動的平行人與平行智能[J].智能科學與技術學報,2024(1):41-51.
[5]唐曉波,劉江南.基于BERT和TF-IDF的問答社區問句自動標引研究:以金投網問答社區為例[J].情報科學,2021(3):3-10.
[6]戎璐.面向圖書自動分類的大語言模型提示學習研究[J].圖書館學研究,2024(1):86-103.
[7]周海晨,章成志,胡志剛,等.大模型時代下全文計量分析的應用與思考:2023全文本文獻計量分析學術沙龍綜述[J].信息資源管理學報,2024(2):162-169.
[8]李西雨,錢力,張智雄.基于提示微調的科技論文語義評價指標量化方法研究[J/OL].數據分析與知識發現:1-17[2024-05-17].http://kns.cnki.net/kcms/detail/10.1478.G2.20240116.0943.002.html.
[9]索傳軍,于淼,牌艷欣,等.數據驅動的學術評價理論框架研究[J].圖書情報工作,2024(1):5-12.
[10]王雅琪,曹樹金.ChatGPT用于論文創新性評價的效果及可行性分析[J].情報資料工作,2023(5):28-38.
[11]LI Z Y, CHEN Y F, ZHANG X, et al. BookGPT: a general framework for book recommendation empowered by large language model[J]. Electronics,2023(22): 4654.
(編輯" 何" 琳編輯)
Research on the application scenarios of large language models for scientific and
technology consulting users
CHANG" Juan
(National Library of China, Beijing 100081, China)
Abstract:" With the development of large language models and the emergence of generative artificial intelligence, artificial intelligence has brought significant changes to the service process of library technology consulting, had a profound impact on the technology consulting service model, and brought new ideas for the innovation of technology consulting services. The article combines intelligent Qamp;A, literature search, technology novelty search, literature analysis and evaluation services for technology consulting users to study the specific application practice of large language models in library technology consulting service scenarios, providing ideas and inspiration for further promoting the empowerment of technology consulting innovation applications by large language models.
Key words: large language model; scientific and technological consultation; library; artificial intelligence