999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向高校圖書館智慧服務的大語言模型探索性研究

2024-12-31 00:00:00劉思得李東升
現(xiàn)代情報 2024年12期
關鍵詞:高校圖書館

關鍵詞: 高校圖書館; 智慧服務; 命名實體識別; 大語言模型

DOI:10.3969 / j.issn.1008-0821.2024.12.010

〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 12-0102-20

隨著大數(shù)據(jù)、人工智能技術的發(fā)展, 由數(shù)據(jù)和知識驅動的網(wǎng)絡信息服務已成為高校圖書館重要的服務新模式[1] 。高校圖書館是知識傳播和交流的重要場所。智慧化服務已成為高校圖書館的發(fā)展趨勢, 有效地整合服務推廣平臺信息, 使服務模式的重要信息聯(lián)系起來, 是高校圖書館智慧化服務提高的關鍵[2] 。命名實體識別(Named Entity Recognition, NER)作為一種文本信息識別的關鍵技術, 不僅是正確理解文本內容的基礎, 同時也是智慧化服務的知識引擎。通過精準識別文本中的實體信息, 為信息檢索、知識圖譜構建和智能推薦等服務提供了強有力的支持[3] 。采用命名實體識別技術獲取文本信息特征是模型深度學習和精確度提高的前提條件, 已成為利用信息資源的重要方法[4-5] 。

高校圖書館對智慧服務的研究日益重視, 這是一種基于先進信息技術和圖書館資源的知識服務新模式, 通過主動搜索、嵌入式服務、高效信息分析和創(chuàng)新手段, 實現(xiàn)圖書館的智能化服務, 推動高校圖書館開展更多的知識服務和實踐活動。目前, 在圖情領域, 有關命名實體識別(NER)技術用于圖書館服務的拓展的文獻較為少見, 而在圖書館智慧服務的研究方面, 主要研究系統(tǒng)體系架構和模式的創(chuàng)新, 如拓展強調系統(tǒng)的架構, 創(chuàng)新推薦模式和重組知識資源[6] ; 信息服務體系和能力提升的創(chuàng)新[7] ;分析數(shù)字閱讀的數(shù)據(jù)細節(jié)和零數(shù)據(jù), 論證管理和服務的價值[8] 等方面的研究。基于算法研究的圖書館智慧服務方面, 僅局限于如通過爬蟲技術收集館藏的官網(wǎng)信息, 運用主題模型和聚類分析進行實體信息抽取和挖掘, 主要強調智慧資源和技術的應用,側重于資源的獲取與流通[9] 。通過分析智慧圖書館文獻并使用BERT-BiLSTM-CRF 模型識別技術元素及其關系, 基于知識圖譜的技術結構關系和發(fā)展趨勢, 為圖書館智慧化轉型提供參考依據(jù)[10] 。另外,圖情領域語料數(shù)據(jù)在NER 任務中的缺乏, 影響了高校圖書館的智慧服務, 表現(xiàn)為模型訓練效果受限、信息檢索和資源推薦不精準、知識圖譜構建受阻及個性化服務水平拓展與應用缺少技術支撐等[11-12] 。現(xiàn)今流行的大語言模型(LLM)在自然語言處理領域的推廣已成為重要方向。LLM 通過大規(guī)模無監(jiān)督預訓練學習語言模式, 再經(jīng)精調應用于各種NLP 任務, 提升了文本理解和生成能力, 展示出邏輯思維和推理能力, 代表了當前技術前沿[13] 。大語言模型在數(shù)據(jù)標注質量方面表現(xiàn)較為一般, 還需在標注任務上制定細粒度標注規(guī)范, 設計文本標注提示模板和解析器, 并生成結構化標注數(shù)據(jù), 為解決高質量標注語料缺乏及人工標注效率低下等問題提供有效的方法[14] 。大語言模型進行命名實體識別任務除了面臨可訓練數(shù)據(jù)集稀缺的問題之外, 還存在專業(yè)領域泛化能力差、多義詞和實體歧義、缺乏統(tǒng)一框架和可解釋性、錯誤傳播以及大語言模型計算資源需求高和訓練成本大的問題[15] 。圖書館界將大語言模型的NER 任務應用于圖書館智慧服務尚未見報道, 僅從大語言模型在智慧圖書館服務與應用拓展方面進行探討, 如采用大語言模型的提示詞用于圖書館的“CIFE” 框架, 包括建立多場景提示庫、制定設計標準、培養(yǎng)專業(yè)人才及測試性能規(guī)避風險[16] 。利用大語言模型驅動, 探討并分析智慧圖書館各階段特點和系統(tǒng)變化, 識別當前發(fā)展階段并向模型系統(tǒng)演進, 提出通過系統(tǒng)集成、業(yè)務優(yōu)化、數(shù)據(jù)安全及減少幻覺現(xiàn)象等策略應對挑戰(zhàn)[17] 。基于館藏的文獻資源分類生成任務, 利用微調后的大語言模型, 在中英文測試集上實現(xiàn)了較高的分類準確率[18] 。

綜上, 命名實體識別作為自然語言處理的一項基礎技術,專注于在文本中將實體類型預先定義,實現(xiàn)在大量的半結構化和非結構數(shù)據(jù)中識別出不同的實體, 為訓練模型提供結構化的實體信息。由于高校圖書館領域的研究具有一定的跨學科屬性, 面臨詞匯表達復雜多變、語料資源缺乏、人工標注效率低和成本高等挑戰(zhàn)[11-12,19] 。因此, 高校圖書館智慧服務利用NER 技術實現(xiàn)服務的拓展仍需進一步研究與探討, 特別是大語言模型在NER 任務下的應用與分析。如何優(yōu)化算法以適應圖情學領域的中文語言特點, 當前還存在一些挑戰(zhàn), 如高質量的圖書館中文語料相對稀缺, 且標注工作復雜度高, 這些因素都限制了大語言模型在NER 上的性能發(fā)揮。因此, 基于語言模型在命名實體識別(NER)方面的應用, 為高校圖書館智慧服務開辟了新的路徑。特別是通過有效利用有限的標注數(shù)據(jù)和先進的語言模型, 如研究在有限的計算資源條件下如何實現(xiàn)高精度的實體識別和語言模型的部署, 為圖書館信息服務拓展提供有效支持, 探索這些技術的應用服務于高校圖書館智慧服務將是未來研究的重點方向。本文以命名實體識別任務為例, 探索針對高校圖書館場景的大語言模型構建方案, 將知識規(guī)則定義實體邊界和信息抽取技術UIE[20] (Universal InformationExtraction)的快速自動標注法相結合, 構建了一種包含16 類領域實體的高校圖情領域命名實體識別語料庫ULICNER(University Library Information Chi?nese Named Entity Recognition)。同時, 為降低因模型復雜度、參數(shù)過多而導致的訓練耗時長、成本高等問題, 本文采用改進輕量級結構的ALBERT-BiL?STM-CRF 模型進行驗證試驗, 除分析案例在本文模型實體識別任務上的效果, 還運用知識圖譜技術對實體結構信息進行分析。此外, 還對比了通用大語言模型對案例的任務推理效果。最后, 探索構建高校圖書館智慧服務的大語言模型的研發(fā)和應用的可能性, 為推動高校圖書館智慧服務的創(chuàng)新和發(fā)展提供參考。

1相關工作概述

自2017 年Google 的論文“Attention is All YouNeed”[21] 提出基于注意力機制Transformer 模型以來,Transformer 模型通過增強捕捉長距離依賴關系的能力、加速訓練過程以及提升模型的表現(xiàn)力, 為NER任務提供了更高的準確性、更高效的訓練和更強的靈活性。2018 年基于此架構的BERT(BidirectionalEncoder Representations from Transformers)[22] 采用了增強預訓練詞向量模型的泛化能力, 可以更好地表征不同語境中的句法和語義信息。隨后的模型在Encoder-only、Decoder-only、EncoderDecoder 上又衍生出較多的流行模型, 如基于Transformer Decoder結構的大規(guī)模參數(shù)訓練的GPT 系列,GPT 模型結合預訓練和微調完成自然語言處理任務, 通過無監(jiān)督學習預測下一個單詞, 再經(jīng)監(jiān)督微調適應特定任務[23] ; Meta AI 公司發(fā)布基于同樣自注意力機制的LLaMA 模型, 其展示了強大的文本理解和泛化能力, 但需要大量計算資源和存儲空間, 導致部署成本高, 并且處理長文本時可能出現(xiàn)邏輯錯誤及可解釋性差的問題[24] 。國內也出現(xiàn)如百度飛漿框架的ERNIE 系列, 通過將Transformer 的Encoder 部分作為ERNIE 模型的主干進行訓練, 主要通過改進掩碼語言模型捕捉完整語義信息, 融合外部知識提高實體識別準確率和魯棒性, 其在小數(shù)據(jù)集上表現(xiàn)不如BERT 穩(wěn)定[25] ; 另外, XLNet 改進了Transformer的設計, 采用雙向訓練策略, 通過最大化所有可能的句子片段排列的概率來捕捉上下文信息, 避免了遮蔽沖突問題, 提升了模型在處理文本時的表現(xiàn),包括但不限于命名實體識別、問答系統(tǒng)和文本分類等任務[26] 。因此,Transformer 技術被視為大語言模型和預訓練的重要技術框架。

隨著大語言模型參數(shù)規(guī)模的快速增長和算法的迭代更新, 目前基于算力、算法和數(shù)據(jù)方面的研究在實體識別方面提供了一些思路, 如GPT模型研究用于實體識別方法的可用性方面, ChatGPT 在小規(guī)模訓練數(shù)據(jù)情況下的表現(xiàn)優(yōu)于序列標注模型, 作為實體識別工具時性能表現(xiàn)較為穩(wěn)定, 適用于各學科少量標注數(shù)據(jù)場景, 其局限在于在測試英文摘要數(shù)據(jù)方面尚可, 且在未涵蓋中英文差異及全文噪聲問題上需要進一步過濾或構建新的方法, 以應對中文學術論文及全文實體標注數(shù)據(jù)集的下游任務中[27] 。在測評差異分析方面, 評估ChatGPT 在中文信息抽取任務中的性能, 結果顯示, 在命名實體識別和關系抽取上不如專用模型, 且ChatGPT 在中文場景應用還需更多地優(yōu)化Prompt 設計[28] 。Keloth VK 等[29] 將LLaMA-7B 模型應用于生物醫(yī)學領域,創(chuàng)建了BioNER-LLaMA 模型, 在公開數(shù)據(jù)集上測試顯示其F1 值優(yōu)于GPT-4 的少量樣本學習能力,但該模型計算需求高且對特定領域術語適應性差,建議進一步通過LoRA 或PEFT 技術優(yōu)化, 并結合自指導方法及少量指令示例生成訓練數(shù)據(jù)。羅巒等[30]提出融合ERNIE 和改進Transformer 的中文NER 模型ERIT, 利用ERNIE 詞向量減少分詞依賴, 避免錯誤傳播, 在《人民日報》數(shù)據(jù)集上獲得79.41%的F1 值。Wang Y 等[31] 提出基于ERNIE 的ERNIEJoint模型, 通過聯(lián)合訓練NER 和文本分類任務, 利用句子級和標記級特征, 在MSRA 和微博數(shù)據(jù)集上表現(xiàn)優(yōu)異, 但運行時間較長。陳明等[32] 針對農業(yè)領域文本特點, 提出XLNet-IDCNN-CRF 模型, 利用XLNet 增強語義表征和長距離依賴捕捉, 在自建農業(yè)數(shù)據(jù)集上達到93.91%的F1值。Yan R 等[33] 提出XLNet-BiLSTM-CRF 模型, 結合XLNet 的句子特征提取與BiLSTM-CRF 的優(yōu)勢, 在CoNLL-2003 和WNUT-2017 數(shù)據(jù)集上顯著提升NER 性能, 未來可擴展至更多實體類別和其他NLP 任務。

深度學習的命名實體識別技術, 在特征提取的效率和模型的精確度上已經(jīng)逐漸超過了傳統(tǒng)基于特征的方法[34] , 如基于Transformer Encoder 框架的BERT 預訓練語言模型, 經(jīng)過大量無監(jiān)督預訓練,能夠學習到豐富的語言知識, 并且BERT 模型具有很好的可遷移性, 可以通過微調適應不同的下游任務從而提高訓練效果[35] 。由于參數(shù)量和成本的限制, BERT模型對于長文本的處理能力有限, 因為它的輸入序列長度是固定的, 會影響模型的性能,這使得它在某些應用場景中難以發(fā)揮高效的作用[36-37] 。可見, BERT 模型因其強大的上下文理解能力, 能有效處理一詞多義現(xiàn)象, 生成符合語境的動態(tài)詞嵌入, 更準確地捕捉文本實體。然而, 在特定領域中, 它可能會誤識某些實體類型, 需結合語法規(guī)則和領域知識來提升準確性。此外, BERT 的復雜性也意味著更高的計算資源需求, 而研究降低其訓練所需資源的同時, 保持其性能也較為關鍵。

為了應對BERT 模型在計算資源消耗上的問題,Google 又推出了ALBERT[36](A Lite BERT), 這是一種對BERT 進行改進后的更輕量級的訓練模型。AL?BERT 通過參數(shù)共享和減少層間連接數(shù)的方式, 在保持較高性能的同時, 大幅度降低了模型參數(shù)的數(shù)量, 從而減少了資源消耗并加速了推理速度。相應地, ALBERT 模型在實體命名識別任務中, 能夠提供更為緊湊的語義表示, 從而在較少計算資源下也能達到甚至超過原有模型的性能。同時, 由于模型體積更小, ALBERT可以在有限的計算資源條件下更容易進行微調和部署, 尤其是在資源受限的環(huán)境中擁有更好的可擴展性。另外, 盡管模型尺寸減小,ALBERT 依然能在多項任務上保持甚至超越BERT的性能水平, 這使得它成為實體命名識別任務的理想選擇之一[38] 。

因此,ALBERT通過參數(shù)共享和減少嵌入維度,實現(xiàn)了輕量化設計, 即便在計算資源有限的情況下,也能高效完成命名實體識別任務。特別是在高校圖書館這樣的特定領域內, 當標注數(shù)據(jù)較少或需要一定知識規(guī)則拓展學習時, ALBERT 這種輕量化且易于微調的特點, 使得ALBERT 能快速適應新領域,它能夠利用預訓練階段學到豐富的語言知識, 更加適應實體識別任務, 特別是在保持在識別準確性和泛化能力方面。總之, 輕量級語言模型ALBERT 的應用, 能夠在資源有限的環(huán)境下高效地完成實體識別任務, 精準地識別圖情學領域的特定實體, 對構建高校圖書館的智能服務適用信息發(fā)現(xiàn)、推廣應用服務發(fā)揮著關鍵作用。

2高校圖情領域測評語料采集方法與分析為分析

本文模型在自建語料庫上命名實體識別任務的性能表現(xiàn), 本文根據(jù)圖情語料庫的特點構建一套基于預處理的自動標注方法, 實現(xiàn)高效的標注和數(shù)據(jù)采集, 其標注方法和流程如圖1 所示。

2.1測評語料的特點分析

深刻認識數(shù)據(jù)賦能對高校圖書館智慧化服務的影響和價值, 有助于提升整體服務水平。不同領域文本的實體特點不同, 圖情領域與其他領域(如醫(yī)療、司法和輿情)的詞匯重疊相似度較低[11-12] 。圖情領域的實體識別缺乏數(shù)據(jù), 導致訓練數(shù)據(jù)不足,標注效率面臨挑戰(zhàn)。由于領域間知識遷移難度大,圖情領域的通用知識難以遷移到其他任務領域, 領域間的知識難以相互遷移且相關性不高, 需要高度定制化[39] 。因此, 構建垂直領域的命名實體識別模型, 詞分布不同的領域文本在實體識別效果會在模型中體現(xiàn)出不同的特征, 通過提出一套自動構建細粒度語料感知詞典的解決方案, 利用知識規(guī)則提升模型訓練精度, 需要設計不同的實體識別方法和分類。因此, 為了提升圖情領域內的實體識別精度,有必要專門采集并構建該領域的語料庫, 通過提出一套自動構建細粒度語料感知詞典的解決方案, 利用知識規(guī)則提升模型訓練精度, 進而設計出針對性的實體識別方法和分類策略。

2.2測評語料的采集與預處理

高校圖書館服務信息的文本不同于其他領域文本, 首先, 要在海量的非結構化文本中準確識別出相關實體, 關鍵在于有效利用信息資源, 特別是在詞匯更新和指代名詞等方面。其次, 語料的構建也需要特定詞義特征和領域知識規(guī)則進行匹配和整合, 降低成本和難度以實現(xiàn)領域或學科范圍內的應用價值。為保證數(shù)據(jù)的可靠性和準確性, 高校圖情領域的實體分類方法包含兩部分內容: 一是基于教育部《普通高等學校圖書館規(guī)程》[40] 的條例以及規(guī)程和圖書情報檢索領域內的《中國圖書館分類法》[41] 的語義特征。本文的命名實體類別的劃分需依據(jù)以上專業(yè)文獻和行業(yè)標準, 咨詢來自圖情學、信息科學及相關領域的專家意見, 還參考了現(xiàn)有數(shù)據(jù)庫參考目錄, 如圖書館目錄系統(tǒng)、主題詞表(UDC、Dewey 十進制分類法), 它們都包含了大量已分類的實體實例。為適應信息推廣與應用的拓展對實體標簽的影響, 本文還考慮了圖書館的需求和服務對標簽的影響, 以訪談記錄、通過統(tǒng)計方法分析用戶關注服務的詞匯頻率和研究生、教授對于學術研究支持的需求反饋等為參考, 確保實體標簽的科學性和合理性。二是本文通過清博指數(shù)平臺[42] ,在微信榜單中刷選出高校圖書館微信服務信息的榜單, 涵蓋了全國開通微信服務的946所高校, 為了凸顯服務的特色和影響力, 抓取1 年中(2021 年6月—2022年6月)每日高校圖書館微信榜單前100名的文本信息。在文本預處理之前, 本文使用Jie?ba工具對參考書籍進行分詞提取, 并統(tǒng)計高校圖情內的相關實體, 獲得實體分詞處理后的結構特征和實體的層級結構, 即實體與類目之間存在的上下位詞關系。例如,“高校圖書館” 的上位詞是“文化結構”; “學科館員” 的上位詞是“圖書館學”。因此, 為篩選出可供使用的實體分類, 按照上下位的層級結構關系, 構建了基于知識規(guī)則的高校圖情領域實體, 使用Notepad++對來源數(shù)據(jù)進行格式處理, 去除無效和特殊字符, 語料集涵蓋高校圖書館服務范圍、用戶需求、業(yè)務能力和文化推廣等方面的36000多條文本, 約60萬字符。

2.3測評語料的標注方法

在高校圖情領域命名實體識別研究中, 由于缺乏對領域實體語料庫的研究, 提升實體識別效果存在較大難度。未處理的非結構化文本中包含大量實體, 詞匯和表達方式不同, 要實現(xiàn)有效識別需要處理詞匯量大、新詞更新快、指代復雜等問題。此外,構建高質量的圖書館情報領域語料庫較為困難, 需要收集表達特定圖書館業(yè)務與服務的文本, 進行人工標注確定實體類別, 并投入大量人力物力。要實現(xiàn)實體識別技術在圖書館情報領域的廣泛應用, 還需研發(fā)領域高效的實體識別模型, 整合領域知識約束模型的語義表示, 降低模型訓練和應用難度, 為后續(xù)大語言模型構建提供助力和有效支撐。

命名實體識別通過詞典的方法增強詞內語義和詞邊界信息是中文命名實體標注的有效方法[43] 。本文在領域專家的指導下, 通過對高校圖情訓練語料的剖析, 充分挖掘其隱含知識, 提出了一個基于詞典和規(guī)則的中文命名實體識別自動標注模型, 將詞信息和結構信息統(tǒng)一地結合起來,提高實體自動標注過程的匹配有效性。因此, 本文構建形成16類細粒度的高校圖情領域的實體命名,分別是用戶類型、用戶姓名、用戶職務、節(jié)假日、活動時間、資源名稱、資源簡稱、服務名稱、服務簡稱、服務類別、文化名稱、文化簡稱、機構名稱、機構簡稱、地域名稱、地域簡稱。在實體命名領域,人工方法通常標注效率低, 誤差大, 不利于提升模型的訓練效果, 為保障實體標注的準確性和提高效率, 本文采用基于知識規(guī)則匹配與人工審核修正組合匹配的自動標注方式, 構建高校圖情領域的實體識別數(shù)據(jù)集, 標注過程如圖1所示。

在標注語料庫前, 基于知識規(guī)則設置實體名稱和實體標簽, 抽取部分樣本預先標注30條高校圖情領域文本, 采用Doccano標注工具進行少量樣本標注, 并支持自動標注和多人協(xié)同標注。為確保標注質量和降低標注成本, 保證實體標注結果的一致性, 本文的標注人員由情報學方向的老師、學生和自然語言處理方向老師3 名成員組成, 測評語料庫在標注期間保持每天700多條文本句子速度, 持續(xù)時間為50天。在此基礎上, 為提高標注效率, 標記人員需要經(jīng)過前期軟件操作培訓和熟悉標注規(guī)則。本文自動標注工具采用通用信息抽取技術UIE框架, 來實現(xiàn)實體識別、關系抽取、事件抽取等任務的建模, 具有良好的遷移和泛化性能。目前, UIE任務對于圖情領域的任務效果未達到文本實體識別的使用水平, 需要進行微調來提升實現(xiàn)自動識別的效果。為驗證UIE 技術的有效性, 基于UIE技術的訓練模型在不同領域的少量樣本自動標注準確率如表1所示。其中, 金融、醫(yī)療和互聯(lián)網(wǎng)領域的訓練樣本數(shù)均為5條, 實體類別數(shù)分別為4類、9類和4類。

在表2的不同領域數(shù)據(jù)集上進行試驗, 對無樣本的無訓練數(shù)據(jù)直接通過UIE進行預測, 與少樣本的標注數(shù)據(jù)進行模型微調后的標注結果進行對比。實驗結果表明, UIE在各類任務中可以通過少量標注數(shù)據(jù)訓練后進一步提升自動標注的準確率。本文構建的圖情語料在有無樣本條件下, 其準確率分別為32.56%和68.32%。同時, 為展現(xiàn)UIE 技術在中文任務上自動標注的實體名稱和實體標簽的識別效果, 圖2和圖3 分別展示了文本案例在是否采用樣本訓練的標注實際效果節(jié)選的對比。

由圖可知, 圖3的節(jié)選文本標注結果經(jīng)過少量樣本學習后, 其效果要優(yōu)于圖2 無樣本學習的標注表現(xiàn), 即基于少量樣本學習后的UIE 技術的自動標注法避免了文本數(shù)據(jù)實體識別需要大量標注數(shù)據(jù)才能保證識別的效果, 可減少不必要的重復工作時間。通過采用自定義的實體規(guī)則、實體類型和標簽,并利用UIE 技術的訓練模型實現(xiàn)自動標注法, 得到本文所構建領域內的標注文本比較可靠和便捷,在降低成本的同時, 標注效率有較大的提升。根據(jù)構建的知識規(guī)則和UIE 技術對本文的訓練語料庫進行自動實體標記, 需對自動匹配結果中可能出現(xiàn)的錯誤標注、漏標注等問題以人工審核的方式進一步作修正, 且隨著文本被標注校驗正確后, 動態(tài)更新領域詞典與規(guī)則, 為后續(xù)的自動標注提供更高的效率。因此, 本文利用以上方法將高校圖情語料中的文本實體進行識別, 最終構建了ULICNER 數(shù)據(jù)集, 包含16 類實體類型, 統(tǒng)計后得到72272個實體, 實體數(shù)的統(tǒng)計及其標注符號情況如表2 所示。

數(shù)據(jù)集基于BIO規(guī)則對語言序列進行處理, 領域命名實體的數(shù)據(jù)集中每一行由兩列組成, 數(shù)據(jù)的兩列之間采用空格隔開, 其中第一列為文本內容,第二列是BIO格式的標簽序列, 句子邊界用空行標識, 其中, B-代表實體的開頭, I-代表實體的中間或結尾, O-代表不屬于實體。例如, 用戶類型“新生”, 實體標簽為“PER_LX”, 對應文本序列為[‘新’‘生’],對應標簽序列為[‘B-PER_LX’‘I-PER_LX’],其生成流程如圖4 所示。

3ALBERT-BiLSTM-CRF模型結構

本文采用的ALERT-BiLSTM-CRF模型包含5個部分, 輸入表示層、ALBERT模型、BiLSTM 雙向長短期記憶網(wǎng)絡層、CRF條件隨機場和預測輸出層。高校圖情領域訓練文本信息的命名實體識別依靠該模型完成。首先, 在訓練語料時, 輸入表示層使用基于BIO 標注的文本提取字符級特征, 而后輸入到ALBERT模型, 該模型對字符級特征之間的關系進行分析, 從而獲得字符級別的語義信息, 作為BIL?STM 層的輸入; 其次,BILSTM 層合并考慮對輸入文本特征的前后序列關系, 獲得的組合序列信息作為CRF層的輸入;最后,基于CRF的解碼層輸出預測的標簽序列, 獲取每個標識的優(yōu)化分類結果。模型整體結構如圖5 所示。

3.1 ALBERT 模型及其改進

為降低訓練成本, 本文采用ALBERT模型。它是與BERT模型類似的輕量級結構, 是將BERT模型進行“瘦身”, 大幅減少參數(shù)量, 但不損失模型性能。其最大貢獻是使模型具備更強的成長性, 在模型變大時, 自然語言處理任務當中的推理能力能夠得到提高[36] 。ALBERT 是通過Embedding 層和Transformer Encoder 層構建的模型。其中, Embed?ding 輸入層包含3 種Embedding 編碼之和, 分別是輸入的靜態(tài)詞向量、位置編碼和語句分割編碼。Transformer Encoder 層包括兩個子層, 每個子層又包含1 個自注意層(Self-Attention)、兩個Add & Norm層和1 個前饋神經(jīng)網(wǎng)絡層(Feed Forward), 如圖6所示。另外, 在Encoder 單元結構中, Add 操作(X+Self-Attention(X))表示殘差連接, 用于解決多層網(wǎng)絡訓練問題, 使網(wǎng)絡聚焦當前輸入的差異部分。X 作為Self-Attention 或Feed Forward 的輸入, 其輸出與輸入維度相同, 可以相加。Norm 指Layer Nor?malization, 對每層神經(jīng)元的輸出進行標準化, 增強模型的泛化能力。Feed Forward 層由兩層全連接層組成, 第一層使用激活函數(shù)(如ReLU), 第二層不使用激活函數(shù), 確保輸出與輸入維度一致。

ALBERT 通過改進Transformer 技術, 進行參數(shù)精簡和性能優(yōu)化,具體調整策略是: ①嵌入矩陣分解: BERT 模型的嵌入向量維度E 和隱藏層維度H相等, ALBERT 將BERT 中V×E 的嵌入矩陣分解為V×E+E×H, 減少參數(shù)量; ②跨層參數(shù)共享: 即共享Transformer 中的全連接層和注意力層參數(shù), 簡化模型。通過將BERT 模型的隱藏層直接降低到一層, ALBERT 模型極大地減少了模型參數(shù)量; ③句間連貫性損失: ALBERT 用SOP 替代NSP, 專注于句子間的連貫性而非主題預測, 以改善語義理解。

3.2BiLSTM 與CRF

ALBERT 模型預訓練輸出缺乏順序的上下文關系, 導致文本抽取的相對位置信息不準確。為得到文本中序列特征, 本文構建了BiLSTM 模型用來提取文序列的上下文信息, 由兩個LSTM 模型組合,1 個正向處理, 1 個反向處理, 兩個LSTM 輸出拼接形成詞向量作為詞的特征表達, 其結構如圖7 所示。BiLSTM 中的兩個LSTM 參數(shù)相互獨立, 只共享BERT 預訓練的Word-embedding。相比LSTM,BiLSTM 在文本特征提取效率和性能方面要優(yōu)于單個LSTM, 在梯度消失和爆炸問題上也取得良好效果[44] 。其中, LSTM 包含遺忘門、輸入門、輸出門,如圖8所示, 同時還包含1 個隱藏狀態(tài); 另外, 符號是按位做乘法; 是按位做加法。在每個時間步t, 遺忘門f(t)決定保留多少前一狀態(tài)的信息,輸入門i(t)控制新信息的流入, 而輸出門o(t)決定當前狀態(tài)的輸出, 如式(1)~(6) 所示:

4實驗設置與結果分析

4.1實驗設置

本文實驗在Pytorch1.7 版本框架下建立AL?BERT-BiLSTM-CRF 模型, 預訓練模型參考了Hug?gingface 模型中Voidful 的ALBERT_Chinese_Base 模型[47] 的開源模型, 而該預訓練模型的參數(shù)量只有BERT_Chinese_Base 模型的1/10 左右, 極大地降低了資源消耗和時長, 并使用了維基百科數(shù)據(jù)進行訓練, 故它們對正式文本建模較好[48] 。實驗參數(shù)設置參考了文獻[36]的方法, 其中預訓練模型含有12 個Transformer 層, 768 維隱藏層和12 頭多頭注意力機制, 設置最大序列長度為128, BiLSTM 層包含256 維隱藏層,Learning rate 為5e-5, Batch_Size 大小為32,Dropout 為0.5,優(yōu)化器選擇Adam,Epoch 為100 輪。

另外,本文將構建的ULICNER數(shù)據(jù)集按8∶1∶1的比例劃分為訓練集、驗證集和測試集。數(shù)據(jù)實體有16 個類目, 包含36 305個句子, 778 812個字符,72 272個實體, 數(shù)據(jù)集組成情況如表3 所示。

4.2實驗過程及分析

為驗證ALBERT-BiLSTM-CRF模型在高校圖情領域文本命名實體識別任務中的有效性, 本文設計了多個基準模型進行對比實驗, 具體結果如圖9所示。

由圖9可見, 本文采用的ALBERT-BiLSTM-CRF有效地提升了高校圖情領域文本命名實體識別的效果。BiLSTM-CRF 模型在BiLSTM 模型的基礎上將樣本的高維空間復雜非線性變換, 而后將樣本的語義信息輸入到CRF 預測最佳的標注序列, 準確率94.17%,高于后兩種模型91.26%和93.18%的準確率; BERT-CRF 模型通過BERT 預訓練模型, 學習到狀態(tài)序列(輸出的標注)之間的關系效果好于BiLSTM 模型, 該模型與BiLSTM-CRF 模型較為相似,只是采用BERT 模型來訓練CRF 模型中的發(fā)射矩陣能夠捕捉長距離依賴關系,但僅依靠CRF 層可能無法充分利用序列標簽間的依賴關系, 其準確率為97.85%; BERT-BiLSTM-CRF 模型能夠并行獲取并優(yōu)化全局信息, 但該模型的訓練成本是所有對比模型中最高的, 因為加入BiLSTM層增強了序列建模能力, 但BERT預訓練模型的參數(shù)量龐大,導致整體模型訓練時間和資源消耗較大, 其召回率、F1 值和準確率分別為98.59%、98.91%和98.75%;ALBERT-CRF 模型通過改進BERT 的輕量化模型,ALBERT 通過參數(shù)共享減少模型大小, 但這可能會損失某些細微的語言結構信息, 影響NER 的精確度, 其準確率為97.98%, 召回率和F1 值要低于BERT-CRF 的整體表現(xiàn)。ALBERT-BiLSTM-CRF 模型在各項評價指標上優(yōu)于對比模型, 其召回率、F1值和準確率分別為98.76%、98.95%和98.86%,相比BERT-BiLSTM-CRF 模型分別提升了0.17%、0.04%和0.11%。這表明, 經(jīng)過參數(shù)精簡和優(yōu)化的ALBERT 預訓練模型, 結合Transformer Encoder 與BiLSTM-CRF, 不僅能準確識別實體, 還能實現(xiàn)更精準的實體命名。特別是在融合BiLSTM-CRF 后,模型能夠更好地捕捉序列中的上下文依賴關系, 進一步增強了實體邊界的識別精度。BiLSTM 層的雙向信息傳遞與CRF 層的全局最優(yōu)解選擇相結合,使模型在處理復雜文本結構時更為穩(wěn)健, 展現(xiàn)出在實體命名任務中的強大能力, 即ALBERT 模型融合的泛化能力和魯棒性、領域適應的表現(xiàn)、增量學習以及從自定義嵌入方式增強模型對領域內特定實體類型的理解能力等方面表現(xiàn)良好。

另外, 本文在此次實驗環(huán)境下, 對ALBERT 和BERT模型對命名實體識別在成效方面的訓練時間和參數(shù)量進行了對比測試, 結果如表4所示。

由圖9 和表4 可知, 實體命名識別效率方面,ALBERT 模型的參數(shù)僅為BERT 模型訓練參數(shù)量的11%, 并且性能得到提升的同時, 訓練效率比BERTBiLSTM-CRF 模型提升了近1.6 倍, 說明ALBERT模型比BERT 模型能更好地克服在實際運用中面臨的GPU/TPU 和CPU 限制, 為接下來的文本命名實體識別在空間調整模型規(guī)模的速度和效率提供了可能性, 也為領域內的下游任務調整提供更多操作空間。

為明確本文模型對不同類別實體的識別效果,基于ALBERT-BiLSTM-CRF 模型的數(shù)據(jù)集ULIC?NER 的16 類命名實體的識別的準確率、召回率和F1 值3 個指標結果如表5 所示。

由表5可知, 服務簡稱、文化名稱3 個指標均為100%, 該實體名稱屬于圖書館服務和文化推廣方面的內容, 專有名詞較多, 因此訓練效果理想;資源名稱和地域簡稱的召回率均為100%, 這兩類實體均有明確的邊界特征。除了用戶職務的3 個指標, 還有資源名稱、服務名稱、地域簡稱的準確率均小于98%, 以及機構簡稱的召回率小于98%; 其他11類實體的準確率、召回率和F1 值均高于98%,說明ALBERT-BiLSTM-CRF 模型對高校圖情領域文本中的各類不同實體的識別效率效果良好。

5案例分析

近年來, 大語言模型已取得較大進展, 如國外代表性模型有OpenAI 的GPT 系列、Google 的SwitchTransformer 等, 以及Meta 的相關研發(fā)。國內則以百度、阿里巴巴、華為等公司為主力, 推出了基于ERNIE 模型的文小言,基于M6 模型的通義千問、盤古等大模型。這些大語言模型參數(shù)規(guī)模在不斷發(fā)展, 并在多模態(tài)理解、對話交互等方面取得進步。同時, 在命名實體識別任務上, 大模型也展現(xiàn)出較強的能力, 可以快速準確地識別出文本中的人名、地名、組織機構等關鍵實體信息。為能夠反映高校圖書館領域實體之間的復雜關系, 也為更好地了解高校圖書館的信息服務特色和影響力, 本文從清博智能的本科高校圖書館微信榜單中隨機選出一篇WCI 值較高的文章用于測試本文模型, 并與目前較為流行的國內外大語言訓練模型的實體識別效果進行對比。該篇推文是廣州大學圖書館發(fā)布的一篇原創(chuàng)性的公告, 題名為“廣州大學圖書館正門景觀設計方案征集”[49] , 該篇推文擁有3000+的閱讀量, 在高校圖書館微信公眾號榜單中排名前列, 文章覆蓋的節(jié)選信息如表6 所示。

5.1與國內外通用大語言模型識別效果對比

在自然語言處理研究中, 提示詞(Prompt)作為引導大語言模型(LLMs)執(zhí)行特定任務的關鍵組成部分, 其設計與優(yōu)化對于提升模型性能至關重要[28,50,52] 。提示詞通常包含一系列指令或問題, 可以采用人工模式或與API 方式結合測試完成命名實體識別的任務, 從而引導模型生成滿足特定需求的響應[53-54] 。在實體命名識別任務中, 精心設計的提示詞能夠有效地激發(fā)模型對不同類型實體的識別能力。本文通過向大語言模型提供少量預先學習的實體標簽(Few-shot 模式), 以促進模型對實體標簽的學習, 并構建了一系列標準化提示詞的策略,旨在評估多種大語言模型在識別各類實體類型上的表現(xiàn), 如表2 所示。通過對不同模型在相同提示詞下產(chǎn)生的響應進行分析, 可以揭示這些模型在實體識別任務中的優(yōu)勢與局限性, 具體的流程如圖10所示。

通過采用規(guī)范化的提示詞訓練大語言模型, 本文選取了國內外利用較多的大語言訓練模型進行案例文本信息識別, 得到實體標簽效果對比實驗, 分別選取了ChatGPT 4.0、Claude 2和國內的通義千問、文小言等模型。通過利用大語言訓練模型語言理解的能力, 學習預先進行小樣本的實體標注工作后, 輸出各個大語言模型學習案例為本文的實體標簽輸出結果, 其結果如表7所示。

為有效對比表7 中大語言模型在提示詞訓練下得到的實體標簽結果, 結合本文標注方法(見第3章), 對各個模型的正確和錯誤標簽進行分析, 如圖11 所示。

根據(jù)各個大語言模型對案例文本實體標簽的輸出結果, 可以總結出ChatGPT、Claude、通義千問和文小言4種模型在處理同一份中文文本時, 各自展示了不同的實體標簽識別能力。其中, ChatGPT表現(xiàn)出較好的時間(如“2022年9 月21日至2022年10月31日”)和地點(如“圖書館大門、臺階、平臺”)標簽識別能力, 但是它錯誤地將“征集圖書館正門景觀設計方案” 標記為任務類型(Mission)。Claude在識別機構名稱(如“廣州大學圖書館”)和時間(如“2022 年”) 方面表現(xiàn)良好, 但錯誤地將“征集方” 歸類為組織名(ORG_MC), 并且將“中軸線” 標記為地點(LOC_LC),而實際上文本中并未提及“中軸線”。通義千問能夠識別機構名稱和服務模式(如“藏、借、閱、詢一體化的服務模式”),但它在標簽化過程中出現(xiàn)了諸如將“全校師生”標記為參與者(PARTICIPANTS)之類的錯誤。文小言在時間(如“2022 年9 月21 日”)和用戶(如“全體在校師生”)的識別上較為準確, 同時也能識別到人物(如“讀者”), 但它錯誤地標記了地址類標簽(如“圖書館大門前” 標記LOC_SF)。

經(jīng)過各種模型的對比發(fā)現(xiàn), 文小言和通義千問在中文命名實體識別中的表現(xiàn)要優(yōu)于ChatGPT 和Claude。表7 中ChatGPT 和Claude 識別出的實體標簽皆少于文小言和通義千問模型, 二者都在描述該案例信息中指出了關鍵信息, 如設計圖書館正門平臺位置信息, 但ChatGPT 識別的信息完整度要優(yōu)于Claude, 這可能與模型學習能力有較大關系。文小言和通義千問識別實體的信息量要更豐富, 其中文小言在中文實體識別的信息量要多于通義千問,在該案例中描述具體的人物、服務需求和地點等更加詳細。當涉及特定專業(yè)性的文本時, 這些通用模型可能不如專門訓練過的模型那樣有效。例如, 在處理建筑設計領域的文本時, “自臺階至平臺景觀設計方案” 這一類專業(yè)術語可能會被通用模型錯誤地分類為“設計方案” (DESIGN), 而專用模型則可能更準確地將其分類為與主題服務(SER_MC)或文化活動(CUL_MC)相關的特定類別。因此, 為了提升模型在專業(yè)領域內的識別準確性, 需要對其進行進一步的訓練或微調, 以學習更多領域內的專有名詞和概念。

綜上, 以上大語言模型基于少量樣本學習標注的方法, 可能會出現(xiàn)漏標或錯誤的情況。在圖情領域的實體標注和標簽方法方面, 現(xiàn)有的大語言模型由于訓練語料存在局限性, 標注識別的準確性和實用性不夠理想。這主要是由于大語言模型對圖情領域的預訓練語料不充分或者缺少包含專業(yè)的圖情語料文本。如果需要提高大語言模型在圖情領域實體識別任務上的效果, 模型結構的參數(shù)需要進一步訓練與優(yōu)化, 并采用包含豐富圖情文本的語料微調,以提升模型對圖情領域詞匯和語義的理解能力。同時, 還需要構建高質量的圖情領域標注數(shù)據(jù)集, 采用如知識蒸餾技術、半監(jiān)督學習等方法優(yōu)化與調整領域任務的準確性, 使模型在實體識別任務中提高實際應用的能力。為有效對比本文所構建的模型與這些大語言模型的實體識別效果, 給出了本案例的命名實體識別結果, 如圖12和圖13所示。

與上述4 種模型相比, 本文模型在識別準確性和實體屬性方面有較大的優(yōu)勢, 能夠更有效地處理文本數(shù)據(jù), 并生成更加準確的標簽。除識別的標簽較多外, 還可以識別專門服務于高校圖情領域的各類實體屬性標簽, 如包括SER_?(服務類實體標簽)、ORG_?(組織類標簽)和PER_?(用戶群體標簽)標簽較多, 凸顯該案例需要為圖書館提供專門的特殊服務, 有專門用戶群體需求。因此, 本文構建高效的圖情領域命名實體識別模型, 將為后續(xù)探索圖書館大語言的性能優(yōu)化提供有效的助力。如通過結構化知識源強化預訓練、提升標注后的訓練效果和優(yōu)化模型的框架等技術手段, 在知識服務領域產(chǎn)生協(xié)同效應, 也為相關領域的研究和實際應用提供可靠的參考和借鑒。

5.2基于本文模型的識別效果和知識圖譜分析

為了便于分析本文構建模型對輸入文本信息和識別出的實體與標簽效果, 本文構建此案例的知識圖譜內實體之間的數(shù)據(jù)結構關系, 將識別出的實體關系三元組存儲到Neo4j 圖數(shù)據(jù)庫中, 結合高校圖情領域的實體、實體標簽、實體類型等信息, 構建高校圖情領域知識圖譜包含的實體節(jié)點和關系邊,以便高校圖書館在服務模式上更好地理解、探索實體之間的關系, 獲取高校圖書館的發(fā)展現(xiàn)狀、服務模式等方面的信息。本案例實體和標簽的知識圖譜如圖14 所示。

可見,本文案例知識圖譜圖形由文章標題信息和文章內容兩部分構成, 其中文章內容信息的圖譜所存儲內容是重要部分, 標題內容隱含的信息較少,二者以微信公眾號作為連接。另外, 還可以通過Neo4j展示高校圖譜中各個實體之間的關系, 分析知識圖譜所存儲數(shù)據(jù)包括, 實體信息、實體標簽、實體類型, 如通過基于Neo4j 數(shù)據(jù)庫的輸入Cypher 查詢語句: “MATCH(startNode:‘文章內容’)<-[:‘服務’]-(preNode1:‘服務類型’)-[:SER_LX]-(end?Node) RETURN startNode,preNode1,endNode”。即通過查詢的結果獲取服務類的內容文本和實體類型的實體信息, 如圖15 所示; 如換成查詢用戶類型同樣也可查到有關用戶識別實體具體信息, 如圖16 所示。因此, 構建知識圖譜分析高校圖情領域實體信息, 采用命名實體識別技術, 可以獲取領域內的發(fā)展現(xiàn)狀, 幫助獲取情報, 以結構化形式展示信息, 便于后續(xù)創(chuàng)新知識管理和推動知識共享等服務的開展。

6探索大語言模型技術,推動高校圖書館智慧服務領域的研發(fā)與應用

本文通過分析大語言模型在高校圖書館命名實體識別(NER)任務上的表現(xiàn),并與本文構建的訓練模型進行對比分析, 發(fā)現(xiàn)當前高校圖書館在利用大語言模型技術方面仍需進一步研究與發(fā)展。鑒于NER技術在信息檢索和知識圖譜構建中的關鍵作用, 以大語言模型為基礎的NER技術對于提升高校圖書館的智能化服務水平具有重要意義。目前,大語言模型在高校圖書館領域的應用正處于持續(xù)探討階段,未來需在技術應用、服務框架探索和服務拓展等多個層面進一步開發(fā)與推廣,以有效推動高校圖書館智慧服務的創(chuàng)新發(fā)展。特別是結合大語言模型的優(yōu)勢, 以探索更高效、更精準的實體識別為基礎, 是助力實現(xiàn)智慧圖書館服務升級的重要途徑, 具體探討如下:

1) 探索基于圖書館領域的LibraryGPT 大語言模型

探索服務于圖書館領域的大語言模型LibraryG?PT 具有重要意義, 它將成為衡量高校圖書館服務質量提升和智慧服務轉型的重要指標。從圖書館的典型應用場景出發(fā), 如讀者借閱服務、文獻知識問答、館藏推薦、微信公眾號服務等, 構建具備對應領域知識的高質量語料庫。同時, 還可借鑒利用最新神經(jīng)網(wǎng)絡的模型架構, 如ALBERT、LaMDA、Qwen、GPT-4 Turbo 等, 并使用超大規(guī)模的語料進行預訓練, 以提升對語義特征的理解能力。在此基礎上,獲取高校圖書館日常實際業(yè)務數(shù)據(jù), 如讀者留言、查詢日志和館藏資源利用情況, 引入NER 技術等,以提高對圖書館專有名詞和實體的識別準確性, 從而優(yōu)化信息檢索和知識圖譜構建, 并且對預訓練模型進行微調、迭代優(yōu)化和驗證, 使其能夠準確理解圖書館領域的文本信息表達, 從而形成專業(yè)性強的LibraryGPT 模型。同時, LibraryGPT 的研發(fā)過程也需要以圖書館員的專業(yè)知識支持重要決策, 如訓練語料構建、業(yè)務場景設計、模型評測等方面。

構建面向圖書館服務的大語言模型, 可以借助大型企業(yè)開源的預訓練模型進行遷移學習, 從而快速實現(xiàn)圖書館領域的語言理解與生成。通過調用開源的大型語言模型, 使用圖書館領域的數(shù)據(jù)微調模型的參數(shù), 使其適應特定的圖書館服務場景和任務,如生成書摘、用戶推薦、知識問答等。這種方式可以降低圖書館開展智慧化服務的技術門檻, 縮短研發(fā)周期。同時, 可以依托云服務企業(yè)的云計算平臺獲得算力支持, 解決圖書館部署大語言模型時在本地算力不足的難題, 加速在圖書館任務場景下的大語言模型部署和服務應用, 實現(xiàn)智慧服務能力的快速提升。總體來說, 充分利用企業(yè)開源的預訓練模型及其云服務, 可以給圖書館帶來技術與資源上的雙重支撐, 有力促進圖書館智慧服務的建設。

2) 遵循開放共享原則構建生態(tài)

基于圖書館智慧服務的定位和價值, 提倡圖書館建立聯(lián)盟實現(xiàn)共享數(shù)據(jù)、模型和技術。高校圖書館聯(lián)盟的建立可以實現(xiàn)數(shù)據(jù)補充、模型優(yōu)化、技術更新等方面的共享, 形成持續(xù)協(xié)作的技術共同體。例如, 不同圖書館可以共享自主開發(fā)或購買的用戶行為數(shù)據(jù)分析模型、文獻推薦系統(tǒng)、知識圖譜生成工具等, 降低重復建設和采購成本。此外, 圖書館聯(lián)盟內相關技術人員之間也可以進行密切合作, 共同針對圖書館領域的特點與軟硬件企業(yè)的外部機構合作和探索信息處理與知識服務的新技術。這種協(xié)作不僅可以節(jié)省研發(fā)投入, 也有利于形成統(tǒng)一的技術標準, 整合校內外資源, 形成開放聯(lián)合的服務生態(tài)。而這些共享的數(shù)字資源、智能化模型和新技術,都是高校圖書館實現(xiàn)從傳統(tǒng)服務向智慧化服務轉型的重要基礎。

3)推動高校圖書館+AIGC 產(chǎn)業(yè)的研發(fā)與應用

推動面向圖書館領域的大語言模型的產(chǎn)業(yè)化應用, 不僅是當前圖書館智慧服務發(fā)展的必然趨勢,也是提升圖書館服務能力和服務質量的迫切需求。當前業(yè)界對基于生成式算法和大模型的AIGC 或AI智能體的創(chuàng)新模式對智慧圖書館模式構建與實現(xiàn)路徑研究主要集中于以信息生態(tài)理論為基礎[55] 、圖書館服務體系創(chuàng)新[56] 、智慧閱讀推廣模式[57] 以及學科知識服務[58-59] 等方面, 如分析ChatGPT 為智慧圖書館優(yōu)化基礎設施、創(chuàng)新服務模式和提升服務水平提供了技術支持, 但基于構建AIGC 的圖書館轉型框架的轉型升級路徑還存在風險與挑戰(zhàn)[60-61] 。

可見, 圖書館的角色正在從傳統(tǒng)的知識存儲中心轉變?yōu)楝F(xiàn)代的智慧交流場所。由于當前尚未開發(fā)出圖書館專業(yè)性的大語言服務模型和技術應用, 因此, 未來高校圖書館需要開發(fā)基于以LibraryGPT 為基礎框架的人工智能生成內容技術, 加速知識服務領域的產(chǎn)業(yè)化進程, 促使信息處理方式從被動響應向主動服務轉變, 積極布局基于大語言模型AI 智能體對圖書館智慧服務的拓展和研究。具體而言, 這包括以下幾個方面的舉措: ①面向用戶的智能服務應用開發(fā)。開發(fā)智能的書籍推薦系統(tǒng)、個性化閱讀助手、語音導覽服務以及支持多語言交互的知識問答機器人, 形成高校圖書館AI 智能體的服務。這些應用將極大提升用戶的使用體驗, 使圖書館服務更加貼近用戶需求; ②為圖書管理提供智能化支持。實現(xiàn)圖書智能分類、借還書流程自動化以及基于數(shù)據(jù)分析的館藏規(guī)劃和運營決策支持, 提高圖書館內部運作效率, 減輕工作人員負擔, 確保資源分配更加合理; ③與合作企業(yè)共建生態(tài)系統(tǒng)。與出版商建立書籍信息互聯(lián)共享機制, 與硬件提供商合作開發(fā)各類自助服務產(chǎn)品(如翻譯工具、數(shù)字閱讀設備等), 并通過設立創(chuàng)新創(chuàng)業(yè)平臺支持開發(fā)者創(chuàng)造更多有價值的圖書館應用; ④探索服務的商業(yè)化模式。對部分高級查詢服務實行收費制度, 推出訂閱服務或對特定增值服務進行計費, 以此獲得持續(xù)的資金支持, 保障圖書館服務的長期穩(wěn)定發(fā)展; ⑤多渠道推廣應用實踐案例。舉辦圖書館智能應用創(chuàng)意大賽, 鼓勵技術創(chuàng)新; 利用社交媒體平臺(如微信、抖音、微博等)進行圖書館智能服務的推廣宣傳, 吸引更多公眾參與其中, 形成良好的社會效應。

綜上, 本文通過探討圖書館領域的LibraryGPT大語言模型的構建, 從技術框架、合作共享、服務生態(tài)構建、AIGC 研發(fā)與應用等角度分析了對圖書館服務的拓展和優(yōu)化升級思路, 探討人工智能時代下的圖書館智慧服務的變革與發(fā)展, 對未來圖書館智慧服務的可持續(xù)發(fā)展具有至關重要的意義。

猜你喜歡
高校圖書館
讀者協(xié)會參與高校圖書館閱讀推廣工作的功能探析
中文電子書館配市場發(fā)展探析
出版廣角(2016年15期)2016-10-18 00:19:57
高校圖書館閱讀推廣案例分析
科技視界(2016年21期)2016-10-17 19:32:37
微信公眾平臺在高校圖書館信息服務中的應用研究
科技視界(2016年21期)2016-10-17 19:25:20
淺談高校圖書館辦公室的重要性
商(2016年27期)2016-10-17 06:39:10
高校圖書館閱讀推廣活動研究
商(2016年27期)2016-10-17 06:38:27
試論高校圖書館在網(wǎng)絡環(huán)境沖擊下的人文建設
商(2016年27期)2016-10-17 06:30:59
淺談高校圖書館隨書光盤的編目與管理作用
當代高校圖書館“大閱讀”服務模式探討
高校圖書館閱讀推廣實踐探討
科技視界(2016年20期)2016-09-29 13:17:57
主站蜘蛛池模板: 亚洲成网站| 亚洲无码视频一区二区三区| 高清大学生毛片一级| 国产偷国产偷在线高清| 又粗又大又爽又紧免费视频| 亚洲日韩精品欧美中文字幕| 91免费在线看| 日韩欧美在线观看| 一级毛片在线免费看| 国产免费怡红院视频| 露脸真实国语乱在线观看| 国产极品美女在线播放| 亚洲欧美精品在线| 在线日韩日本国产亚洲| 久久黄色小视频| 网友自拍视频精品区| 亚洲欧美日韩高清综合678| 国产一区二区色淫影院| 在线观看亚洲精品福利片 | 国产精品2| 久久青草热| 多人乱p欧美在线观看| 中文字幕久久亚洲一区| 精品日韩亚洲欧美高清a| 国产午夜无码片在线观看网站| 91黄色在线观看| 成人午夜视频网站| 扒开粉嫩的小缝隙喷白浆视频| 伊在人亚洲香蕉精品播放| 中国一级毛片免费观看| 欧美乱妇高清无乱码免费| AV老司机AV天堂| 91久久国产热精品免费| 久久99国产乱子伦精品免| 色精品视频| www.av男人.com| 亚洲日本一本dvd高清| 国内精自视频品线一二区| 亚洲欧美成人综合| 国产99精品久久| 无码精品国产VA在线观看DVD| 人妻精品久久久无码区色视| 青青草国产在线视频| 麻豆AV网站免费进入| 欧美劲爆第一页| 国产欧美日韩另类| 久久天天躁夜夜躁狠狠| 日本成人不卡视频| 欧美啪啪网| 四虎影视无码永久免费观看| 精品成人免费自拍视频| 久久毛片基地| 亚洲无码视频一区二区三区 | 99在线视频精品| 丁香婷婷久久| 免费看av在线网站网址| 久久久受www免费人成| 亚洲综合色婷婷| 欧亚日韩Av| 亚洲精品无码高潮喷水A| 久久精品免费国产大片| 亚洲最大综合网| 国产大片喷水在线在线视频| 欧美性猛交xxxx乱大交极品| 潮喷在线无码白浆| 婷婷色中文| 国产第一页屁屁影院| 亚洲成人动漫在线| 亚洲天堂网在线视频| 亚洲第一色网站| 国产精品毛片一区视频播| 欧美一区日韩一区中文字幕页| 中文无码毛片又爽又刺激| 久久夜夜视频| 免费在线播放毛片| 热这里只有精品国产热门精品| 2019国产在线| 无码日韩视频| 婷婷丁香色| 久久特级毛片| 激情亚洲天堂| 欧美精品一区在线看|