999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向電信領域的大模型提示詞工程測評

2025-08-18 00:00:00范文斌王顏顏汪盈盈許銀宋騏
現代信息科技 2025年12期
關鍵詞:客服語氣示例

中圖分類號:TP182 文獻標識碼:A 文章編號:2096-4706(2025)12-0123-06

Prompt Engineering Evaluation of Large Language Model for the TelecommunicationsDomain

FAN Wenbin1, WANG Yanyan1, WANG Yingying1, XU Yin1, SONG Qi2 (1.KnowledgeComputing InteligenceLaboratory,GuoChuang CloudTechnologyCo.,Ltd.,Hefei3oo88,China; 2.SchoolofComputerScienceandTechnologyUniversityofScienceandTechnologyofChina,Hefei23o027,China)

Abstract: A prompt evaluation system of Large Language Model (LLM) forthe telecommunications domain is proposed toadresste isuesofincomplete evaluationofpromptparameters inpromptengineeringresearchand thelackofconsideration forthecomplexityinrealproductionsenariosofevaluationmethod.Tothisend,fivedatasets inthe telecommunications domainareconstructed,coveringthree majortasksofsntimenttextclasification,customersrvice intentrecogniionnd knowledge-basedquestionanswering.Subsequentlypromptparametersarecategorized intofourdimensionsofole,lngth, tone,andorder,andthe impactofthesediferentdimensionsontheperformanceofsixLLMsissystematicallyevaluated.The researchresults indicatethata well-esigned promptcansignificantlyimprovemodel performanceonthethreemajortasks inthe telecommunications domain.

Keywords: Large Language Model; prompt enginering; model performance optimization; telecommunication domain; Jatural Language Processing

0 引言

近年來,人工智能技術迅猛發展,其中大語言模型(LargeLanguageLodels,LLMs)作為自然語言處理領域的核心技術,受到了廣泛關注。大語言模型如GPT-4等,依靠龐大的訓練數據和復雜的神經網絡結構,能夠生成高度流暢且富有邏輯性的自然語言文本。這些模型在自動寫作、翻譯、對話系統、文本摘要等各種應用場景中展現出強大的性能[1-2]。

在電信行業,智能化服務的需求日益增長,尤其是在客服自動化、故障診斷、用戶意圖識別等領域。例如,在客服自動化中,大語言模型通過理解用戶的查詢并生成準確的回答,有助于提升服務效率和用戶滿意度。然而,模型在處理行業特有術語或復雜的用戶查詢時往往面臨挑戰,如語境理解不足和響應不精確的問題。故障診斷場景中,模型需要準確解析技術性語言,提供針對性的解決方案,這對提示詞的設計提出了更高要求。用戶意圖識別則要求模型能夠在多樣化的交互中準確捕捉用戶的需求,以實現更為個性化的服務。

提示詞工程(PromptEngineering)是通過設計和調整輸入提示,優化大語言模型生成輸出的過程。提示詞的質量和設計直接影響大語言模型的性能和輸出質量[3-5]。隨著大語言模型在實際應用中的廣泛使用,如何高效地設計和調整提示詞以獲得最佳輸出,成為研究人員和從業者關注的熱點[。關于提示詞測評的研究,已有一些工作探討了不同提示詞對模型表現的影響。例如,Schick等[]將輸入示例重新表述為完形填空風格的短語,以幫助語言模型理解給定的任務。

Gao等[采用自動選擇標簽詞和自動生成模板設計提示詞,動選擇標簽詞通過在預訓練語言模型的詞匯表中搜索最合適的詞來構建標簽詞映射;自動生成模板則使用T5模型自動生成多樣化的模板,以適應不同的任務需求。Li等提出了一種前綴微調的方法,通過凍結預訓練語言模型的參數,僅優化一個小的、任務特定的連續向量(稱為前綴),從而顯著降低提示詞的成本效益。Sheng等[]設計包含不同人口統計群體的提示詞模板,通過標注分數和構建自動分類器,更準確地檢測和減輕語言生成模型中的偏見。這些研究為理解和優化提示詞的設計提供了重要見解。

盡管目前的研究確實促進了提示詞工程領域的發展,但其關注點大多在于優化特定類型的提示詞,缺乏不同參數的全面評估。此外,現有的評估方法未充分考慮實際應用場景復雜性和多樣性。因此,提出面向電信領域的大模型提示詞測評體系,將提示詞參數細分為四個維度:角色、篇幅、語氣和順序,并定義了電信領域常見的三種應用場景:情感文本分類、客服意圖識別以及知識問答,基于以上場景構建了5大數據集,共計2291條數據,其中包括2個開源數據集和3個私域數據集。主要測評的大語言模型包括:通義千問、GLM、Gamma、百川、Internlm共6個大模型。最后,評估了各種LLMs在各個數據集上的表現,通過對不同提示詞參數的細致調整,發現模型的性能在多個任務上有顯著的提升。

1提示詞測評基準

1.1 整體框架

電信領域的提示詞測評基準如圖1所示。由圖1可知,整個測評體系分為零樣本(zero-shot)和少樣本(few-shot)兩個層次,并將提示詞測評任務從簡單到困難分為3個子任務:情感文本分類,客服意圖識別以及知識問答。

在提示詞的構建中,采取基于策略的設計方法。首先,通過深入分析電信領域案例與用戶查詢,提煉出提示詞模板。隨后,利用大語言模型從真實查詢數據中自動抽取關鍵信息,生成具體化的提示詞。為確保提示詞的有效性和廣泛適用性,將角色、篇幅、語氣和順序作為關鍵考量因素。選取這四個關鍵因素的原因如下:

1)角色的確定性。提示詞中的角色決定了生成文本的視角和信息交流方式。例如,在電信客服領域,客服坐席人員與電信客戶的對話將更加側重于解決技術問題和更專業的提供客戶服務支持。Brown 等[1]討論了模型如何通過理解不同角色之間的對話來提高語言理解能力。Holtzman等[]也探索了在對話生成中角色選擇對模型生成結果的影響。

2)篇幅的影響。提示詞的篇幅直接影響模型理解和生成的復雜性。較長的提示詞通常提供更多的上下文和信息,有助于生成更豐富和詳細的回復。Brown等[研究了不同長度提示詞對模型生成文本流暢性和準確性的影響。Holtzman等[11]也探討了過長或過短的提示詞如何影響生成文本的一致性和信息準確性。對于電信行業的應用,信息的詳細程度直接影響解決問題的能力。較長的提示詞可能提供更多上下文,有助于模型更好地理解和回答復雜的查詢,盡管它也可能引入噪聲。為了評估長度變化對性能的影響,將特別關注提示詞中正向信息的質量。

3)語氣的調整。提示詞的語氣可以是正式的、友好的、強硬的,等等。不同的語氣會影響模型生成的風格和表達方式。Hu等[12]也討論了如何通過設計不同語氣的提示詞來影響生成文本的情感表達和信息傳遞效果。

4)順序的不同。在few-shot的情況下,在輸入提示詞時會給予大模型一些示例,示例與任務的順序也是會對LLMs的回答具有一定的影響性。如Radford等[13]提出,調整示例的順序可以改變模型對于特定任務的處理方式,有時能夠提高任務的解決效率和準確性。這表明,通過精心設計輸入示例的順序,可以優化模型的輸出結果。

1. 2 數據集構建

基于特定電信領域,構建了5個主要的數據集,涵蓋了共計2291個文本,包括情感分類、意圖識別以及知識問答,這些任務代表了電信領域中大模型的三種典型應用場景:

1)情感文本分類。電信行業中處理大量的客戶反饋和評論,情感分析能夠幫助公司理解客戶的滿意度和情感傾向,從而優化服務和產品。

2)客服意圖識別。這是電信行業自動化客服系統中的核心任務,能夠幫助系統準確理解用戶的具體需求,從而提供針對性的解答和服務。

3)知識問答。在提供客戶支持時,快速準確地回答技術和服務相關問題對于提升客戶滿意度至關重要,這要求模型能夠快速準確抽取和利用知識庫中的信息。

數據集的開源數據包括GLUE-SST2、CSDS-IR,分別有872條情感文本和1000條客服文本,私域數據集包括CTIR,CTT和IAKQA,其中IAKQA為客服場景知識問答數據集,包含54條問答任務,其余為客服意圖識別數據包含365條客服場景文本,具體數據集信息如表1所示。其中私域數據集來自電信領域,根據真實業務場景,由業務人員整理的客服意圖識別和知識問答數據。這些數據集的收集和整理,旨在為提示詞設計在電信領域的研究與應用提供更加真實的實驗場景。

表1數據集介紹

1.3評估大模型選取

實驗主要對國內知名且規模相近的開源LLMs展開評估,涵蓋Qwen、Baichuan和ChatGLM等??紤]到實驗的可行性,選取了參數量基本相當的特定模型版本,具體的模型信息如表2所示。

表2測評大模型選取

2提示詞測評基準

在大語言模型的提示詞工程中,評估不同提示詞的效果至關重要。本節將通過確定主要評價指標,并討論這些指標的含義及具體測評方法,構建完整的評估體系,并對測評結果進行分析。

2. 1 實驗設置

2.1.1 環境設置

實驗環境基于兩塊GPUA100( 40GB 內存)搭建而成。在實驗過程中,為確保結果具有一般性,對每個數據集均進行三次重復測試。對于few-shot設置,從每個任務的驗證集中隨機抽取5個樣本作為上下文示例。

2.1.2 評價指標

在評估提示詞的測評結果時,主要考慮評估時間(time)以及以下幾個關鍵指標:

1)準確性(Accuracy)。指模型在特定任務中生成響應的正確率。

2)F1分數。一種統計度量,用于評估二元分類模型的準確性,特別適用于類別不平衡的情況。它是精確率和召回率的調和平均值,二者為評估分類模型的重要指標。

3)Rouge-L (Recall-oriented Understudy forGisting Evaluation -Longest Common Subsequence)。用于評估自然語言生成或機器翻譯的質量,特別在摘要和文本生成任務中應用。它通過計算生成文本和參考文本之間的最長公共子序列(LCS)來衡量相似度。本文使用該指標評估知識問答任務的表現。

4)平均值(Average)。用于將各個任務上測評指標結果取均值。

2.2 實驗結果

2.2.1 zero-shot實驗結果分析

在zero-shot的層次下,由于提示詞中不涉及示例,因此僅評估角色、篇幅和語氣這三個維度對多個LLMs在不同提示詞下任務表現。zero-shot實驗結果如表3所示,整體來看,角色、篇幅和語氣對大部分模型都有一定的性能提升作用。具體而言,在提示詞中增加角色對于ChatGLM3-6B、Qwen1.5-7B-Chat、Qwenl.5-14B-Chat模型有一定的促進作用,最高提升 2% ;增加篇幅對于ChatGLM3-6B、Qwen1.5-14B-Chat、Yi-6B-Chat模型的性能也有所提高,準確率最高提升 2% ;施加語氣對Qwenl.5-14B-Chat、Internlm-7B-Chat、Baichuan2-7B-Chat、Yi-6B-Chat模型的性能均有提升,最高準確率提升 3% ??傮w而言,盡管不同提示詞對不同模型的適配性有所差異,但大模型(如Qwen1.5-14B-Chat)通常能從不同提示詞中獲得性能提升。表明模型能力越強,越能有效理解提示詞,從而更好地提升任務表現。

表3zero-shot實驗結果

2.2.2few-shot實驗結果分析

在few-shot的層次下,由于數據集IAKQA沒有示例的情況,因此實驗只涉及電信領域的客服意圖識別和情感文本分類。在加入示例后,將分析示例和任務提示的順序對模型表現的影響。在其他維度中,均默認為示例 + 任務的形式,順序維度為任務 + 示例。few-shot實驗結果如表4所示。

表4few-shot實驗結果

(續表)

由于示例的加入導致較長的提示輸入,由表4可知,在較長的提示詞下,角色、篇幅和語氣對大模型的性能提升更為顯著。例如,Qwen1.5-7B-Chat和Baichuan2-7B-Chat的提升均超過 10% 。這可能是由于模型的參數量較小,在加入角色語氣等因素后引入了額外的上下文信息,使得模型對于提示詞的響應更好,能夠注意到長提示中的關鍵信息,從而使其完成任務更加出色,更好地理解交互的具體背景。除此之外這些因素對于其他模型也有提升,更能說明其有效性。針對ChatGLM3-6B、Yi-6B-Chat這兩個模型,順序維度的綜合指標都有所降低,分析其原因可能是由于模型性能并不突出,過多的示例加入使得模型學習示例產生了過擬合的情況。

2.3 實驗結果討論

上述實驗結果展示了提示詞工程設計在LLMs在中的應用,特別是關于提示詞設計參數如角色、篇幅、語氣和順序對模型性能的影響。通過對不同提示詞參數的細致調整,發現模型的性能在多個任務上有顯著的提升,這一點在電信領域情感文本分類、客服意圖識別和知識問答任務中得到了驗證。此外,實驗數據表明,優化后的提示詞能夠有效減輕模型的偏見,提升輸出的準確性和相關性。實驗結果顯示,一些簡單任務的提示上篇幅和語氣的加入通常能提高模型的準確率,當具有較長的示例及指令時,對于提示詞的關鍵任務可以引入語氣或增加其長度使得模型能夠更好地讀取和理解指令,從而提升模型性能。

本實驗設計仍存在一些限制。首先,實驗主要依賴于預定義的幾種提示詞修改策略,難以涵蓋所有能影響模型性能的潛在提示詞特性。其次,數據集的選擇也可能影響了實驗的普遍性,因為不同領域據集可能對提示詞的敏感性有不同的反應。特別對于一些的簡單的任務,即使在提示詞中引入一些可以提升其性能的因素,但這僅局限于提示工程上,對于模型的性能提升十分有限,從上述實驗結果中可以看出,一般有提升僅有 1%~3% 左右。鑒于上述結果和限制,未來的研究可以在以下幾個方向進行擴展:首先,探索更多維度的提示詞設計,如情感色彩、復雜性和具體任務相關性。其次,可以在更多樣化的數據集上進行實驗,以驗證優化的提示詞是否在不同類型的語言任務中同樣有效。此外,自動化提示詞生成技術的開發將是一個重要的研究方向,這有助于降低人工設計提示詞的工作量,并可能提高模型的適應性和靈活性。

3結論

在本文中,深入探討了LLMs及其在提示詞工程中的應用,揭示了一系列重要的發現和發展趨勢。研究結果表明,通過加入語氣或角色的提示詞,可以顯著提升模型在多種任務,如情感文本分類、電信運營商意圖識別和知識問答等方面的表現。這種優化不僅提高了模型的響應質量,而且在一定程度上減輕了模型偏見,提升了輸出的準確性和相關性。與完整的模型重訓練相比,提示詞優化展示了更低的資源消耗和更快的實施效率,為資源有限的應用場景提供了實際可行的解決方案。此外,這種方法的廣泛適用性使其能夠有效服務于電信客服,醫療和客戶服務等多個領域,顯示出其應用潛力。

下一步,提示詞工程的發展將深入挖掘模型對復雜語境和隱含意圖的理解能力,進一步提高模型在復雜交互場景中的表現;發展自動化生成高效提示詞的技術,以減少人工干預,提高系統的可擴展性和靈活性;如加入知識圖譜,思維鏈等,以適應多樣化的交互需求。通過這些研究,提示詞工程不僅能夠提升模型的輸出質量,還有望推動智能系統在更廣泛領域的實用化。

參考文獻:

[1]BROWNT,MANNB,RYDERN,etal.Language

Models Are Few-Shot Learners [J].Advances in Neural

Information Processing Systems,2020,33:1877-1901.

[2] RADFORD A,WU J,CHILD R,et al. Language

ModelsAreUnsupervised MultitaskLearners[EB/OL].[2024-

09-16].https://cdn.openai.com/better-language-models/language_

models_are_unsupervised_multitask_learners.pdf9.

[3] LIUP,YUANW,FUJ,et al.Pre-Train,Prompt,

andPredict:A Systematic Survey ofPromptingMethodsin

Natural Language Processing[J].ACM Computing Surveys,

2023,55(9):1-35.

[4]許志偉,李海龍,李博,等.AIGC大模型測評綜述:

使能技術、安全隱患和應對[J].計算機科學與探索,2024,18(9):2293-2325.

[5]李毅,李浩,許驍哲,等.CFB:金融領域大模型評

估方法[J].計算機科學與探索,2024,18(12):3272-3287.

[6]孫柏林.大模型評述[J].計算機仿真,2024,41(1):

1-7+24.

[7] SCHICK T,SCHUTZE H. Exploiting Cloze-Questions

forFew-Shot Text Classification and Natural Language Inference

[J/OL].arXiv:2001.07676[cs.CL]. (2020-01-21) [2024-09-16].

https://arxiv.org/abs/2001.07676.

[8]GAOT,FISCHA,CHEND.MakingPre-trained

Language Models Better Few-Shot Learners [C]//Proceedings of

the59th Annual Meetingof the Association for ComputationalLinguisticsand the 1lth International Joint Conference onNaturalLanguage Processing(Volume 1:Long Papers).ACL,2021:3816-3830.

[9]LIXL,LIANG P.Prefix-Tuning:Optimizing ContinuousPrompts for Generation [C]//Proceedings of the 59th AnnualMeeting oftheAssociation for ComputationalLinguisticsandthe 1lth International Joint Conference on Natural LanguageProcessing (Volume 1:Long Papers).ACL,2021:4582-4597.[10] SHENGE,CHANGKW,NATARAJANP,etal. The Woman Worked as a Babysitter:On Biases in LanguageGeneration [C]//Proceedings of the 2019 Conference on EmpiricalMethods in Natural Language Processing and the 9th InternationalJoint Conference on Natural Language Processing (EMNLP-IJCNLP).Hong Kong:ACL,2019: 3407-3412.

[11]HOLTZMANA,BUYSJ,DUL,etal.TheCurious Case of Neural Text Degeneration [C]//InternationalConference on Learning Representations.New Orleans:ICAL,2019:1-16.

[12] HU Z,YANG Z,LIANG X,et al. Toward ControlledGeneration of Text[C]//International Conference on MachineLearning.Sydney:PMLR,2017:1587-1596.

[13] RADFORD A,WU J,CHILDR, et al. LanguageModels Are Unsupervised Multitask Learners[EB/OL].[2024-09-16].https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

作者簡介:范文斌(1990—),男,漢族,安徽黃山人,實驗室執行主任,本科,研究方向:大模型應用技術、智能軟件;通信作者:王顏顏(1992—),女,漢族,安徽淮南人,中級職稱,博士,研究方向:知識計算、自然語言處理、大模型;汪盈盈(1999—),女,漢族,安徽安慶人,碩士在讀,研究方向:自然語言處理、大模型;許銀(1998一),女,漢族,安徽合肥人,碩士,研究方向:知識圖譜、自然語言處理;宋騏(1990一),男,漢族,安徽合肥人,中國科學院技術大學特任教授,博士,研究方向:圖數據庫及圖數據挖掘。

猜你喜歡
客服語氣示例
僅查額度就“被貸款”,還不讓提前還?
從防御到對話:ABC危機事件應對策略的演變
國際公關(2025年12期)2025-08-26 00:00:00
“閱讀·訓練”答案
法布爾的媽媽
基于大語言模型的汽車故障記錄自動標注方法研究
你你你,語氣能不能好一點?
淺談直線與圓教學中學生易走入的“雷區”
山西汾陽方言中的“兀底
今古文創(2025年25期)2025-07-29 00:00:00
羨余否定構式“還不得X”的多角度分析
今古文創(2025年23期)2025-07-29 00:00:00
愛TA,就把TA做成無邊抱枕
主站蜘蛛池模板: 中文字幕亚洲专区第19页| jijzzizz老师出水喷水喷出| 自拍欧美亚洲| 国产无码精品在线播放| 国产系列在线| 97久久免费视频| 99免费视频观看| 国产精品自拍露脸视频| 亚洲天堂视频在线观看| 亚洲女同欧美在线| 熟女视频91| 天堂av高清一区二区三区| 波多野结衣亚洲一区| 在线看片免费人成视久网下载| 精品国产成人国产在线| 91极品美女高潮叫床在线观看| 欧美日本一区二区三区免费| 精品国产三级在线观看| 国产第一页免费浮力影院| 国产在线一区二区视频| 亚洲精品无码成人片在线观看| 成人在线不卡| 国产一区二区网站| 波多野结衣爽到高潮漏水大喷| 成人午夜久久| 黄色片中文字幕| 久久久久久午夜精品| 中文无码精品A∨在线观看不卡| 国产无码在线调教| 日韩性网站| 噜噜噜久久| 久久精品无码专区免费| 国产精品网曝门免费视频| 伦精品一区二区三区视频| 欧美激情首页| 国产精品成| 伊人久久精品无码麻豆精品| 亚洲AV无码久久精品色欲| 亚洲人精品亚洲人成在线| 综合成人国产| 福利在线一区| 久热精品免费| 亚洲黄网视频| 黄色网站在线观看无码| 欧美人人干| 久久人与动人物A级毛片| 无码日韩精品91超碰| 久久一本精品久久久ー99| 亚洲欧美激情小说另类| 久久亚洲国产视频| 就去色综合| 免费毛片网站在线观看| 国产精品亚洲精品爽爽| 亚洲伊人天堂| 大学生久久香蕉国产线观看 | 国产成人免费视频精品一区二区| 啦啦啦网站在线观看a毛片| 久久久久国产一级毛片高清板| 久久永久视频| 在线看片国产| 亚洲美女一级毛片| 精品久久久久久中文字幕女| 国产在线精品99一区不卡| 国产凹凸一区在线观看视频| 制服丝袜亚洲| 思思99热精品在线| 国产jizzjizz视频| 亚洲人在线| 国产Av无码精品色午夜| 国产亚洲美日韩AV中文字幕无码成人| a级毛片免费播放| 激情五月婷婷综合网| 精品人妻系列无码专区久久| 国产精品 欧美激情 在线播放| 91精品人妻一区二区| 国产精品黑色丝袜的老师| 亚洲精品无码人妻无码| 99精品国产自在现线观看| 日韩av在线直播| yy6080理论大片一级久久| 国产在线拍偷自揄观看视频网站| 一本大道香蕉中文日本不卡高清二区 |