999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多義詞例句語料生成的大模型微調指令自動化生成框架

2025-07-08 00:00:00張子龍胡渲郎牛林峰郝瑜鑫王華珍
華僑大學學報(自然科學版) 2025年3期
關鍵詞:指令詞匯模型

Abstract:First,a manual instruction setcontaining a body description set and a list of instruction examples is constructed as the initial input for the instruction pool.Then,input the instructions from the instruction pool into the large model to generate a number of machine-generated instructions corresponding to their corpora,the generated corpora are refined with text correction to obtain the desired polysemy example sentence corpus. Finaly,the edit distance algorithm is used to remove the weight of machine instructions,and the spectral clustering algorithm is used to cluster the candidate machine instructions,thereby achieving automated generation of machine instructions.By updating the instruction pool, iterative generation of the polysemy example sentence corpus is realized. The results show that the constructed polysemy example sentence dataset and its corresponding large model machine instruction set exhibit good linguistic diversity and content diversity. The constructed polysemy example sentence dataset meets the needs of second language learners in terms of sentence length,sentiment,vocabulary difficulty standard level ,and topics. Keywords:large language model; instruction generation; polysemy; example sentence generation; ChatGPT

中文作為一種復雜的語言,具有豐富的多義詞現象,即一個字或一個詞有多個不同的意義。對于漢語二語學習者而言,理解和運用多義詞是一個難點。在詞匯學習和閱讀理解中,學習者需準確理解多義詞在具體語境中的意義,逐步培養推測詞義和理解句意的能力,以避免多義詞可能帶來的歧義和語言交際上的誤解。與此同時,隨著語料庫語言學的興起,語料庫在漢語作為第二語言教學領域中的作用也日益顯現。語料庫可以提供大量真實語言使用的例句和語境,幫助學習者更好地理解多義詞在不同語境中的用法和含義。因此,高質量的多義詞資源建設日益受到關注。然而,目前對于帶有多義詞義項標注的語料庫研究還相對較少,特別是多義詞例句語料庫需要進一步研究,以提供更多高質量的多義詞資源供學習者和教師使用。

近年來,大語言模型(LLM)領域實現了突破性的進展,如GPT- 3[1] 、LLaMa[2]等模型在自然語言任務中表現出卓越的性能。通過適當的微調指令,可以有效地引導這些模型產出預期的響應,進而在低資源領域的零樣本生成任務中實現質量的顯著提升。這一方法為解決多義詞語料不足的問題提供了新的思路。然而,目前許多LLM都嚴重依賴人工指令,并需要經過大量手動調試才能得到一組好的指令數據集。這種人工構建指令數據集的過程既耗時又耗力,并且可能受到人類主觀偏見和誤差的影響。為了克服這些限制,自動化生成指令的框架成為當前研究的熱點。針對這一問題,學者們已提出一些自動化生成指令的方法,但這些方法仍有不足之處。一是自動化生成指令的方法通常是基于模型的反饋進行迭代更新的,但它們往往沒有將領域知識融入迭代邏輯設計中,導致生成的指令缺乏可解釋性;二是這些方法通常使用模型生成結果的質量作為評價標準,而沒有直接對生成的指令進行評估,忽略了指令語義對自動化生成的促進作用。基于此,本文提出一種面向多義詞例句語料生成的大模型微調指令自動化生成框架。

1相關工作

1. 1 多義詞語料研究

一詞多義是世界不同語言在各個歷史時期都普遍存在的現象。多義問題一直都是語言學家關注的問題[3]。其中,較為典型的是基于詞典的多義詞研究,多集中于對詞典義項設置的研究或比較不同時期漢語詞典中多義詞的義項異同。胡長虹[4比較了《國語辭典》和《現代漢語詞典》中1450個常用多義動詞,發現與《國語辭典》相比,《現代漢語詞典》義項的增加是主流,詞義有復雜化趨勢。周娟[5比較了《現代漢語詞典》2002年的增補本和 2005年的第5版,發現多義詞義項發生了義項增加、義項減少、義項分立和義項合并4個方面的變化。陳國華等6分析了《漢語大詞典》義項失序的問題。

此外,將計算機技術、自然語言處理技術、大數據與人工智能引人多義詞語料研究也成為當前研究的熱點。李安[7以《現代漢語分類詞典》義類體系為基礎,通過計算語義相似度,測量多義詞義項的語義距離,并把多義詞義項之間的關系分為跨義類、同義類和近義類3種關系類型。Lopez-Arevalo 等[8]采用 WordNet 獲取歧義詞匯真實語義的方法,實現在特定領域中的詞義消歧。Al-Saiagh 等[9]提出一種模擬退火和粒子群優化混合的啟發式算法,將改進的Lesk方法作為混合粒子群優化算法的目標函數,度量歧義詞匯在不同語義類下的概率。Rahman等[10提出一種基于語義擴展知識進行詞義消歧的方法,并將其應用于文本查詢中。通過對輸入文本進行語義擴展來選擇歧義詞匯的正確含義,從而獲得與輸入文本相關的文本信息。

綜上所述,前沿技術在研究詞義消歧方面取得了顯著進展。然而,對于多義詞語料庫研究,特別是關于多義詞例句語料庫的研究仍然較少。

1. 2 LLM微調指令自動化生成

微調指令是一種明確且規范的指導語句,用于引導模型的行為,以實現特定任務或目標。微調指令提供了一種自然且直觀的方式,使人類可以與大型語言模型進行交互和使用。自動化生成LLM微調指令的研究可以分為以下3個領域。

1)基于模板和規則的微調指令生成。根據任務類型和數據格式設計固定的指令模板,并將任務和數據的具體信息填人模板中,以生成相應的微調指令。例如,Wang 等[1]提出 Super-NaturalInstruc-tions,其中,包含多個自然語言處理任務和數據集的指令,它們使用簡單的指令模板,如“給出一個句子,判斷情感傾向\"或“給出兩個單詞,判斷它們是否同義”,以生成不同任務的指令。這種方法直觀而簡單,但可能缺乏靈活性和創造性,無法涵蓋更復雜和多樣的任務場景。 Xu 等[12]提出 Evol-Instruct 方法,旨在增強大型語言模型遵循復雜指令的能力。

2)基于思考鏈的微調指令生成。利用LLM自身的知識和推理能力,生成一系列相關的問題和答案,形成思考鏈,再將思考鏈作為微調指令來引導語言模型完成目標任務。如Liu等[13]引人邏輯鏈思維的微調指令數據集LogiCoT,有效提高了GPT-4在復雜推理任務上的性能。此外,Zelikman 等[14]提出 STAR 技術,該技術在一個循環中生成一步一步的解釋,以提高LLM在復雜推理任務上的性能。這種方法具有較強的創造性,但難以控制思考鏈的長度和復雜性,并且可能需要大量的計算資源和時間來生成思考鏈。

3)基于迭代學習的微調指令生成。利用LLM自身的反饋信息來不斷優化指令,根據歷史的輸入輸出數據和誤差信息修正和優化控制指令。例如,Wang 等[15]提出了 Self-Instruct,它通過從LLM自身生成大量的指令、輸入和輸出樣本,并對其進行篩選和修正,再使用這些樣本來微調原始的語言模型。此外,Zhou等[16]提出一種自動生成和選擇指令的自動提示框架,展示了LLM在生成指令方面強大的能力。然而,基于迭代學習的方法依賴于模型的自我生成能力和反饋信息,可能在生成過程中面臨指令精確性不高的問題。

1.3 ChatGPT語料生成

近年來,使用ChatGPT生成高質量且多樣化的語料已成為一種新穎而有效的方法。這種方法能夠擴展語料庫的規模,提供更多樣的訓練數據,并涵蓋更廣泛的領域和話題,從而提升自然語言處理模型的性能和適用性。這種技術對于改進文本生成任務、對話系統和語言理解等領域具有重要意義。利用 ChatGPT生成語料,研究人員和開發者可以更好地訓練和優化模型,使其在不同應用場景下表現出更強的語言生成能力和適應性。這種方法的發展將為自然語言處理領域帶來更廣闊的可能性,并推動其在實際應用中的進一步發展。 Xu 等[17提出一種自聊天方法,通過引導ChatGPT從對話數據集中隨機抽取問題或關鍵句子作為核心話題,生成大量數據。

然而,鑒于ChatGPT的通用領域特性,現有的語料生成研究和應用主要集中在通用常識領域。因此,如何使ChatGPT適應特定語料領域的垂直性成為中文語料生成的主要挑戰。迄今為止,尚未見利用ChatGPT生成多義詞例句語料生成的研究。

2面向多義詞例句的大模型微調指令自動化生成框架

面向多義詞例句的大模型(大語言模型)微調指令自動化生成框架包括人工指令集構建、指令生成與語料修正、基于編輯距離相關的機器指令去重、基于譜聚類的機器指令示例采樣4個步驟。面向多義詞例句的大模型微調指令自動化生成框架,如圖1所示。

2.1 人工指令集構建

人工指令集為引導大語言模型生成創新且多樣化的指令提供上下文示例,構建生成多義詞例句語料的人工指令集 。其中, If 為人工指令主體描述集, ,每個組份 對應著不同的指令生成限制描述,限制描述來源于領域垂直性約束知識,如多義詞例句語料的情感、詞性、語法結構、釋義、長度、數量等多維度約束; Iu"為人工指令示例列表,其組合限制描述中的領域垂直性約束知識構建出指令,作為指令范例。以“阿姨”這個詞的指令示例為例,“生成包含‘阿姨'這個詞的7個例句。其中,這個詞在句子中的詞性為名詞,且這個詞的釋義為‘對跟自己母親同輩、年紀也差不多的女性的稱呼。認識的或不認識的都可以用’。生成的例句長度不要超過15個字,帶有負面的情感色彩且定中結構。不要回答除答案以外的其他內容”。

圖1面向多義詞例句的大模型微調指令自動化生成框架圖 Fig.1Framework Diagram for automated generation of fine-tuning instruction for large model in polysemy example sentences corpora creation

人工指令集用于指令池(Istbase)的初始化。指令池是大模型的輸入端,由 If 和動態可變的指令示例列表 (Is 兩部分組成。初始化時,指令池中的指令示例列表 Is 為人工指令示例列表 Iu 。在后續的迭代輪次中,指令池內的指令示例列表將由模型生成的機器指令不斷更新。

2.2 指令生成和語料修正

大語言模型獲取指令池進行生成任務,其生成結果不僅包括多義詞例句語料,還包括機器指令,即輸出是多份的機器指令-生成語料 (im,d)= LLM(Istbase)。其中, im 為LLM生成的機器指令; d 為LLM生成的多義詞例句語料。

為了確保生成的多義詞例句語料符合中文教學要求,使用例句長度控制、語法修正、句子詞匯難度控制3個指標進行修正,以保留有效的語料。

1)例句長度控制。例句長度的控制是為了確保生成的例句語料適用于中文教學場景而進行的重要步驟。設定一個最大長度閾值 gmax ,以確保例句在所需范圍內。如果例句超過了最大閾值 gmax ,會將該機器指令-多義詞例句樣本對舍棄。這是為了確保例句的緊湊性和易讀性,避免過長的例句導致學習者難以理解或吸收。這有助于提高例句的可讀性和可理解性,為學習者提供更好的學習體驗和教學效果。例句長度 (ld) 控制的計算公式為

fldgt;gmax,drop

2)語法修正。語法修正是確保生成的機器指令與例句語料在語法上正確的關鍵步驟。采用 HanLP 的語法分析工具分析和糾正例句語料中存在的語法錯誤,如不完整的句子結構和拼寫錯誤等。通過該工具的應用,能有效識別并修正這些語法問題,確保例句語料在語法上的準確性和合理性。首先,將例句語料輸入HanLP的語法分析器,該工具能夠對句子進行細粒度的分析,包括例句語料的語法錯誤,如不完整的句子、錯別字等。基于這些分析結果,能夠檢測到不符合語法規則的句子,并進行相應的修正。語法修正過程能夠有效地提高例句語料的語法正確性,使生成的機器指令更加準確和可理解。

3)句子詞匯難度控制。句子難度控制是避免生成的例句語料中使用過于復雜或晦澀的詞匯,以減少讀者的認知負擔,提高句子的可讀性和流暢性。首先,將生成的例句語料進行分詞。然后,將分詞后形成的詞匯進行詞匯等級檢測。最后,統計句子中域外詞數量的占比。如果占比超過了最大閾值 ?max ,會將該機器指令-多義詞例句樣本對舍棄。句子詞匯難度控制過程能夠有效地控制例句語料的難度,使生成的機器語料更加符合學習者的閱讀水平。句子詞匯難度的計算公式為

New/ldgt;pmax,drop

式(2)中: New 為句子中域外詞的數量。

通過上述方法對生成的多義詞例句語料進行修正,最終可得修正的多義詞例句語料 dtec ,將其進一步送入修正機器指令-生成語料數據庫。

2.3基于編輯距離算法的機器指令去重

為了增強指令池的示例指令,減少機器指令-生成語料數據庫中修正機器指令的差異性和冗余性,采用基于編輯距離算法進行機器指令的采樣。該算法通過衡量修正機器指令與指令池示例指令之間的編輯距離,將編輯距離最小的修正機器指令作為采樣結果。首先,將修正機器指令-生成語料數據庫和指令池中的指令示例轉化為字符串。然后,利用編輯距離算法計算修正機器指令與指令池指令示例之間的編輯距離,以及修正生成語料與修正機器指令-生成語料數據庫中語料之間的編輯距離,即兩個字符串之間相互轉化所需的最小編輯操作次數。最后,通過加權求和計算,依此篩選合適的機器指令。

2.4基于譜聚類算法的指令示例采樣

為了系統化地降低候選指令集中的冗余性,提高數據處理的效率,采用譜聚類算法對候選機器指令列表中的機器指令進行聚類和采樣。

首先,通過向量化器(Vec)將機器指令示例轉化為特征向量,再進行候選機器指令示例特征向量之間的相似度計算,使用余弦相似度進行計算,從而構建相似度矩陣,即

式(3)、(4)中: :Vim,Vim+1 均為通過平均池化獲取的修正機器指令的向量; s 為候選機器指令示例的相似度矩陣。

然后,針對 s ,基于無向圖來計算候選機器指令示例的度矩陣 (D) ,即

將 s 減去度矩陣,可得拉普拉斯矩陣 (L) ,即

對拉普拉斯矩陣使用指數函數eigen進行特征分解,得到特征向量,并將其作為新的特征表示。

最后,將新的特征向量輸入 K -means聚類算法中進行聚類操作。為了使每個樣本到其所屬簇中心點的距離最小,定義目標函數 J 為

式(7)中: Ci 為第 i 個簇; xj 為 Ci 的某一點; μi 為 Ci 的中心點; K 等于指令池中指令示例列表的大小。

通過最小化目標函數,得到每個簇的中心點。計算 Ci 簇內每個樣本與中心點 μi 的距離,找到離中心點 μi 最近樣本 xrepi ,將其作為 Ci 簇的代表性樣本加入聚類候選機器指令列表 T?m-K ,計算過程為

對 K 個聚類簇分別進行計算,得到聚類候選機器指令列表 T?m-K 。此外,為了逐漸降低人工介入對指令自動生成過程的影響,采用逐步減少人工示例指令的權重的方法,逐漸增加機器指令的影響。具體而言,引入一個衰減率參數(取值范圍為 ),用于調整指令池中示例指令的減弱幅度。通過衰減率參數的計算,確定指令池中需要減弱的指令數量,并隨機移除相應數量的指令。然后,從候選機器指令的聚類列表中隨機選擇與減弱數量相當的指令,并將其添加到指令池中進行更新,更新公式為

Nn=(1-αn)×Nn-1

式(9)中: Nn 為第 n 輪指令池指令示例列表規模; Nn-1 為第 n-1 輪的衰減個數; αn 為第 n 輪的衰減率。

3多義詞例句語料庫構建

為了驗證提出的面向多義詞例句的大模型微調指令自動化生成框架的有效性,將ChatGPT(gpt-3.5-turbo)作為大語言模型。

3.1 實驗設置

3.1.1領域垂直性知識約束的設置在使用面向多義詞例句語料生成的大模型微調指令自動化生成框架生成多義詞例句語料過程中,設置等級標準多義詞詞表、語法結構、例句長度等領域垂直性約束。

針對多功能的外國人學漢語詞典《學漢語詞典》,采用版面分析與正則匹配方法抽取每個多義詞的詞條信息,包括詞、拼音、詞性、義項編號、義項、例句集等詞匯要素,形成結構化的學漢語多義詞詞表,共包含11864個詞條。針對《國際中文教育中文水平等級標準》(以下簡稱《等級標準》) 1~4 級中的每個詞匯,抽取在學漢語詞典數據集的詞性、釋義等信息,形成 1~4 級標準多義詞詞表 GS- poly,即該詞表的每個詞為多義詞,且每個詞都屬于《等級標準》中的范疇,具有 1~4 級標準等級詞匯要素信息。 1~4 等級標準多義詞詞表GS_poly共包含728多義詞,2475條詞條信息。例如,GS_poly 中多義詞[安定]有2個義項,因此,包含2個詞條信息,具體為{[‘安定’,‘形容詞',‘生活、情緒等平靜,沒有不安’」,[安定’,‘動詞’,‘使人的情緒平靜’]}。

3.1.2人工指令集構建在使用基于大型模型微調的自動指令生成框架生成多義詞例句語料時,構建一個包含10個組份的人工指令集合 。人工指令主體描述集,如表1所示。人工指令示例列表,如表2所示。

表1人工指令主體描述集"
表2人工指令示例列表
該人工指令集合包括任務目標定義、面向指令的設計規范及生成多義詞例句的相關參數。任務目標定義使GPT模型能夠生成多義詞例句。設計規范方面包括多義詞的詞性、釋義、長度、數量等,以確

保生成的指令具有多樣性和適應性。此外,設計規范還有助于模型生成符合預期的指令和多義詞例句語料。人工指令示例列表 Iu 由5個不同的指令示例組成,這些示例涵蓋了情感、詞性、語法結構、釋義、長度、數量等多個方面。

3.1.3多義詞例句語料的后處理為了生成符合中文教育場景需求的多義詞例句語料,對生成的多義詞例句語料進行精細數據后處理。在分析生成的原始例句數據集后,觀察到以下3個問題:1)語料格式多樣性,由于ChatGPT的不可控性,生成的語料除文本格式外,還包括了JSON格式的數據;2)回復內容冗余性,由于ChatGPT的交互模式特點,生成的語料可能包含與例句無關的回復;3)例句的重復性,在多次迭代生成多義詞例句語料時,可能出現生成相同例句的情況。為了應對這些問題,首先,刪除非文本格式的噪聲數據;然后,移除與例句無關的回復;最后,篩選出生成語料中的重復例句。通過上述數據后處理工作,最終獲得約24萬條高質量且符合國際中文教育標準的多義詞例句語料。

3.2多義詞例句語料的評估指標

為了評估生成的多義詞例句質量,設置的客觀指標為平均字數、情感指數、《等級標準》詞匯難度四配度、《等級標準》主題匹配度。

平均字數是多義詞例句語料的總字數除于例句語料的句子數量,平均字數 (Nave,w) 的計算公式為

式(10)中: Nt,w 為例句語料的總字數; Ns 為例句語料的句子數量。

情感指數是指帶有正面和負面情感例句語料的數量總和在例句語料的句子數量中的占比。采用百度AI開放平臺的情感傾向分析API對生成的例句語料進行情感檢測,情感指數 (E) 的計算公式為

式(11)中: Ns,pos 為正面情感的例句語料的數量; Ns,neg 為負面情感的例句語料的數量。

《等級標準》詞匯難度匹配度式是指多義詞等級與該多義詞例句語料中詞匯最高等級之間一致的程度。首先,對該例句語料進行分詞,并統計該例句中詞匯的最高等級;然后,判斷例句中詞匯的最高等級是否與該多義詞等級一致;最后,將符合該條件的例句語料數量除以例句語料的數量,可得《等級標準》詞匯難度匹配度 (Md ),其計算公式為

代(12)中: Ns,d 為滿足條件的例句數量(即例句中最高等級與詞匯等級標準一致的例句數量)。

《等級標準》主題匹配度是指多義詞等級與該多義詞例句語料所對應主題等級之間一致的程度。《等級標準》主題匹配度 (Mt )的計算公式為

式(13)中: Nt 為例句語料中多義詞等級與主題等級一致的例句數量。

主題等級表,如表3所示。多義詞語料主題是從百度AI開放平臺中的文章分類API中獲取的,文本通過映射方法將百度主題集(26種)與《等級標準》等級主題集進行對應,從而獲取多義詞例句語料的主題等級。《等級標準》主題匹配度指標用于考察多義詞等級與多義詞語料的主題等級的一致性。

表3主題等級表Tab.3Theme level table

3.3多義詞例句語料結果與分析

針對最終獲得的約24萬條多義詞數據集進行分析。將該多義詞例句數據集與《學漢語詞典》等級多義詞例句數據集的差異進行展示。《學漢語詞典》等級多義詞例句數據集是由學漢語多義詞詞表中匹配標準等級 1~4 級得到,包含728個 1~4 級多義詞,2475條詞條信息,形成6299個多義詞例句。3.3.1多義詞例句的主觀指標評價引人人工評估,其評估結果具有主觀性,設計的主觀指標包括表達流暢度和傾向性。表達流暢度指例句的流暢性、易理解性和語言表達的地道程度;傾向性指例句是否遵循通常的中文常識和實際教學場景的規范。

從該多義詞例句數據集中隨機選擇200個例句樣本,并請3位中文教育領域專家進行評估。每個例句樣本由3位專家獨立評估,評分范圍為 1~5(1 表示較差,5表示優秀)。最后,將3位專家的評分取平均值作為最終的評估結果。

例句語料流暢度和傾向性的評估結果分別為4.9、4.7。通過面向多義詞例句的大模型微調指令自動化生成框架生成的多義詞例句語料在各個評估指標上都表現良好,這說明生成的例句語料能夠符合中文教育需求,同時也能滿足不同教育自然語言處理任務的數據需求。

3.3.2多義詞例句的客觀指標評價通過客觀指標比較不同數據集之間的差異,結果如表4所示。

續表 Continue table表4多義詞例句數據集的相關指標Tab.4 Related indicators of polysemy example sentence dataset

由表4可知:大模型生成等級多義詞例句數據集的《等級標準》詞匯覆蓋度、例句長度、《等級標準》詞匯難度匹配度符合國際中文教學要求;與其他例句數據集相比,大模型生成等級多義詞例句語料具有更高的《等級標準》主題匹配度,說明利用大模型能實現低資源領域語料的構建。

4結論

構建人工指令集作為指令池的初始化輸人,并利用大語言模型生成多條機器指令及其對應的語料。通過文本修正和長度修正以及句子詞匯難度控制,獲取更符合要求的多義詞語料。采用編輯距離算法和譜聚類算法進行機器指令采樣和聚類,實現機器指令的自動化生成。通過使用ChatGPT(gpt-3.5-turbo)模型,成功地生成了約12200條機器指令和24萬條多義詞例句文本。指令集涵蓋了涉及多義詞例句的不同任務。生成的多義詞例句數據集具有較好的語言多樣性和內容多樣性。通過客觀指標和專家主觀評價,驗證了生成的多義詞語料的質量和契合度,表明其能滿足中文學習者的學習需求。因此,利用大模型進行低資源領域語料構建具有可行性。

參考文獻:

l]BROWN T,MANN B,RYDER N,etal.Language models are few-shot learners[J].Advances in Neural Informatior Processing Systems,2020,33:1877-1901.

[2] TOUVRON H,LAVRIL T,IZACARD G,et al. Llama: Open and effcient foundation language models[EB/OL]. (2023-02-27)[2024-12-24]. https: //arxiv. org/abs/2302.13971.

[3] 趙顏利,董博,雷燕.我國語義標注領域研究現狀分析[J].福建師范大學學報(自然科學版),2020,36(4):17-24,36. DOI:10.12046/j. issn.1000-5277.2020. 04.003.

[4] 胡長虹.《國語辭典》和《現代漢語詞典》常用多義動詞義項處理對比研究[D].煙臺:魯東大學,2013.

[5] 周娟.《現代漢語詞典》新舊版本多義詞義項變化計量研究[D].南寧:廣西大學,2011.DOI:10.7666/d.y1952844.

[6] 陳國華,李申.《漢語大詞典》義項失序問題研究[J].辭書研究,2015(1):10-18.DOI:10.3969/j.issn.1000-6125. 2015.01.002.

[7] 李安.多義詞義項的語義關系及其對詞義消歧的影響[J].語言文字應用,2014(1):29-37.

[8] LOPEZ-AREVALO 1,SOSA-SOSA V J,ROJAS-LOPEZ F,et al. Improving selection of synsets from WordNet for domain-specific word sense disambiguation[J].Computer Speech amp; Language,2017,41:128-145.DOI:10.1016/j. csl. 2016.06.003.

[9]AL-SAIAGH W,TIUN S,AL-SAFFAR A,et al. Word sense disambiguation using hybrid swarm intellgence approach[J].PloS One,2018,13(12) :e0208695.DOI:10.1371/journal. pone.0208695.

[10]RAHMAN N,BHOGESWAR B.Improvement of query-based text summarization using word sense disambiguation [J].Complex amp; Intelligent Systems,2020,6:75-85.DOI:10.1007/s40747-019-0115-2.

[11]WANG Yizhong,MISHRA S,ALIPOORMOLABASHI P,et al.Super-NaturalInstructions: Generalization via declarative instructions on 1600+ NLP tasks[EB/OL].(2022-04-16)[2024-12-24]. https:// arxiv.org/abs/2204. 07705.

[12]XU Can,SUN Qingfeng,ZHENG Kai,et al. Wizardlm: Empowering large language models to folow complex instructions[EB/OL]. (2023-04-24)[2024-12-24]. https: //arxiv.org/abs/2304.12244.

[13]LIU Hanmeng,TENG Zhiyang,CUI Leyang,et al.Logicot:Logicalchain-of-thought instruction-tuning data collection with GPT-4[EB/OL].(2023-10-28)[2024-12-24]. https://arxiv.org/abs/2305.12147.

[14]ZELIKMAN E,WU Yuhuai,MUJ,et al.Star: Bootstrapping reasoning with reasoning[J]. Advances in Neural Information Processing Systems,2022,35:15476-15488.

[15] WANG Yizhong,KORDI Y,MISHRA S,et al.Self-instruct: Aligning language models with self-generated instructions[EB/OL]. (2022-12-21)[2024-12-24].https:// arxiv.0rg/abs/2212.10560.

[16]ZHOU Yongchao,MURESANU A I,HAN Ziwen,et al.Large language models are human-level prompt engineers [EB/OL].(2022-11-03)[2024-12-24].https://arxiv.org/abs/2211.01910.

[17]XU Canwen,GUO Daya,DUAN Nan,et al.Baize: An open-source chat model with parameter-eficient tuning on self-chat data[EB/OL]. (2023-04-03)[2024-12-24]. https://arxiv.org/abs/2304. 01196.

(責任編輯:錢筠 英文審校:陳婧)

猜你喜歡
指令詞匯模型
一半模型
聽我指令:大催眠術
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
本刊可直接用縮寫的常用詞匯
ARINC661顯控指令快速驗證方法
測控技術(2018年5期)2018-12-09 09:04:26
LED照明產品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎永久免费在线| 99成人在线观看| 欧美亚洲激情| 国内精自视频品线一二区| 亚洲狼网站狼狼鲁亚洲下载| 无码福利日韩神码福利片| 青青久久91| 国产精品第页| 亚洲IV视频免费在线光看| 日本91视频| 99久久精品国产自免费| 国产成人毛片| 亚洲精品另类| 广东一级毛片| 无遮挡国产高潮视频免费观看 | 欧美不卡视频一区发布| 久久精品亚洲中文字幕乱码| 国产永久无码观看在线| 一级爆乳无码av| 国产综合另类小说色区色噜噜 | 国产人免费人成免费视频| 影音先锋亚洲无码| 妇女自拍偷自拍亚洲精品| 亚洲欧美另类视频| 爱色欧美亚洲综合图区| 97人妻精品专区久久久久| 女同国产精品一区二区| 男人的天堂久久精品激情| 日韩中文字幕免费在线观看| 久久香蕉国产线看观看式| 国产色婷婷视频在线观看| 国产欧美在线观看一区| 国产成人精品在线| 国产美女精品一区二区| 亚洲天堂精品在线| 国产亚洲视频中文字幕视频| 亚亚洲乱码一二三四区| 精品人妻无码中字系列| 成年看免费观看视频拍拍| 最新亚洲av女人的天堂| 欧美色视频日本| 国产精品久久久久鬼色| 夜夜高潮夜夜爽国产伦精品| 伊在人亞洲香蕉精品區| 日本免费高清一区| 91精品综合| 欧美国产菊爆免费观看| 亚洲大尺码专区影院| 久久综合丝袜日本网| 中国毛片网| 欧美午夜在线视频| 制服无码网站| 久久亚洲国产最新网站| 激情综合五月网| 性视频久久| 免费看黄片一区二区三区| 在线国产91| 亚洲精品欧美日韩在线| 91麻豆精品国产高清在线| 亚洲AV无码久久精品色欲| 蜜臀AV在线播放| 日a本亚洲中文在线观看| 国产成人免费手机在线观看视频| 日韩成人在线视频| 一区二区午夜| 亚洲全网成人资源在线观看| 亚洲首页国产精品丝袜| 性欧美久久| 国产一区免费在线观看| 四虎永久免费在线| 欧美成人h精品网站| 亚洲高清日韩heyzo| 国产精品偷伦在线观看| 精品国产免费第一区二区三区日韩| 国产拍在线| 成人午夜久久| 欧美综合区自拍亚洲综合绿色 | 免费看美女自慰的网站| 欧美a在线视频| 成人午夜福利视频| 欧美性天天| 毛片免费在线视频|