999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型和知識圖譜的數字孿生流域知識平臺設計

2024-01-08 08:17:14李樹元
海河水利 2023年12期
關鍵詞:引擎水利語言

李 巍,李樹元

(1.水利部海河水利委員會,天津 300170;2.天津市龍網科技發展有限公司,天津 300170)

1 背景與意義

近年來,隨著ChatGPT 在人工智能領域率先取得突破性的進展,基于大規模文本訓練的生成式預訓練(Generative Pre-Trained,GPT)模型在文本生成任務上表現出了強大的泛化能力,大語言模型(Large Language Model,LLM)已經成為人工智能領域的研究熱點。目前,大語言模型已在文本生成、文本理解等多個領域取得了顯著成就,在語音識別、圖像描述生成等跨模態任務中也展現出強大的潛力,已在情感分析、問答系統、文本分類、智能客服、機器翻譯等方面得到了廣泛應用。GPT模型在專業領域也取得了進展,醫療、金融、電力等行業相繼研發了領域大語言模型[1-3],但在水利行業尚未見比較成熟的應用案例。

數字孿生流域作為智慧水利發展的重要方向,近年來備受關注。建設數字孿生流域是提升國家水安全保障能力的重要支撐,水利部明確了提升流域設施數字化、網絡化、智能化水平的目標,提出加快建設數字孿生流域,構建智慧水利體系,推動新階段水利高質量發展[4-6]。水利部發布了數字孿生流域技術導則,部署了一系列先行先試項目。數字孿生永定河系統是水利部部署的先行先試任務之一,是數字孿生海河的重要組成部分,系統建設內容包括感知體系、數據底板、模型平臺、知識平臺、水利業務應用等。知識平臺作為數字孿生流域的重要組成部分,在推進數字孿生流域建設中發揮著關鍵作用。

知識平臺的通用構建技術路線是基于知識圖譜,通過梳理水利業務對象及其相互關系,搭建知識圖譜庫,并用于具體的水利業務應用。如何將新一代人工智能技術應用于水利行業,基于大語言模型搭建水利知識平臺,在數字孿生流域建設中發揮支撐作用,是一個比較前沿的研究方向。本文以數字孿生永定河系統為基礎,基于海量的業務數據、圖書文獻、期刊論文和行業資料,構建數字孿生永定河知識庫。以知識庫為基礎,訓練大語言模型,創建水利對象、預報方案、調度預案、歷史場景等知識圖譜。基于大語言模型、知識圖譜和向量數據庫,實現知識檢索和智能問答,以及水利對象信息智能檢索、歷史場景復演、防洪預案和生態調度方案智能匹配等水利業務智能應用。

2 系統設計

2.1 總體架構

數字孿生永定河系統知識平臺基于數字孿生流域總體技術架構,匯聚關系型數據庫、方案預案、標準規范、科研文獻、圖書檔案、項目資料等結構化、半結構化和非結構化數據,通過知識抽取、知識融合、文本分割、知識向量化、知識存儲等環節,構建知識庫;基于語料庫訓練大語言模型,構建規則引擎和知識圖譜計算引擎,共同組成知識引擎;在知識庫和知識引擎基礎上,開發知識應用程序,包括文檔搜索、智能問答、圖譜檢索、知識統計等基礎知識應用,以及水利對象關聯、業務規則匹配、歷史場景復演、實時調度方案編制等專題知識應用。知識平臺總體架構,如圖1所示。

圖1 知識平臺架構

2.2 知識庫建設

知識庫是數字孿生永定河流域知識平臺的核心組成部分。知識庫存儲了關于流域的各類信息和知識,包括但不限于流域的自然地理、水文氣象、水資源開發利用、預報調度預案方案等信息。知識庫不僅可以提供知識檢索,同時可為大語言模型和知識圖譜提供豐富的語料庫和實體關系提取素材,為知識應用提供全面和準確的知識支撐。

知識庫的構建步驟包括數據收集、篩選、整合與分割、結構化數據格式轉換、數據清洗和標準化等預處理、文本預處理、數據標注、知識抽取、知識建模、知識融合、知識向量化與存儲、知識質量評估、知識驗證與完善、知識更新與維護等。通過知識抽取和格式轉換,構建基礎知識庫和主題知識庫,基礎知識庫由文檔庫、語料庫、向量數據庫和知識圖譜庫組成;在此基礎上,根據業務場景可構建主題知識庫,包括水利對象關系知識庫、預案知識庫、歷史場景知識庫、專家經驗知識庫、專題圖譜知識庫等。

2.3 知識引擎構建

數字孿生永定河流域知識引擎由大語言模型、規則引擎和知識圖譜計算引擎構成。

大語言模型提供了自然語言解析引擎和知識推理引擎,其訓練包括模型預訓練、Tokenizer 訓練、指令微調、獎勵模型和強化學習等環節。本項目基于中文分詞器,采用開源的互聯網新聞數據集、百科類數據集、社區問答數據集、翻譯語料庫,以及通過圖書文獻等資料自主構建的水利行業基礎數據集和永定河專題數據集等,作為文本預訓練數據集和指令數據集,對模型進行預訓練和精調。

規則引擎實現將業務規則和應用程序代碼的分離,將業務規則集中管理,實現動態修改業務規則快速響應需求變化,提高了系統的靈活性和可維護性。本系統采用Drools 作為規則引擎,提供規則編輯器、規則執行引擎等一系列工具,構建水利業務規則庫。

知識圖譜計算引擎用于處理大規模的知識圖譜數據,并提供分析和應用服務,其主要功能包括知識圖譜的構建、存儲、查詢、推理和更新。本系統采用基于Neo4j 圖數據庫和圖查詢語言Cypher、圖算法庫構建知識圖譜計算引擎。

2.4 智能業務應用

在通用的文檔搜索、智能問答、圖譜檢索、知識統計的基礎上,設計開發豐富的水利業務專題應用,將豐富的知識運用到防汛預報調度、水資源管理、水環境保護等業務場景中。

(1)智能問答。基于大語言模型和知識圖譜的深度融合,采用知識向量化檢索召回模式,研發數字孿生永定河智能問答機器人。該智能問答機器人既能回答關于永定河流域的基礎性知識,如官廳水庫基本情況介紹、官廳水庫的總庫容等,也能回答官廳水庫的預計來水量之類的預測類的問題。智能問答系統界面,如圖2所示。

圖2 智能問答系統界面

(2)水利對象關聯查詢。實體對象包括江河湖泊、水利工程以及水利對象的治理管理活動等,通過對這些水利實體和概念的關聯關系進行查詢檢索,可為水利知識的融合提供基礎。用戶可以方便地查詢到各種水利對象之間的關聯關系,以及與之相關的屬性、特征等信息。例如,查詢官廳水庫關聯的河流、行政區、水文站、視頻監控點、電站等。

(3)業務規則智能匹配。業務規則包括防洪工程調度規則、生態水量調度規則和工程運行管理規則等,提取流域內的水利工程、來水邊界、控制對象等節點,分析各節點的來水情況、控制對象、啟用條件、運行方式等要素,將調度規則方案邏輯化、知識化、關聯化。例如,在知識平臺中可查詢永定河生態補水的調度目標、各個補水水源之間的關系和各自的輸水計劃以及詳細的數據,也可查詢圖譜中各節點對應的具體數據。

(4)歷史場景復演。收集整理永定河歷史上發生的Ⅰ級洪水、Ⅱ級洪水和一般洪水資料,如1737、1780、1801、1819……1956、1963、2012、2023 年等。對歷年的典型洪水進行復盤推演并提取知識圖譜,包括歷史洪水場景的核心過程、暴雨洪水特征和主要應對措施等。基于歷史場景知識庫,可為同類暴雨洪水事件的預報調度提供決策參考。

(5)實時調度方案編制。基于知識庫、水利專業模型算法引擎、規則引擎以及大語言模型,讓計算機學習永定河流域內的防洪調度預案、動態洪水風險圖、流域水工程聯合調度方案等預案方案知識,分析和總結歷史調度方案和調度結果與成效,推薦水工程聯合實時調度最優方案,將推薦的調度方案同步在三維可視化平臺進行實時復演呈現。同時,可自動生成調度令,調用辦公自動化流程輔助下達調度令。

3 核心技術分析

3.1 大語言模型預訓練與精調

永定河數字孿生大語言模型有別于ChatGPT 這類通用大語言模型,是典型的領域專業大語言模型。當前主流的大語言模型均選擇基于Transformer 架構的深度神經網絡模型作為主體結構,有別于傳統的RNN 之類的神經網絡模型,Transformer 具有多頭自注意力機制和高效并行計算能力,并能有效捕獲不同維度詞之間的關聯程度,能夠高效處理大規模文本數據。

數字孿生永定河大語言模型采用“無監督預訓練”+“有監督下游任務精調”模式,首先基于大規模文本數據訓練一個具備通用語義表達能力的大語言模型,然后使用高精度的水利行業和永定河流域的標注數據進行精細微調優化,以適配水利業務應用的精準需求。訓練過程中采用數據并行和模型并行等分布式訓練技術,將模型訓練任務分散到多個GPU計算節點上并行執行,從而顯著提升訓練效率。

3.2 知識圖譜與大語言模型深度融合

知識圖譜是一種結構化的語義知識庫,能夠準確表達實體及其相互關系。但知識圖譜的構建過程耗時費力,語言理解和文本生成是知識圖譜應用中的技術難點。而大語言模型在語義理解和文本生成方面表現優異,但模型訓練和推理成本較高,同時存在幻覺、解釋性差、無法實時更新等問題。將兩者深度融合則可實現優勢互補,大語言模型補足了知識圖譜的語義理解能力,知識圖譜補足了大語言模型的知識準確度。兩者的深度結合可提供精準、可控、可靠的知識處理方案,可勝任更加復雜和準確度要求更高的任務。

本系統基于知識圖譜與大語言模型深度融合,通過調用大語言模型的接口服務,實現知識圖譜從創建到應用以及更新全生命周期各環節的效率和質量提升。在知識圖譜構建和更新環節,通過大語言模型從文本中提取實體及關系;在知識應用階段,通過大語言模型來表達知識圖譜中的知識。同時,通過知識圖譜增強大語言模型的訓練和應用環節,利用知識圖譜作為評估數據集,優化模型預訓練和微調。在推理階段,將知識圖譜接入大語言模型,為大語言模型提供準確的知識源,提升大語言模型的推理結果的可靠性。

3.3 知識向量化與知識檢索增強生成

知識向量化是一種將知識轉化為高維向量的技術體系,其核心技術包括詞向量表示、知識圖譜嵌入和文檔向量表示等,可實現將詞、知識圖譜以及文檔轉換為高維向量。為了進一步提升知識檢索和問答的準確性,本系統基于大語言模型(LLM)+知識召回(Knowledge Retrieval)的知識檢索增強生成(Retrieval-Augmented Generation,RAG)模式,將永定河流域文檔資料和知識圖譜進行切片和向量化處理,基于向量檢索實現知識召回,將召回的知識作為上下文提供給大語言模型進行歸納總結,然后以對話形式與用戶交互,從而提升生成結果的可解釋性、可控性和可更新性。具體技術路線,如圖3所示。

圖3 知識檢索增強生成技術路線

4 總結與展望

本文以數字孿生永定河系統已有數據為基礎,設計了數字孿生永定河流域知識平臺,主要建設內容包括知識庫、知識圖譜、大語言模型、智能業務應用等。其中,知識庫的建設是基礎,知識庫的規模和質量決定了知識圖譜和大語言模型的能力以及知識應用的成效;知識引擎是核心,其中大語言模型提供了強大的自然語言解析、語義理解和知識推理能力,知識圖譜和業務規則引擎提供精準的知識查詢檢索和規則匹配能力,兩者的深度融合即基于大語言模型和知識圖譜的知識檢索增強生成技術是提升知識應用質量的基石;知識應用是關鍵,只有將知識應用于具體的業務場景中,才能對業務起到支撐作用。

大語言模型的訓練、知識圖譜的構建以及智能問答的算法實現是知識平臺建設的技術難點,大語言模型的訓練算法正在快速更新迭代演化,可不斷更新訓練算法,訓練出高度匹配永定河流域管理業務的大語言模型。基于大語言模型和知識圖譜的知識檢索增強生成技術的智能問答應用也能實現更加精準的信息匹配和更高質量的結果生成。

猜你喜歡
引擎水利語言
為奪取雙勝利提供堅實水利保障(Ⅱ)
為奪取雙勝利提供堅實水利保障(Ⅰ)
水利工會
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
累積動態分析下的同聲傳譯語言壓縮
我有我語言
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發
主站蜘蛛池模板: 91亚洲精选| 好吊妞欧美视频免费| 手机成人午夜在线视频| 亚洲色精品国产一区二区三区| 91成人在线观看| 国产十八禁在线观看免费| 为你提供最新久久精品久久综合| 亚洲欧美自拍视频| 国内精品九九久久久精品| 欧美亚洲国产精品第一页| 91色老久久精品偷偷蜜臀| 性激烈欧美三级在线播放| 久久精品国产在热久久2019 | 色偷偷一区二区三区| 就去吻亚洲精品国产欧美| 黄色网页在线观看| 91精品专区国产盗摄| 国产精品手机视频| 亚洲天堂日韩在线| 免费一级毛片| 欧美激情伊人| 精品亚洲国产成人AV| 免费毛片全部不收费的| 亚洲无码精彩视频在线观看| 国产精品第页| 一级毛片免费的| 欧美在线视频a| 一本无码在线观看| 久久网欧美| 亚洲三级成人| 亚洲欧洲天堂色AV| 成人国产小视频| 国产一区二区三区精品久久呦| 国产成人久视频免费| 久久综合色88| 国产农村妇女精品一二区| 国产精品一区在线观看你懂的| 制服丝袜一区二区三区在线| 欧美成人A视频| 国产成人久久综合777777麻豆| 欧美区国产区| 波多野结衣视频网站| 欧美不卡视频一区发布| 麻豆精品国产自产在线| 中国美女**毛片录像在线| 天天综合网在线| 日韩最新中文字幕| 国产在线精彩视频二区| 黄片在线永久| 免费中文字幕一级毛片| 91久久偷偷做嫩草影院免费看| 欧美色亚洲| 黄色成年视频| 国产精品一区二区在线播放| 久久香蕉国产线看观看式| 米奇精品一区二区三区| 国产亚洲欧美日本一二三本道| 久久五月视频| 亚洲精品人成网线在线| 亚洲一级无毛片无码在线免费视频| 国产在线啪| 草草影院国产第一页| 国内嫩模私拍精品视频| 72种姿势欧美久久久久大黄蕉| 无码内射在线| 国产精品露脸视频| 色综合五月| 国产幂在线无码精品| 东京热av无码电影一区二区| 幺女国产一级毛片| 日本免费福利视频| 亚洲欧美综合精品久久成人网| 午夜毛片免费看| 四虎永久免费地址在线网站| 99视频在线免费看| 99精品福利视频| 久久久波多野结衣av一区二区| 国产欧美另类| 国产激情在线视频| 国产精品成人不卡在线观看| 国产门事件在线| 国产精品永久免费嫩草研究院|