李月標 王梁昊 譚一匡
之江實驗室打造的基于大模型的多路召回智能問答助手“小之知道”,自應用以來,為垂直于自動化辦公領域的數字技術管理提供了新的路徑和方案
向科技創新要高質量發展的空間,向新質生產力要高質量發展的動力活力。重點實驗室,作為科技創新的重要平臺和科技創新要素最密集的“集大成者”之一,眼下正擔負起服務國家重大戰略需求的時代使命。其中,之江實驗室作為浙江省首批省級重點實驗室,聚焦“互聯網+”科創高地建設,是浙江打造智能科學基礎前沿研究的核心高地。
然而,隨著之江實驗室的不斷發展,人員隊伍的不斷壯大,每天產生海量信息,如何幫助這支站在科技最前沿的團隊快速獲取有效信息成為了一個亟需解決的問題。好在,這里最不缺的恰恰是數字化、智能化解決問題的手段。面對以上問題,一套基于大模型的多路召回智能問答助手“小之知道”在之江實驗室應用開來,為垂直于自動化辦公領域的數字技術管理提供了之江實驗室的路徑方案。
“小之知道”知道什么?
“食堂用餐時間”“移動端辦公郵箱登錄”“之江實驗室目前已有多少研究成果”,打開“小之知道”的會話頁面,不管是提問實驗室日常制度、業務,還是研究成果明細,“小之知道”都能對答如流。
據悉,“小之知道”是按照一個平臺多個場景的方式架構:一個平臺指問答服務平臺,多個場景指同時可以支持多個應用場景。通過歸集、清洗實驗室各業務系統的核心數據,以及各種規章制度、辦事指南,形成標準化的知識庫;并結合自然語言處理、知識圖譜、大模型等技術,快速響應用戶查詢任務,從而提高用戶信息檢索效率,降低信息獲取的門檻,提高實驗室智能化服務水平。
“近幾年,隨著實驗室的快速發展,相關辦事制度也不斷優化更新,每天都會產生海量信息。對普通員工,特別是新員工來說,從現有海量信息中高效獲取有效信息存在著較大困難,甚至無法找到相關系統功能入口。不僅增加了行政管理人員的低效工作量,也降低了不少員工的信息抓取效率和工作學習效率。”
那么,“小之知道”又是如何具體解決這些痛點的?
在功能層面上,目前“小之知道”支持兩類場景的問答處理,包括知識問答助手和任務型問答助手。前者主要通過分析和利用已有的知識庫來回答用戶的問題,后者則是通過自然語言理解和規劃推理技術來識別用戶的意圖和需求后,從業務系統或者圖數據庫中獲取相應的答案。
在展示能力上,“小之知道”可支持多模態輸出能力,包括純文本、圖文信息、視頻以及各類圖表信息,并可通過權限分配,來實現敏感信息的過濾。
在系統維護上,“小之知道”可謂是獨具特色。一直以來,傳統的知識庫維護方式普遍面臨著高成本的問題,以及在對轉換結果的準確度要求較高的場景下,主流的輔助工具是文檔標注工具,可根據選定的內容自動生成問題,從而形成問答對。然而這種方式在處理較長的問答時,仍無法高效且批量生成問答對。為此,在“小之知道”的技術方案中,之江實驗室通過本地化部署了一個具有60多億參數的通用大模型,充分利用其自然語言處理能力,在問答知識庫的維護過程中,根據文檔內容批量地自動提取問答對,經過人工簡單核對后,進行入庫,大大提高了問答對的生成能力。此外,通過利用大模型,“小之知道”根據已知問題自動生成相似問題,進一步提升問答對的管理效率。
在開放能力上,之江實驗室將“小之知道”的核心接口進行了封裝,使得第三方產品根據接口文檔可以快速集成“小之知道”能力,賦能第三方產品,提升產品自身的體驗,使得“小之知道”的影響力最大化。眼下,“小之知道”智能問答助手數字技術案例已實現產品化,包括用戶端(移動端和PC端)、后臺管理系統、開放接口,可實現跨項目快速復制、快速部署。目前在之江實驗室內部,已經將“小之知道”集成到了多個產品上,用戶可以從多個端口對“小之知道”進行訪問,比如之江精靈、統一搜索等。
何謂多路召回智能問答?
智能問答、多路召回、大模型……每一個都是當下熱詞,當這些詞語一起匯聚在“小之知道”身上時,又會碰撞出怎樣的創新“火花”?
“我們提出了一種多路召回的多場景智能問答方法,可解決智能問答助手在多場景融合的問答場景下,現有技術召回精度低的問題;同時基于多路召回的機制,滿足多路模型并發運行的要求,提升運行效率;此外,每類模型還可采用N版設計的思路,進一步提升系統的可靠性。”該技術方案相關負責人介紹道。
具體來說,在實際業務中,當遇到多場景融合的問答場景時,目前主流的方法之一是先針對問題進行分類,判斷問題所屬場景,然后再進入到具體分類下進行問題檢索或者識別指令執行任務,該方法會導致因問題分類出錯而出現回答錯誤或者執行錯誤的情況。另外一種主流的方法則是按順序進行檢索,這種方法存在效率和召回精度都較低的問題。而“小之知道”所運用的多路召回的多場景智能問答方法和系統,正可直面解決這些難題。
此外,在以往的語義檢索技術路線中,最關鍵的一個環節是需要將問題進行編碼,即轉換成向量。一般的技術路線是采用通用的預訓練模型,然后在GPU上再次訓練進行調優,從而更好地滿足垂直領域內的語義場景?!靶≈馈彪m然采用了相同的技術路線,但是在大模型調優的訓練過程中,則采用了我國具有完全自主知識產權的國產加速處理器芯片——邃思(DTU,Deep Thinking Unit),具有深刻的技術創新意義。
“智能問答助手目前在各業務領域中都已經有著非常廣泛的應用,如今在大模型的加持下,技術路線進一步更新,并且從一定程度上解決了傳統智能問答助手中存在的弊端?!≈莱浞掷昧舜竽P拖嚓P技術優勢以及所提出的技術發明,在之江實驗室的案例中充分體現了其在垂直領域中的推廣價值和推廣優勢?!?/p>
(作者單位:之江實驗室)