
金融業作為典型的信息密集型行業,信息技術的發展也在不斷推動金融領域的科技革命。20世紀中后期,伴隨著電子計算機和基礎網絡的建立,現代金融產業的基礎設施水平逐步提高,支付結算體系和電子交易系統實現了從初創到發展。20世紀末至21世紀初,隨著互聯網尤其是移動互聯網逐步普及,金融與互聯網的互動形成了一系列新的金融機構、金融產品和金融服務,互聯網銀行和保險公司紛紛涌現,大數據征信大幅提升了居民的借貸可得性,移動支付逐漸成為居民的主要支付手段。
2022年11月,OpenAI公司推出劃時代的ChatGPT產品,該產品能夠通過對話的形式為用戶解決覆蓋各領域的多種任務。ChatGPT的出現讓業界看到了通用人工智能(AGI)的曙光,也被稱為人工智能領域的iPhone時刻。2023年3月,OpenAI又推出了標志性的GPT-4 模型,將模型能力提升至全新高度,并將其擴展至擁有多模態功能,能夠按照用戶要求進行視頻、音頻等創作,被認為可能對電影藝術等領域造成沖擊。伴隨著GPT系列產品的走紅,利用神經元網絡搭建的大語言模型(Large Language Models,簡稱LLMs)成為人工智能領域的絕對熱點。
大語言模型及其特點
大語言模型是一類利用深度學習技術構建的人工智能模型,它們通過分析和學習大量的文本數據來理解與生成自然語言。目前大語言模型通常基于變換器(Transformer)架構,能夠捕捉語言中的復雜模式和關系。傳統人工智能模型一般僅使用幾千或者幾萬個參數,而對于擁有數十億甚至數千億個參數的大語言模型,隨著模型規模的增加,它們在理解和生成語言方面的能力也顯著提高,能夠更準確地模擬人類的語言使用習慣,也使得大語言模型能夠處理更復雜、更全面的數據和問題,并從中學習到更多的模式和規律。具體來說,大語言模型具有以下特點:
突出的自然語言理解能力
傳統人工智能模型往往需要專門的指令理解模塊將用戶指令轉化為模型可執行的指令。這一方面面臨指令理解準確率的問題,另一方面面臨在不同場景進行遷移成本過高的能力泛化挑戰。但大語言模型憑借前期的預訓練和微調,用戶能夠通過自然語言下達指令,模型能夠直接遵行用戶的任務指令執行。
較好的通用性
憑借其大規模的參數、復雜的網絡結構及有效的預訓練與微調機制,模型具備了較強的泛化能力。這種泛化能力體現在:一方面,大語言模型可以更好地適應不同下游任務,在文本生成、翻譯、摘要、問答等多種應用場景中表現出色;另一方面,大語言模型可以在不同領域的數據上進行遷移,如將基座大模型在大量計算機程序代碼上進行微調,得到的大語言模型可應用于軟件編程領域,實現代碼生成、調試輔助等功能。
具備復雜任務中的推理能力
除了具有通用性外,大語言模型在復雜任務中還展現出了較好的推理能力,能夠理解并推斷文本之間的邏輯關系并運用邏輯推理能力分析和解決復雜問題。相比之下,傳統人工智能方法在這方面的表現相對較差,往往需要有針對性地對所面臨的問題進行多步驟拆解,采用多個支持不同計算需求的模型共同服務。
大語言模型在金融業的應用
大語言模型在金融業的適用性
金融業是典型的數據密集型產業,而其中大量的數據是以自然語言等非結構化形式存儲,甚至部分數據是由圖像、音頻或視頻等格式存儲。傳統人工智能模型往往需要先對非結構化數據進行標準化預處理和清洗,才能進行后續計算。而大語言模型技術的一大優勢就是具備較強的理解人類語言的能力,對于不同類型的存儲方式也具有較高的識別能力,能夠更好地處理自然語言數據,這使得大語言模型在金融領域相比于傳統模型具有更高的靈活性。
大語言模型能夠以自然語言的形式進行輸出,本身也具有文本生成、摘要、問答等功能,能夠協助金融從業者開展相關工作,減少材料收集、報告文案整理所需的時間,提升服務水平和服務效率。
大語言模型憑借其推理能力,能夠對不同來源的數據進行綜合分析,可以縮短數據間發生連接與計算的時間,提高數據創造價值的效率。這一特點與金融行業緊密相關,在金融決策時,往往需要對于市場上的各類信息進行綜合分析,而大語言模型憑借其在訓練中習得的復雜推理能力,能夠建立復雜的邏輯聯系,為金融決策提供依據。
大語言模型在金融業的應用
目前大語言模型在金融業主要有三類應用模式:一是憑借大語言模型的通用性,基于現有通用大語言模型進行微調落地;二是金融企業憑借自身能力獨立開發大語言模型產品;三是金融企業通過應用接口接入通用大語言模型實現自身業務需求。
基于通用大語言模型微調形成金融大模型方面,目前常用的大語言模型架構下均有對應的金融大語言模型。OpenAI的GPT架構下,有AI4Finance Foundation開發的FinGPT開源金融大型語言模型,該模型為研究人員和從業者提供了可訪問與公開的資源來開發他們的金融大語言模型,并提供了相關應用接口,如機器人咨詢、算法交易和低代碼開發。谷歌的BERT大語言模型架構下,FinBERT是其第一個金融領域相關模型,此后其變體還有FinBERT-20和FinBERT-21,這一系列模型基于BERT大語言模型架構,通過在特定的金融數據集上進行微調,使得模型在金融市場情感分析和文本挖掘等多個金融相關的任務中取得了出色的效果。國內方面,度小滿基于BLOOM-176B大語言模型研發的千億級中文金融大模型軒轅,它在金融名詞理解、金融市場評論、金融數據分析和金融新聞理解等任務上表現優異,并且在多個金融場景中得到應用。
金融企業自主研發方面,也有不少產品涌現。彭博社2023年3月發布專為金融業設計的大語言模型Bloomberg GPT。該模型基于典型的Transformer架構,采用近500億參數在獨有的金融數據集和一般數據集上進行訓練,強化了模型在金融垂直領域的專業理解能力。Bloomberg GPT能夠生成金融新聞、預測股票市場走勢、分析金融報告和文檔、評估風險、提供智能客服等,在金融問題的理解和推理、金融新聞情感分析及金融實體識別等任務測試中表現遠超類似規模的大語言通用模型。國內方面,同樣專注金融信息服務的同花順和東方財富分別推出了問財大模型與妙想大模型,均采用Transformer架構,預訓練語料均達到萬億級別,借助自身金融數據優勢,為用戶提供股票分析、新資訊、智能寫作等服務。此外,聚焦金融交易系統的恒生電子也發布了金融大模型LightGPT,該模型基于金融數據訓練,可適用于投研、投顧、智能客服和合規風控等多領域金融應用場景。奇富科技和招聯金融等消費金融機構,也分別推出了適合自身信貸金融服務的大語言模型奇富大模型和智鹿大模型。
通用大語言模型的金融應用接口方面,目前也有科技巨頭推出相應產品。微軟公司基于GPT-4模型推出為金融業工作人員服務的系統應用Copilot for Finance,用戶可使用自然語言提示詞快速完成金融數據的處理和分析。騰訊公司基于自研的混元大模型,為金融行業前中后臺多個業務場景打造了一系列智能應用接口,助力金融機構展業。阿里云旗下的通義點金應用,定位于智能投研助手,提供AI金融信息搜索、金融文檔分析、金融資訊獲取、金融投研等多種功能。
大語言模型在金融業應用中面臨的挑戰
2023年中央金融工作會議提出做好科技金融、綠色金融、普惠金融、養老金融、數字金融五篇大文章,對數字金融高質量發展提出了新要求。緊跟信息技術前沿發展趨勢,并將其應用于金融業的高質量轉型發展,是金融科技發展的應有之義。當前大語言模型在信息科技領域受到普遍關注,將其應用于金融領域也是順勢而為,但是也需要看到,大語言模型在金融業的應用也存在一些潛在問題和挑戰。
適用性有待提升
雖然大多數大語言模型對于基本的數學問題,如在加減乘除等基礎數學上表現優異,但在更復雜的數學問題上,它們的表現并不理想,尤其是在數學運算和數值分析方面的能力較弱,無法像專門的數學軟件那樣進行高效的數值計算。金融業實踐中涉及大量的數學模型和高頻計算,盲目使用大語言模型替代很難實現效率的提升。
使用成本較高
大型語言模型訓練需要消耗大量的計算資源。例如,GPT-3的token數約為1750億個,訓練成本約為140萬美元。對于參數更大的大語言模型如ChatGPT,訓練成本介于200萬美元至1200萬美元之間。這種高昂的成本使得僅有少數大型公司能夠承擔大語言模型的訓練費用。考慮到金融行業的信息源是高度動態的,如不斷使用最新的行業數據對系統進行更新,將進一步大幅提高模型訓練的成本。
隱私保護不足和存在安全風險
大語言模型需要大量的數據來訓練,如何保護底層數據的隱私和安全性是一個重大挑戰。金融業務的底層數據很多涉及用戶隱私信息,對于此類數據的使用依法受到嚴格的限制。如何建立用戶信息與模型之間的隔離防護機制,維護用戶隱私安全尚待進一步研究探索。
可解釋性弱和準確性不強
在可解釋性方面,由于這些大語言模型的規模極大、內部工作機制復雜,模型的輸入和輸出之間難以直接呈現可溯源的因果關系,即難以向用戶直觀地解釋說明模型是如何根據輸入內容一步步得出其輸出結果的。此外,在準確性方面,大語言模型的幻覺問題也是亟待解決的一大難點。幻覺問題是指大語言模型在生成文本時可能會產生一些看似合理但實際上與事實不符或與輸入不相關的內容,或可能會產生不準確的信息。金融業是對于信息透明度和準確性要求極高的行業,上述問題對于大語言模型在金融業的應用也造成了一定障礙。
大語言模型在金融業應用的原則
基于上述風險和挑戰,金融企業在進行大語言模型應用決策時,應遵循以下底線原則:
分類適用原則
金融企業和機構應當結合自身業務結構與模型需求,審慎研判大語言模型的邊際貢獻。對于使用結構化數據、運算步驟清晰,且已經被證明有效的數量類模型,鑒于大語言模型在數量計算方面并不具備比較優勢,可以考慮繼續使用現有模型。例如,目前部分保險公司的精算模型中已使用了人工智能算法架構進行預測和分析,盲目使用大語言模型技術替代原有的傳統人工智能算法未必能夠提升預測精度和模型效率。但是對于數據結構較為復雜、數據來源多樣,尤其是包含大量自然語言信息的場景,如市場情緒分析和大數據智能風控,大語言模型可能有較大的發揮空間,可以考慮推動實施。
成本可控原則
金融行業普遍面臨降本增效的業績要求,大語言模型開發具有較高的硬件和技術門檻,日常運行維護成本也相對較高,自行研發大模型系統會大幅增加企業運營的費用和人力成本,且金融企業模型開發經驗相對薄弱,難以有效實現成本控制。加上大語言模型市場當前處于較為火熱的狀態,近年來美國對大語言模型訓練所須使用的GPU芯片的出口限制,進一步推高了金融大模型的落地成本。在這樣的背景下,金融企業應審慎評估成本收益,避免盲目跟風上線大語言模型項目。前期可以考慮與科技型企業合作,通過通用大語言模型微調或使用其提供的應用接口等方式,滿足業務需求,避免進行較高的前期資本投入,借助科技型企業專業優勢降低研發和運維成本。
安全合法原則
目前全球都在研究如何監管大語言模型的潛在風險,美國、英國和歐盟已通過人工智能時代的數據保護法案,我國也已于2023年出臺《生成式人工智能服務管理暫行辦法》,進一步規范在大模型領域對用戶敏感信息的使用。但就能否對用戶隱私進行有效隔離,學界尚有爭議,相關技術尚待進一步完善。防控風險是金融工作的永恒主題,無論是從落實監管要求的角度,還是出于對公司客戶負責的角度,都應對大語言模型使用過程中的隱私安全性問題予以高度重視,相關模型的上線也需要慎之又慎。金融企業建設與應用大語言模型時應遵循安全合法原則,確保企業秘密、網絡安全、數據安全和個人信息不受侵害。
透明可信原則
目前大語言模型的可解釋性和準確性等問題尚待學界的進一步研究與解釋。考慮到金融企業內部專業從業人員和信息技術支持人員在各自領域具有更充分的專業知識,使得其對模型生成的內容擁有更全面準確的判斷能力,金融企業在應用大語言模型時,可以先將模型的使用范圍限制在公司內部,讓大語言模型優先從旁發揮輔助專業人員決策的副駕駛功能,由專業從業人員結合自身經驗和知識對大語言模型給出的結果進行復核和判斷,再將修正后的結果向客戶提供,以人工干預手段減少幻覺問題的潛在影響。但需要注意大語言模型給出的輔助結果僅可作為各項工作的參考,確保重要決策始終由專業人員做出,工作責任最終由使用者承擔。后續待模型進一步穩定完善后,再向企業客戶等外部公眾開放使用。
金融業發展大語言模型的建議
上述對金融企業如何守好底線原則、有效處理大語言模型運用相關問題的建議,可以進一步簡單歸納為“小步快走,由內而外”的應對策略。其中,“小步”的核心要義是審慎。金融企業要避免跟隨熱點,對于大語言模型盲目大步跟進。建議要結合自身業務和日常運營需要,對大語言模型的適配性和成本收益進行審慎評估。對于大語言模型的落地方式也要統籌考慮,避免盲目進行大規模硬件投資。“快走”的核心是要緊跟技術發展前沿,及時了解最新的技術動態,尤其是在模型安全性、準確性方面,要緊跟人工智能領域最新的研究成果,及時將最新的技術應用于自身的模型和業務,提升服務水平,避免在行業競爭中處于劣勢。“由內而外”則是要采取對客戶負責的態度,在模型上線初期將使用范圍限制在企業內部,待對模型的潛在風險和問題進行準確評估并完成調整優化后,再對外投入公眾使用。
我們相信信息技術的發展是推動金融行業變革發展的重要動力來源,隨著人工智能領域的不斷發展,大語言模型技術在不久的將來或將取得新的突破,其配套技術和相關基礎設施亦將更加完善,屆時信息技術和金融業務的碰撞必將產生新的火花,進一步助力提升金融綜合服務水平、貢獻新質生產力,推動金融業實現高質量跨越式發展。
(初眾為中信集團戰略發展部項目經理,張偉強為清華大學五道口金融學院副研究員,羅成為北京麥伽智能科技有限公司總經理。本文僅代表作者個人觀點,不代表供職單位意見。責任編輯/周茗一)