關注向量數據庫技術與產業發展及相關建議

2024-12-31 00:00:00周鵬劉曉蒙

中國信息化 2024年10期

2024年6月，生成式人工智能（以下簡稱“大模型”）初創公司OpenAI宣布收購向量數據庫公司Rockset，官方未披露具體交易金額，有關方面估測交易金額約為36億元人民幣。自2023年起，向量數據庫領域持續吸引大量投資，僅在2023年4月就有超過12億元人民幣投資涌入該領域，Pinecone、Qdrant、Zilliz、Chroma等多家公司獲得資本青睞。此次Rockset被收購后，該領域幾乎所有主流公司都獲得投資或者被收購，反映出投資者看好向量數據庫技術的市場前景。據市場調查機構預測，到2030年，全球向量數據庫市場規模有望達到500億美元。作為大模型產業的細分賽道，向量數據庫已經成為算力卡（GPU）之后，另外一個前景比大模型還要明朗的行業。

一、向量數據庫的特征

向量數據是指由多個數值組成的數據，每個數值表示一種特征或屬性，向量數據庫則是專門存儲和管理向量數據的特殊數據庫。例如，一張紅蘋果照片，向量數據庫可通過提取圖片特征，將其轉化為包含5個特征數值的向量數據[255，0，0，0.8，1]，每個數值代表一種紅蘋果的外觀特征，255：紅色比重（很紅），0：綠色比重（沒有綠色），0：藍色比重（沒有藍色），0.8：圓形程度（接近圓形），1：有梗（是的）。后續，如需處理其他水果的照片，向量數據庫就可以通過比較向量數據，判斷是否屬于外觀相似的水果。比如，橙子是[255，165，0，0.9，0]，就可以判定為與紅蘋果顏色、形狀相近的，無梗的水果。

（一）向量數據庫是針對特定需求優化的數據庫技術

在向量數據庫出現之前，傳統關系型數據庫以行和列組成的表格存儲數字、文本，根據關鍵詞進行精確查詢，非常適合處理結構化數據，例如，銀行交易記錄或者人口普查數據。向量數據庫則是為了存儲和檢索向量數據而設計，例如，在機器學習和人工智能應用中，圖像、語音數據被轉換為多維數組，通過向量表征關鍵特征，向量數據庫能夠在多維數組構成的高維空間中快速搜索、比較向量，實現圖片相似度搜索、語音識別等功能。向量數據庫極大地提升了處理和分析非結構化數據的效率，為機器學習、人工智能和大數據分析等領域提供了強大的支持。

（二）向量數據庫是數據庫技術體系中的新分支

向量數據庫并不是傳統數據庫的子集，也不僅僅是傳統數據庫發展的新階段，而是與傳統數據庫并行發展的一種專門化的數據處理技術。它專注于優化特定類型的數據查詢和分析，特別是需要進行高效空間距離計算的應用場景，可滿足現代數據密集型應用的新需求。

二、向量數據庫對大模型發展的關鍵作用

OpenAI斥巨資收購Rockset充分說明向量數據庫已成為大模型技術體系中不可或缺的一部分。向量數據庫通過提供高效的特征數據提取和相似性搜索功能，有效解決影響大模型發展的AI幻覺、長期記憶缺失、隱私泄露等問題。

（一）消除AI幻覺

“AI幻覺”指生成式人工智能在生成內容時可能會產生不準確或與現實不符的結果，這種現象在生成文本時尤為明顯。例如，大模型在描述某歷史事件時可能會錯誤地引用時間、地點或相關人物，甚至憑空杜撰。2023年6月，美國紐約Levidow律師事務所兩名律師提交了一份由ChatGPT撰寫的法律文書，引用了“馬丁內斯訴達美航空公司”“米勒訴聯合航空公司”等判決案例，美國紐約聯邦法官經過仔細查證，發現以上判決案例均為杜撰，兩名律師因未盡到核實責任，被判罰金5000美元。

大模型訓練數據存在偏差。當前，大模型訓練數據主要來自互聯網，由于數據量需求大，審核數據集又非常耗時，因此訓練數據存在偏差的情況比較普遍，存在數據陳舊、不全面、包含錯誤信息等問題。大模型在訓練過程中受到有偏差數據的影響，偏離實際趨勢或模式，在遇到新的、未知的情況時，便容易產生與事實不符的輸出。調整數據集、重新訓練可從根本上解決AI幻覺問題，但需要耗費大量的計算資源和時間。例如，訓練ChatGPT級別的大模型通常需要在高性能計算集群上使用大量的GPU及其他加速器硬件連續運行幾周到幾個月的時間。

向量數據庫可在無需重新訓練的前提下，對大模型進行“動態糾偏”，為解決AI幻覺問題提供有效的技術支持。例如，在法律領域，可以利用深度學習模型分析真實判決案例相關的文本、圖像、音頻等非結構化數據，精確描述案例的細微特征，提取特征向量存入向量數據庫。當大模型需要生成與判決案例相關的內容時，可以通過向量數據庫快速檢索經過驗證的信息，確保生成內容的準確性和可靠性。

（二）彌補長期記憶缺失

目前主流大模型如OpenAI開發的GPT-3、谷歌開發的BERT、臉譜網開發的RoBERTa等都采用了基于短期上下文的架構，在生成內容時只能處理有限長度的文本（幾百到幾千個詞之間），在進行長篇章節的寫作時，常常“忘記”前面內容的細節，出現重復或矛盾的情況。向量數據庫能夠存儲大量信息，并保持信息的即時可檢索。當需要回顧之前章節內容時，大模型可以從向量數據庫中檢索并使用相關信息，保持輸出內容的一致性和連貫性。

（三）防止隱私泄露

大模型在訓練和優化過程中都需要大量數據，這些數據有時包含敏感信息，如果處理不當，可能導致嚴重的隱私泄露問題。例如，2024年3月，三星公司半導體部門某員工使用ChatGPT將內部會議記錄轉換成演示文稿，這導致三星的商業敏感信息被存儲在ChatGPT的服務器上，可能被其他用戶在未來的查詢中獲取。

向量數據庫提供了從根本上解決大模型隱私泄露問題的技術手段。一是向量化數據，向量數據庫以向量形式存儲數據，敏感信息被轉換為向量數據，降低了原始數據直接暴露的風險。二是本地存儲數據，向量數據庫允許用戶將敏感數據存儲在本地，無需上傳到大模型即可進行訓練。數據不離開用戶本地環境，極大降低在傳輸、訓練過程中被竊取的風險。例如，2023年，南京理工大學通過本地向量數據庫搭建“小私有模型”的方式，向全校師生提供基于ChatGPT的自動解答、寫作輔助、文獻翻譯等智能化服務，既能提升教學、科研和管理的工作效率，又保護了個人隱私。

三、向量數據庫對大模型監管的技術支撐

為規范大模型服務的提供和使用，國家互聯網信息辦公室等相關部門出臺了《生成式人工智能服務管理暫行辦法》（以下簡稱“《辦法》”）等管理制度，向量數據庫可為落實相關管理規定提供技術助力。

（一）防止算法歧視

算法歧視產生的根源與AI幻覺相似，主要原因是訓練數據存在偏差，未能準確、全面反映真實情況，導致大模型輸出結果對某些群體產生不公平的影響。在大模型開始訓練前，向量數據庫能夠有效管理和利用多樣性數據集，確保訓練數據廣泛覆蓋不同文化背景和各類社會群體，減少大模型在生成內容時的偏見。在大模型訓練完成后，針對發現的算法歧視問題，向量數據庫可以有針對性的更新數據，在大模型運行過程中持續監控生成內容，及時發現并糾正偏見和歧視性內容輸出，為落實《辦法》“采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視”等要求提供技術支持。

（二）提升透明度和可靠性

大模型決策基于大量數據和復雜算法，普通用戶難以理解其運作方式。2024年3月，意大利個人數據保護局禁止ChatGPT在意大利運營，理由之一是缺乏技術透明。提高大模型的透明性和可解釋性有助于提升用戶信任度，特別是醫療、金融和司法等高風險領域。向量數據庫能夠記錄大模型做出決策時使用的具體數據和邏輯依據，可在事后追溯和審計大模型的每一步決策，為落實《辦法》中“提升生成式人工智能服務的透明度”等要求提供技術保障。

（三）推動基礎設施建設

大模型發展依賴于大量數據和高性能計算資源，不僅包括如GPU、高速通信網絡等硬件，還涉及龐大的數據處理和管理等軟件。其中，向量數據庫作為軟件基礎設施，在保護個人隱私、防止算法偏見等方面具備較強公共基礎設施屬性，適合納入基礎設施統籌建設的范疇。由主管部門指導，產學研用多方參與，共同建設預防算法偏見的通用準則庫、維護互聯網內容安全的公用知識庫等向量數據庫，為落實《辦法》中“推動公共數據分類分級有序開放，擴展高質量的公共訓練數據資源”等要求提供技術支撐。

四、支持向量數據庫產業發展的建議

歷史上，新技術的發展往往引領產業變革和經濟重組的浪潮，從工業革命時期的蒸汽機到20世紀的信息技術革命，每次技術進步都重新定義了產業分工，為后發國家提供了跨越技術鴻溝的契機。以新能源汽車為例，內燃機、變速箱等歐美傳統車企花費上百年時間建立的技術壁壘，在新能源車領域不再是核心技術，我國新能源汽車行業抓住戰略機遇，成功實現了換道超車。人工智能技術的興起帶來了信息技術產業分工調整的歷史機遇，傳統信息產業既有的行業規則和分工不能滿足大模型發展的新需求，英特爾的芯片、微軟的操作系統、甲骨文的數據庫等美西方企業的先發優勢正在被人工智能技術逐步抹平。在GPU、AI算法、向量數據庫等新一代信息產業技術體系構建過程中，部分國家頻繁使用貿易手段限售算力卡，限制大模型算法出口等卡脖子手段。

當前，向量數據庫技術在整個數據庫技術體系尚未占據主導地位，但在數據驅動的AI領域，它扮演著不可或缺的角色，為防止美西方國家在向量數據庫領域故技重施，我國應及時布局向量數據庫產業發展。

（一）鼓勵國產數據庫廠商開發向量數據庫產品

調查顯示，我國數據庫廠商自主研發的關系型數據庫系統已在關鍵領域廣泛應用，產品技術水平與國際先進水平的差距逐漸減小，具備開發向量數據庫的技術實力。建議政府及行業主管部門制定針對向量數據庫研發的優惠政策，如減免研發階段的稅收、提供研發資金補貼、建立專項基金等，鼓勵國產數據庫廠商開發向量數據庫產品。

（二）防止開源套殼等亂象干擾向量數據庫產業發展

當前信創市場中，利用開源技術方案簡單修改后宣稱是自主研發產品的“套殼”案例屢見不鮮。向量數據庫開源方案數量多，修改難度不大，可能成為“套殼”案例的高發、頻發領域。建議政府及行業主管部門完善國產數據庫產品認證體系，針對向量數據庫的技術特點，定期對向量數據庫產品開展認證，認證結果公開透明，供社會各界參考。

（三）用好雙刃劍，以技術對技術，以技術管技術

向量數據庫既是促進大模型創新的支撐技術，也是監管大模型健康發展的技術支撐手段，同時具備發展和安全的雙重屬性，是實現“以技術對技術，以技術管技術”治網理念的有效抓手。建議政府及行業主管部門充分發揮向量數據庫技術的雙刃劍作用，一是建設大模型訓練公用平臺，降低大模型行業的準入門檻，促進人工智能應用創新。二是建設大模型內容安全監管平臺，規范大模型輸出內容。