在數字化浪潮席卷全球的今天,生成式AI以其驚人的創造力和無限的可能性,成為科技創新的焦點。然而,盡管其潛力巨大,企業在將這一技術應用于實際業務中時仍面臨著不小的挑戰。不僅需要對底層技術有深刻的理解,更需要對業務邏輯和用戶需求有精準的把握。換句話說,企業需要的是懂業務、懂用戶的生成式AI應用,而打造這樣的應用需要從數據做起。
企業在構建數據基座以支持生成式AI應用時,需要具備三大核心能力:高效數據處理、數據模型快速結合,以及新數據處理能力。
具體而言,在生成式AI應用中,基礎模型的微調和預訓練需處理大量多樣化數據,這對數據的存儲、清洗和治理提出了更高要求。Amazon S3以其擴展性、安全性和成本效益滿足了存儲需求,而Amazon FSx for Lustre的高速性能加快了模型訓練。數據清洗方面,Amazon EMR Serverless和Amazon Glue利用無服務器架構簡化了流程,提升了效率。

構建生成式AI應用時,企業必須能夠有效結合現有數據與模型以創造獨特價值。盡管基礎模型可能缺乏特定行業的專業知識和時效性,并存在生成錯誤信息和隱私合規的風險,但通過復雜的提示工程,可以顯著提升回答質量。這包括整合模型介紹、用戶背景和上下文信息。關鍵技術之一是檢索增強生成(RAG),它通過向量嵌入將數據源轉換為數值向量,將復雜的內容關聯問題轉化為簡單的距離計算。向量存儲作為RAG的核心組件,使得數據庫成為實施該技術的理想選擇。
亞馬遜云科技通過在多種數據存儲解決方案中集成向量搜索功能,增強了構建生成式AI應用的靈活性。特別是Amazon Neptune圖數據庫,結合其分析數據庫引擎,極大提升了圖數據分析的速度,而圖和向量數據的結合存儲進一步加快了搜索效率,為企業提供了強大的數據處理和AI應用構建能力。
最后,企業在構建生成式AI應用時,必須具備有效處理新數據的能力。頻繁調用基礎模型會導致成本上升和響應延遲,而通過緩存新生成的問答數據,企業可以在面對重復問題時避免調用模型,直接提供答案,從而減少成本并提高效率。Amazon Memory DB作為一個高速緩存和向量搜索支持的內存數據庫,能夠以極快的響應時間和高召回率,處理大量的向量查詢,非常適合實時應用場景。
在談及這些時,亞馬遜云科技大中華區產品部總經理陳曉建表示:“亞馬遜云科技的三大核心能力從基礎模型訓練到生成式AI應用構建,都能為企業提供全方位支持。我們致力于幫助企業打造強健的數據基座,將數據的獨特價值賦予基礎模型和生成式AI應用,從而加速企業業務增長。”
未來,亞馬遜云科技將繼續支持企業在AI時代持續創新,幫助企業利用AI實現業務增長和突破。