曾文仁

2023年11月2日,英國米爾頓凱恩斯,薩姆·奧特曼(中)出席人工智能安全峰會
今年11月17日開始,人工智能領域明星初創公司OpenAI的管理層,上演了一出全球矚目的“宮斗劇”,原行政總裁和董事局主席被首席科學家為首的董事局成員逼宮,火速以網上會議的形式通知解雇。
紛擾數天后,消息傳出,被開除的山姆·奧特曼(Sam Altman)與另一名OpenAI的聯合創始人格雷格·布羅克曼加入微軟團隊,原OpenAI的董事局成員則面臨微軟管理層、投資者和員工的巨大壓力,被要求馬上辭職,為挑起這鬧劇下臺負責。
當地時間21日晚間,OpenAI董事會又發文稱,已原則上達成協議,山姆·奧特曼將回歸公司,重新擔任CEO一職,并組建新的董事會。
對于這場宮斗鬧劇,有分析認為,這次沖突是由于原行政總裁重視利潤導向,而挑事的董事會成員擔憂AI的禍害,雙方勢同水火?;仡欉^去,這類“宮斗劇”在科創企業不算新鮮事,其背后大致反映著聯合創辦人理念的不同、公司治理架構的缺位,以及整體欠缺深思熟慮、企業文化缺失等問題。
回顧過去,OpenAI這家公司的成名之路依然耀眼。其去年11月面世的ChatGPT震驚全球,其文案生成能力,仿佛能取代依靠文筆維生的文字工作者。一年過去,OpenAI成為街知巷聞的科技明日之星,其背后主要投資力量微軟的眼光更令人刮目相看。生成式AI及其背后支撐的大型語言模型(LLM),可算是2023年科技界的“顯學”。
今年11月6日,OpenAI在其首屆開發人員大會上,宣布推出GPTs,中文世界較多稱其為“自定義GPT”。新推出的GPT可供用戶使用自己的獨有數據,調整ChatGPT成為專屬的GPT,以配合特定的用途。
OpenAI強調,個人用戶無須任何編程知識,就能創建專屬的GPT,其成品甚至有可能透過OpenAI構建的GPT商店出售牟利。
相比起來,去年發布的ChatGPT是一個公開系統,理論上,任何使用者都有可能接觸AI系統內的所有資訊—今年就曾發生過數起,粗心大意的員工為工作便利,將大量機密資料上傳ChatGPT的新聞。這些員工希望運用AI的力量,協助翻譯、校對、檢查遣詞造句和文法之用。
這實際上是嚴重的數據泄露事故,公司會因此違反數據主權、個人資料隱私保護等法規,有可能被監管機構追討高達數十億美元的罰款。數月前,韓國三星就曝出有員工將敏感的先進芯片制造數據上傳ChatGPT的新聞,可見公開的GPT系統有可能為企業帶來極大風險。
專屬GPTs的推出,總算是回應商界數月來的訴求,讓員工能夠運用獨有的內部數據,正當、合法地使用AI,來更大程度便利化日常工作;企業亦可取回數據的擁有和管理權,使之成為業務優勢,他人無法通過ChatGPT取得數據,從而保護企業的競爭力。
新推出的GPT可供用戶使用自己的獨有數據,調整ChatGPT成為專屬的GPT。

不過,自定義GPT的新聞和大眾討論度,與一年前的ChatGPT大相徑庭,影響不可同日而言。究其原因,可能是一眾科技巨頭如微軟,今年初已推出不少企業級GPT的產品,經過數月形成可實際應用的案例。OpenAI的新產品實際上是追趕者,而非突破性創新。
以OpenAI的“最佳拍檔”微軟為例,后者今年4月已推出“Azure OpenAI”服務,提供企業級GPT功能供企業用戶使用,建立屬于它們的AI工具。這項服務可供企業自行選擇ChatGPT、GPT-4等大型語言模型,來訓練其專屬AI系統。
目前,中國香港已有企業使用該服務,成功開發客戶投訴管理方案,多間虛擬銀行、保險公司也在和客戶溝通過程中使用類似方案;香港八所大學亦引入此方案,作為教育用途—不少微軟的應用案例已踏入能獲利的“收成期”,與OpenAI尚在概念的自定義GPT不可同日而語。
盡管GPT和LLM在技術上都不是新穎的發明,但它們令人驚訝之處,在于能快速查閱大量文獻、檔案,將相關的文字串連,完成有用的分析、學習和分享,產出貌似經深思熟慮的成果,質量甚至較一般人類的作品優秀。
與ChatGPT類似,自定義GPT最大的吸引點,仍然是為個人用戶帶來新奇的AI體驗。以往,生成式AI成本較高昂,技術難以觸及普羅大眾,使用場景大多集中于大型企業的內部工作用途。ChatGPT促成了這項技術的普及化,能讓一般用戶以可負擔的價格,運用GPT學習和投入到各種生活用途中去。
然而,ChatGPT這類通用生成式人工智能采用的數據,包含網絡上大量未經核實的資料,產生結果的準確度和提出建議的質量成疑。理論上,只要錯誤的資料數量龐大且足以壓倒正確的資料,通用生成式人工智能就可能會將錯誤的資料判斷為正確。
現今網絡上假新聞、偽資料盛行,若不加事實查證(fact check)而納入ChatGPT的資料庫,并視之與正確資料具備同等的價值,得出錯誤的結論便難以避免。

微軟Microsoft 365 Copilot
這種高價值成品所依賴的,是企業經過多年實踐考驗的數據。
今年五月,美國紐約一名執業逾30年的控方律師,使用生成式AI準備訴訟文件,卻被辯方律師團體揭發文件引用的6宗判例并不存在。經法官質問后,該名律師其后承認,曾使用ChatGPT研究判例,且沒有意識到內容可能是假冒的。
該名律師辯護時,提供了多幅ChatGPT的截圖,論及ChatGPT曾多次強調相關判例屬實,并提供審理案件編號,更強調案件可于“信譽良好的法律數據庫”中找到。該名“老貓燒須”的律師需接受法律行業的紀律聆訊,面臨各種處罰。
此外,網上亦有人運用ChatGPT制訂旅游行程,發掘熱門的景點。然而,這類生成的計劃全然不顧及人類的體力負荷、交通時間限制以及觀光體驗,提出的行程建議比近期流行的“特種兵旅游”更挑戰人體極限。通用生成式人工智若不能仔細考慮各行各業的實際情況,提出建議的參考價值則需要打上問號。
新推出的自定義GPT,總算是對上述通用生成式AI的弊端有所防范。企業若能根據高質量、可靠的數據,訓練專屬的生成式AI,其推論結果的參考價值將大大提高—而最可靠和真實的數據,莫過于企業運營多年的數據庫,以這些數據訓練的專屬生成式AI,自然事半功倍。
專屬生成式AI,將可協助員工和客戶獲得精確和切實可行的見解,既可減輕員工人工操作的負擔,提升運營效率,更可提升客戶體驗,一舉多得。
假若上述的美國律師能使用其律師事務所的自定義GPT而非ChatGPT,他更可能獲得真確的案例,不至于將虛構資料呈上法庭,貽笑大方;旅游平臺的專屬生成式AI若能運用內部的數據,更能按照消費者的個人特征、喜好推薦及近期趨勢,產生符合實際情況的旅行計劃,就可以免于紙上談兵。這種高價值成品所依賴的,是企業經過多年實踐考驗的數據。
能夠運用獨有數據,發現有意義的趨勢并根據其采取行動,回應潛在市場需求,這就是“股神”巴菲特所說的“企業護城河”。具備數據及專屬生成式AI“護城河”的企業,將能成為獨霸一方的巨人,擁有獨特且難以模仿的競爭優勢。
在當下,最令跨國企業管理層乃至白領精英躍躍欲試的生成式AI,應該是微軟的Microsoft 365 Copilot。要知道,微軟是企業辦公領域的巨頭,擁有海量文件處理的數據及多年智能辦公的經驗,因此能推出高質量的專屬生成式AI—單單只是其將Word文件轉化設計為精美PPT的能力,節省的時間、人力和成本就已相當可觀。

馬來西亞的大馬銀行在今年9月加入微軟的試用計劃,銀行內三百名不同部門的員工使用該生成式AI,運用大型數據和文件庫的資料制作報告,為客戶和利益相關方撰寫個人化內容,以及回應各種查詢。
該集團首席運營官稱,微軟的AI工具能讓他們的團隊成員節省大量時間和精力生產內容,大幅提升工作效率;員工更能處理更具戰略價值的事務,對該行的成長是重大改進。值得一提的是,Copilot背后使用的大型語言模型,正是OpenAI的GPT-4。
但按目前的發展現狀,身處中文世界的用戶,在生成式AI的應用上,大多數時間仍落后于歐美國家。所謂大型語言模型,首先需要能理解的自然語言,然而,多種自然語言的普及程度卻不盡相同—無論是ChatGPT、Azure OpenAI或是新推出的自定義GPT,推出的系統很多時候首先普及的是英文內容的生成,讓英語世界的用戶嘗鮮數月至一年左右,再嘗試兼容法語、西班牙語、德語等歐盟語言,才開放給中文用戶。
這種產品語言面市的次序,在跨國科技企業由來已久,這背后既是歐美實驗室研發人員的習慣使然,也有商業和政治考慮,但更重要的是數據量的差別。英語是全球無可否認的世界語言,更是商業社會的主流語言,身處上海、北京、深圳、香港的跨國企業員工,都必須能聽、看、讀、寫流利的英語,以便與國外的團隊和客戶溝通。
人口大國印度,更是有大量人群以英語為母語。英語的普及,使全球大量數據以英語產生,英語的生成式AI“威力”自然更強。因此,運用國外生成式AI產生的中文內容,質量總是較英語內容略遜一籌。
那么,國產的大型語言模型表現如何?的確,百度的文心一言、商湯科技的日日新等中國本土模型,是中文世界的領頭羊。然而,會生產中文數據的人只有約14億,遠比全球會英語的人數少。
數據量的差距,讓中文的生成式AI難與英語世界的競爭者并駕齊驅。中文世界的用戶,似乎永遠是生成式AI以及創新科技產品的“二等”甚至“三等公民”。
數據量以外,訓練生成式AI更需要龐大的運算能力。數據中心、超級電腦乃至半導體芯片,都是構成算力的要素。中國大陸在這些領域與歐美世界差距甚大,而取得芯片的能力,近年屢屢為外國政府阻撓,因此國內生成式AI模型始終較弱,也不難理解。
因此,自定義GPT的發展,與AI和其他科技一樣,受到技術、社會以及國際政治的制約。預測未來趨勢時,需對全球社會、經濟狀態和技術發展做綜合考量,方可提高準確度。我們不應只看到科技發展的可能性,也要對發展限制有一定的理解,這樣面對未來世界變局時,方可游刃有余。
責任編輯吳陽煜 wyy@nfcmag.com