文/郭全中 楊元昭
大模型作為新一代信息技術,近年來備受關注。在AI 浪潮下,國內外企業紛紛加速對大模型產業布局的推進,并在模型和算力等層面推動技術變革和產業轉型。同時,為促進大模型產業落地,各個企業和機構在大規模、高質量的數據積累基礎上,著力推進大模型的應用。然而,隨著大模型的發展,數據安全和內容治理成為監管的重點,如何在保障人工智能可持續發展的同時,確保技術創新成為大模型發展面臨的新問題。
隨著GPT 系列的發布,國內外大模型及其相關產業持續引發熱議。大模型產業鏈可基本分為:算力、模型、應用三個環節,芯片廠商及服務器廠商提供算力支持,科技企業及互聯網公司提供模型支持,模型在學習特定數據后完成功能落地。大模型技術逐步成熟、應用場景不斷擴充,大模型在互聯網企業與各行業逐步接軌,火熱程度不減。
在大模型及其相關產業占據行業焦點的同時,國內外相關企業迅速擴張,加速大模型相關產業布局,完成技術變革與企業轉型。
盡管國內大模型起步較晚,但整體成長迅速。2023 年以來,阿里千問大模型、百度文心大模型、商湯日日新大模型、訊飛星火認知大模型、華為盤古大模型等國產大模型相繼發布。國產大模型成長迅速,且對大模型的應用具有持續探索潛力。阿里巴巴在第六屆數字中國建設峰會上將千問大模型接入工業機器人,實現遠程機器人交互控制;訊飛星火認知大模型在教育、辦公、汽車、數字員工等領域完成成果落地,模型應用于學習機、智能辦公本、智慧駕艙以及開放平臺等多項業務,賦能公司收益,c 端硬件業務率先受益;華為盤古大模型在氣象、藥物分子、海浪檢測、煤礦綜采等場景完成大模型實踐,其中,氣象大模型精度超過傳統預報方式。
國外大模型種類豐富,多維拓展,垂直落地。海外大模型模態豐富,在文本、圖像、音頻多方面均有涉及。以OpenAI、Google、Anthropic 等科技公司為代表,通過閉源模型形成了強大的龍頭效應,而Meta 等則通過開源模型構建了合作共創的生態系統。微軟將OpenAI 整合于辦公軟件、搜索、操作系統、云服務等ToC、ToB 產品服務中,同時提供閉源模型支持,API 付費調用也成為部分公司的服務類型;Meta 引領著開源模型的發展,模型形態逐漸豐富,文本到圖像、圖像到文本以及多模態統一到單一模型等領域都有所突破。
在大模型產業鏈中,提供算力的硬件部分扮演著更為基礎的角色。作為大模型的核心,算力在訓練和推理階段都發揮著重要作用。芯片作為算力的心臟,為大模型提供了硬件支持,也成為國內外企業競相爭奪的領域。
在AI 浪潮下,算力相關企業美股全面暴漲,如:高通、AMD、超微電腦、博通、麥維爾科技等。與此同時,英偉達在行業內遙遙領先,成為美股首家市值觸及1 萬億美元的芯片公司。英偉達憑借著CUDA 框架,成為全球最大GPU 供應商,結合CPU、GPU、DPU 形成生態閉環,并通過推出AI Foundations 完成從硬件向算力云服務MaaS 的轉型。除英偉達外,谷歌自主研發了TPU 芯片,大幅降低功耗、加快運算速度,為Anthropic 提供大規模TPU 和GPU 加速支持;Meta 推出定制AI 芯片MTIA,采用開源芯片架構RISC-V,功耗僅有25 瓦,遠低于英偉達等主流芯片。
國內各互聯網企業自主研發,芯片市場百花齊放。阿里自主研發芯片含光800、倚天710,為大模型提供強大算力支持;百度實現兩代通用AI 芯片量產及應用,其產品在百度搜索等業務場景中得到應用;騰訊推出AI 推理芯片“紫霄”、視頻轉碼芯片“滄海”以及智能網卡芯片“玄靈”三款自研芯片;華為自研芯片昇騰310 和910 芯片,為模型提供算力支持。
數據與算力是大模型發展的兩大核心,大模型的訓練和推理對大量、可靠的計算資源和存儲空間具有一定的依賴。在大模型的訓練過程中,通常采用無標注、自監督的訓練方法,通過海量數據進行超大規模模型訓練,從而對數據和算力提出了更高的要求。在模型推理的過程中,也需要借助高質量、大規模的數據基礎來實現模型的應用和落地。因此大模型的研發本身就是對公司數據、資金以及人才儲備的考驗。
從SaaS(Software as a service,軟件即服務)到MaaS(Model as a Service)模型即服務,模型架構不斷升級,訓練模型數據需求不斷提升。
模型架構升級,海量數據助力大模型訓練。隨著Transformer 架構的提出,深度學習模型參數規模達到上億級別。2018 年谷歌提出基于Transformer 的大規模預訓練語言模型BERT,參數規模首次超過3 億,此后在Transformer架構的推動下,自然語言處理領域得到廣泛發展。目前,國外大模型中,谷歌大模型參數規模達到千億級別,meta 提供70 億、130 億、330 億和650 億等多種參數規模模型。國內大模型中,百度文心一言的大模型參數規模超過2600 億,阿里通義千里的大模型參數規模超過10 萬億,華為盤古大模型、騰訊混元模型的參數規模均超萬億。
模型即服務,高質量數據助力高質量模型。隨著大模型的快速發展,國內外以微軟、谷歌、阿里、華為、商湯等為代表的互聯網公司逐步自主研發出相應的大模型產品,而隨著大模型的商業價值逐步提高,其可適用場景逐步擴大。大模型本身作為產品服務各行各業,高質量的數據內容對提高模型質量和服務質量起到強有力的推動作用。
除模型訓練外,大模型在內容落地上對高質量、高數量的數據也有極強的依賴性。
大模型垂直領域落地,專業數據推進模型專業性發展。隨著模型質量逐步提升,其應用也逐步推廣。大模型垂直類知識的積累訓練有助于其在醫療、安全、能源、工業等垂直領域的落地。Salesforce 研究院Ali Madani 團隊通過將蛋白質氨基酸序列與表示蛋白質功能屬性的標簽拼接,使用語言模型進行建模,提出可控蛋白質序列語言模型ProGen,成功利用該模型預測并合成功能與自然界蛋白質相近的人工溶菌酶。華為將盤古大模型3.0 運用于氣象預測,Pangu-Weather 精度超過傳統數值預報方法,預測速度提升10000倍;將盤古大模型運用于生物領域,通過藥物分子大模型找到替代Gp46 蛋白的小分子化合物,進而研發出超級抗菌藥DrugX,大模型將先導化合物研發周期大大縮短,降低了研發成本。
融合了垂直領域知識的大語言模型有望提升各產業的效益,但同時也對高質量數據有著較強的依賴性。只有擁有豐富高質量、高數量數據積累的行業和企業,才能在大模型的支持下具有更強的發展潛力。
隨著大模型的發展,生成式人工智能取得了技術革命同時也帶來了新的發展機遇,也在一定程度上為虛假信息和危害用戶信息安全的內容提供了滋生與傳播的土壤。因此在生成式人工智能發展的同時,國內外相關管理政策也在逐步落地。國外各國對以ChatGPT 為代表的生成式人工智能采取了緊急措施。2023 年4 月11 日,美國商務部下屬國家電信和信息管理局就“存在潛在風險的大模型在發布前是否應該通過一項認證程序”發出了征求意見的請求。2023年4 月12 日,意大利個人數據保護局圍繞數據安全,要求ChatGPT 公開數據處理邏輯、對用戶年齡進行篩查、明確數據主體擁有的權利,并在達標后被允許恢復在意大利使用。2023 年4 月13 日,歐洲數據保護委員會(EDPB)宣布成立特別工作組,以加強監管機構之間的合作;國內也對生成式人工智能進行了及時監管,促進生成式人工智能健康生態發展。2023 年4 月11 日,我國互聯網信息辦公室起草了《生成式人工智能服務管理辦法(征求意見稿)》。2023 年7 月13 日,國家網信辦聯合國家發展改革委、教育部、科技部、工業和信息化部、公安部、廣電總局公布《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》)。2023 年8 月15 日《辦法》正式施行。2023 年8 月31 日,以百度、字節、商湯、中國科學院旗下紫東太初為代表的首批八家通過《辦法》備案的企業與機構大模型正式上線,并逐步向公眾提供服務。目前,國內已有十一家大模型獲批,并將陸續向公眾開放。
自2019 年以來,我國在數據安全治理上不斷出臺相關政策,完善數據要素市場制度與頂層設計。2022 年12 月,中共中央、國務院印發《關于構建數據基礎制度更好發揮數據要素作用的意見》從數據產權、流通交易、收益分配和安全治理四方面,提出相關政策措施,為我國數據治理的長遠發展提供基礎指南。2023 年7 月13 日《辦法》對生成式人工智能服務中的數據安全、模型算法安全進行了進一步細化。
《辦法》就生成式人工智能數據安全層面,明確了訓練數據處理活動和數據標注的各項要求。《辦法》對大模型服務過程中的責任主體進行了說明,并對大模型的數據安全、數據來源問題進行了強調,對數據來源中的肖像權、名譽權、個人隱私權、知識產權進行了特別說明,對用戶及數據來源信息安全進行監管保護。
數據安全、數據來源的監管是促進生成式人工智能健康發展的重要前提,也是防范生成式人工智能服務風險的現實需要。
針對生成式人工智能這一新內容,如何在把握人工智能新科技革命浪潮的同時實施內容治理是生成式人工智能監管的重點。《辦法》對其生成內容、模型算法設計、運營規范也進行了相關約束。
《辦法》通過對提供生成式人工智能服務的公司進行服務前模型算法、數據來源的評估備案,服務時生成內容合法性、合理性的監管要求,服務后用戶投訴接受處理機制的監管完成對生成式人工智能的管理。目前,國內已有部分提供生成式人工智能服務的相關企業機構完成備案,《辦法》的出臺將對生成式人工智能內容治理及健康生態提供發展基礎。
生成式人工智能作為新一代信息技術引領下的新興產業具有很大的發展潛力。隨著模型數據規模和質量的不斷提升以及算力的增強,模型水平逐步提高,其在各垂直領域的應用逐漸呈現出專業化和精細化趨勢。目前各行業對大模型的熱情依然高漲,生成式人工智能的監管面臨一定挑戰。在《辦法》的指導下,政府、企業及研究機構需要共同探尋,在確保人工智能的可持續健康發展下,保障技術創新。