














收稿日期:2023-08-01" 修回日期:2023-11-03
基金項目:國家社會科學基金重點項目(20AGL004);國家自然科學基金面上項目(72372127);中央高校基本科研業務費(人文社科類)專項(SK2023039)
作者簡介:高山行(1963-),男,陜西興平人,博士,西安交通大學管理學院教授、博士生導師,研究方向為技術創新、戰略管理;王慧(1990-),女,山西運城人,西安交通大學管理學院博士研究生,研究方向為技術創新、社會網絡分析;楊張博(1986-),男,山西運城人,博士,西安交通大學人文社會科學學院教授、博士生導師,研究方向為技術創新、社會網絡分析。本文通訊作者:楊張博。
摘 要:生成式人工智能(AIGC)技術對經濟社會發展帶來巨大挑戰,現有研究多從技術規制、發展歷程等方面展開,較少對AIGC領先企業專利布局進行深入分析。選取美國AIGC領域領先的14家初創公司和4家科技巨頭,基于復雜網絡分析方法和機器學習的K均值聚類算法,利用專利IPC信息構建專利知識網絡。研究發現,美國AIGC領先企業的專利布局聚焦于電數字數據處理、圖形數據讀取及呈現等技術領域;從專利布局知識寬度、知識深度、知識緊密程度、知識分離程度和知識一致性程度進行聚類,企業可分為三類,即專業玩家、大廠/領先者和創新者。同時,識別不同企業的核心知識領域和橋接知識領域,最后從算法、算力和數據方面為我國發展AIGC產業提出政策建議。
關鍵詞:生成式人工智能;AIGC;復雜網絡;專利布局;K均值聚類
DOI:10.6049/kjjbydc.H202308003
"""":
中圖分類號:G306
文獻標識碼:A
文章編號:1001-7348(2025)04-0055-12
0 引言
2022年11月,OpenAI公司發布ChatGPT,在全球范圍內引起廣泛關注和討論。ChatGPT僅用2個月就實現用戶數量過億,而此前用戶破億最快的是抖音(TikTok),用時9個月。ChatGPT具有強大的對話能力和生成能力,能夠為用戶提供各種主題的相關信息和答案,是生成式人工智能(Artificial Intelligence Generated Contents, AIGC)在文本領域的實際應用。
AIGC是指通過人工智能生成內容,即用戶輸入一段文字,AIGC能夠給出相應回答,包括文本、圖像、音頻、視頻、代碼等。AIGC技術的核心是利用深度學習模型,實現內容創造、跨模態融合等[1]。
從產業層面來看,AIGC產業具有鮮明的科學驅動(Science-Based)和技術驅動(Technology-Based)特征。專利作為知識和技術的重要載體,在AIGC領域有著舉足輕重的作用。作為科技創新型企業,AIGC公司普遍以專利、版權手段為核心,積極布局,綜合利用多種方式保護其知識產權[2]。現有專利布局研究主要包括技術領域分析、專利地圖繪制、專利申請及許可策略等,對AIGC領先企業專利布局的研究亟待深入。
世界各國及主要經濟體都在人工智能方面作出重大戰略部署。美國擁有全球最多的AI初創企業,占全球AI初創公司的40.6%;中國緊隨其后,占18.2%[3]。伴隨著AIGC技術和產品的井噴式發展,人工智能作為引領未來的戰略性技術,在新一輪科技革命和產業變革中再次成為重要驅動力量。然而,目前有關AIGC的研究大多從技術本身、發展歷程、制度規制等方面進行闡述[4-6],對于AIGC產業進行實證分析的研究較少。因此,針對領先AIGC企業專利布局的分析有待加強,以助力本土企業及時洞悉領先企業技術專利戰略,為我國制定AIGC產業政策提供重要參考。
本文選取18家美國主要AIGC領先企業的專利布局進行分析,通過構建基于國際專利分類表(International Patent Classification, IPC)的專利布局網絡,利用復雜網絡分析方法對領先企業專利知識領域進行研究,基于專利布局知識深度、寬度、緊密程度、分離程度等指標,識別各企業核心知識領域和橋接知識領域。其次,通過機器學習的K均值(K-means)聚類算法對企業專利布局進行分類比較,進一步挖掘專利內在價值,分析和總結不同類型AIGC企業,全面刻畫美國AIGC領先企業的技術版圖,為我國AIGC行業的技術創新和深入發展提供啟示。
1 文獻回顧
1.1 生成式人工智能產業發展
生成式人工智能(AIGC)是指依靠AI大模型和AI算力訓練生成內容(中國信通院,2022),即AI通過對數據分析進行再創作,進而生成新數據,比如一篇文章、一幅畫、一段視頻等。因此,AIGC不只是依靠AI分擔或輔助工作,而是一種全新的創作或生產方式,即人工智能在大模型技術加持下,通過獨立學習和大量訓練,實現對多模態內容的理解和認知[4]。
盡管AIGC大多由初創公司進行開發,但依然需要科技巨頭和風險投資基金的深度參與。絕大部分AIGC公司都與學術界聯系緊密,主要由初創公司和學術型公司構成中堅力量,由科技巨頭進行投資。以目前公認的AIGC領域領先的3家實驗室OpenAI、DeepMind和FAIR為例,3家公司都屬于純AI研究實驗室,背后分別倚靠微軟、谷歌和Meta(Facebook)3家科技巨頭,合作方式無一例外地是科技巨頭提供數據、軟硬件和資金等支持,3家公司則負責開發人工智能算法等應用層技術。
與國外科技巨頭投資初創公司的模式不同,中國國內的AIGC項目大多由大型科技公司自行研發并搭建自己的AI生態系統。如騰訊、百度等科技公司,都基于自身技術優勢,開展AIGC技術研究。騰訊的AI實驗室基礎研究方向包括計算機視覺、語音技術、自然語言處理和機器學習,使用場景包括游戲、數字人、內容和社交AI等,技術成果已被微信、QQ、QQ音樂等上百個騰訊產品使用。百度作為國內首先投入AI研發的企業,率先推出覆蓋全場景的大模型——文心大模型,包括自然語言處理、視覺、跨模態和生物計算四大行業模型。華為的HiAI能力開放平臺則充分發揮自身硬件優勢,搭建了包含芯片能力、應用能力和服務能力于一體的智能生態系統。
具體來說,AIGC項目由三大部分構成,即算據、算力和算法[4],如圖1所示。從合作方式來看,大多是由科技巨頭提供算據和算力,初創公司提供算法。具體包括:第一,算據。AIGC的學習和創作能力是基于大量數據,由機器學習和模擬生成。巨量算據需要持續的時間投入,這恰是科技巨頭的強項,而初創公司很難具有這樣的數據積累。第二,算力。算力包括硬件和軟件兩個方面,硬件如GPU、內存等,軟件包括云計算服務平臺等。第三,算法。人工智能領域的算法、模型等核心技術是AIGC實現突破的關鍵,包括自然語言理解、神經網絡、多模態融合等技術。在AIGC項目中,算法大都由初創公司研發。這些初創公司通常擁有業界頂尖的技術專家,一些企業具有深厚的研發和學術背景,對前沿技術有著深刻的認識和感知。
1.2 AIGC專利研究
大多數科技公司都會通過申請專利保護自己的核心技術,AIGC領先企業和科技巨頭也不例外。我國在AI領域的專利數量超過美國,但整體上美國的進展更加迅猛,產品發布也很穩健。從ChatGPT的表現來看,我國的AIGC發展與美國仍然有一定差距,原因有如下幾點:一是從專利申請主體看,美國的人工智能專利以企業申請為主,尤其是獨角獸公司和學術型企業,因而技術創新更能滿足市場需求。我國則以高校申請為主,導致技術創新缺乏與市場的有機結合[7]。二是從基礎科學和技術合作兩個方面來看,我國在人工智能領域的基礎科學發展方面處于領先地位,其中,論文發表數量占據優勢,但在技術創新方面表現不佳(朱桂龍等,2019)。三是在人工智能相關的核心技術專利中,中國擁有的智能芯片技術專利數量最多,而美國擁有最多的自然語言處理技術[8]。具體來說,我國的人工智能專利以應用型技術為主,例如計算機視覺和語音識別等,無法支撐大語言模型開發;而美國的人工智能專利以基礎型技術為主,如神經網絡和深度學習等,這些基礎技術可以用于構建大語言模型。因此,從專利著手,分析和探尋美國在AIGC領域的技術布局,有助于更好地了解我國與美國在AIGC領域的差距。
1.3 專利網絡與技術布局
通過專利研究,有助于了解技術創新發展趨勢、專利布局特征以及演變規律[9-10]。目前,基于專利進行關鍵核心技術識別和預測的方式主要包括:
(1)利用專利注冊信息,例如申請人、申請量、專利類型等量化指標對前沿技術進行預測[11]。
(2)基于專利題目、摘要等具體內容,利用文本挖掘、語義識別等方法對前沿技術進行分析 [12]。
(3)基于專利引用數據,通過構建專利間引用網絡,利用網絡分析等方法,對核心技術進行判斷和預測[13]。
(4)利用專利IPC分類等,對技術主題和關鍵技術涉及的知識領域進行分析。針對專利IPC的研究主要涵蓋以下方面:第一,運用IPC分類號對技術主題進行分析。第二,利用IPC分類號出現頻次判斷領域關鍵技術。若某IPC分類號在技術專利中出現頻次較高,說明該技術類別極有可能是該領域基礎技術或關鍵技術。例如毛云瑩、陸偉[14]提出基于IPC關聯的專利技術和產業雙向分析框架,對領域內技術與產業進行關聯;向姝璇等[15]利用IPC號組合相似度,對企業潛在競爭對手進行挖掘。第三,利用IPC號構建專利知識組合網絡,不僅有助于識別關鍵核心技術,而且能夠分析一國或地區在該技術領域內的專利戰略和技術政策[16]。Bueno等[17]利用該方法對生物能源行業進行研究,通過構建生物能源行業的IPC合作網絡,對行業前沿技術進行預測;王欽等(2022)通過構建專利組合網絡圖,分析5G產業的IPC技術分布。
總體來看,現有文獻為本研究提供了堅實基礎,但尚存在進一步探索空間:第一,目前研究多集中在新能源汽車、物聯網、生物能源等相對成熟的高科技產業,對AIGC專利的分析較少。第二,有關我國人工智能的專利研究多集中于國家或省域層面,對國外領先企業專利布局的深入分析較少。特別是缺乏深入企業內部,挖掘專利間知識關聯性并對比不同企業專利布局的研究。
2 研究設計
2.1 數據來源
本文數據來自德溫特專利數據庫(Derwent Innovations Index,DII)。德溫特數據庫是文摘索引型數據庫,提供了自1963年以來的專利文獻信息,包括專利摘要、發明人、申請人、權利人、摘要、引用信息和IPC等。
本文對于領先公司的選取,主要參考《全球AIGC市場預測2022—2028年:基于公司、地區、類型和應用》(Global AIGC Market 2022 by Company, Regions, Type and Application, Forecast to 2028)[18],《人工智能生成藝術的技術開發和商業化》(AI-generated Art's Technology Development amp; Commercialisation)[19]等相關產業報告,選擇14家從事AIGC技術的美國著名中小型企業,以及在AIGC領域投入巨大且卓有成效的4家大公司,如微軟、谷歌和臉書(Meta)等致力于AIGC技術的大型IT公司,以及提供算力硬件的企業Nvidia。OpenAI未被納入是因為其是非營利性企業,并且該公司不發表論文和申請專利。樣本企業如表1所示。
2.2 國際專利分類(IPC)
利用IPC分類判斷專利涉及的知識領域。IPC根據專利所屬領域,提供完整且齊全的分類指標。本研究根據2023年3月世界知識產權組織更新的IPC目錄識別相應知識領域。
如果某專利涉及多個IPC,則認為企業在研發該成果時能夠聯系不同領域知識,整合多個領域知識,即這些知識領域之間存在聯系[20],據此展現企業專利布局,并反映企業在AIGC技術應用中的知識內容及彼此聯系。不同企業涉及的知識領域、擁有的網絡結構都不同。通過復雜網絡分析方法,對不同企業專利布局網絡進行分析、對比和總結,有助于識別不同AIGC獨角獸公司的知識構成、知識寬度和知識深度等不同特征。
2.3 數據處理與分析過程
(1)數據準備:根據樣本企業名稱,在德溫特數據庫中查詢企業專利信息并進行下載。作為用于對比的大型企業,其專利數量較多,故本文根據AI、AIGC等關鍵詞篩選專利并下載。數據包括具有唯一識別性的專利號、IPC代碼和其它相關元數據。將IPC代碼標準化為特定版本(IPC-2013),以確保數據集一致。此次共獲得AIGC相關專利859個,涉及796個IPC知識領域。
(2)網絡構建:使用共現分析法,通過鏈接、共享一個或多個IPC代碼專利構建IPC網絡。基于18家企業專利及其相關IPC,對每個樣本企業構建專利*IPC的二模矩陣,利用UCINET將矩陣轉為IPC共現的一模矩陣。同時,為進行對比,生成一個包含所有專利IPC的整體網絡。
(3)復雜網絡分析:對于生成的網絡,使用Gephi與UCINET網絡分析工具進行可視化和網絡分析。具體指標如下:
專利布局知識寬度(width):使用IPC網絡規模測量,規模越大,表示企業專利涉及的知識領域越寬泛[21]。
專利布局知識深度(depth):表示企業專利在特定知識領域的集中程度,使用網絡中心勢(network centralization)測量[22]。該指標值越大,表示企業專利越集中在某特定的IPC知識領域,企業對該知識領域越了解。具體計算公式如下:
Centralization=∑ni=1Cmax-Cin-1n-2(1)
其中,Cmax表示觀測網絡中心度最高節點的連接數,Ci為其它節點的連接數,n為網絡規模。
知識領域緊密程度(cohesion):是指企業專利知識聯系的緊密程度,數值越大,表示企業越能夠在不同知識領域間建立聯系。本文使用平均聚集系數進行測量。聚集系數(Clustering Coefficient)用于測量網絡中三元閉包(triadic closure)概率,網絡聚集系數是所有行動者鄰域密度的平均值[23]。具體計算公式如下:
CCoefficient=3×G∑ni=1ki2(2)
其中,G表示網絡中閉合的三角形個數,ki為網絡中所有非閉合的三角形數量。
知識領域分離程度(fragment):用Girven-Newman算法中的模塊度(modularity)進行測量。通過計算,網絡被分割為不同模塊或社區。具有高模塊性的網絡,其社區結構明顯,且各社區節點之間連接緊密,但社區間關系稀疏[24]。具體計算公式如下:
Modularity=12∑ijαijδCi,Cj(3)
其中,Ci和Cj分別表示節點i與j所屬社區,如果兩個節點同屬一個社區,則δ(Ci,Cj)=1。
此外,測量企業IPC網絡中各節點(知識領域)的中心位置,以確定專利布局的核心知識領域和橋接知識領域。通過比較核心知識領域與橋接知識領域的一致性,構建企業知識一致性(concurrency)程度。該指標反映企業專利戰略是聚焦于某知識領域,還是基于不同領域的知識整合。
核心知識領域使用特征向量中心性(eigenvector centrality)進行測量,該指標反映網絡節點影響力和網絡位置,具體以節點直接聯系數量表征,同時考慮相鄰節點的重要性。通過迭代計算,如果某節點被許多節點指向(這些節點也具有較高的特征向量中心性),那么該節點具有較高的特征向量中心性[25]。其計算公式如下:
Eigencentralityi=1λ∑t∈Mixt(4)
其中,i是被測量節點,M是直接相鄰的節點集合,Xt是其鄰近點的向量中心性。
橋接知識領域使用中介中心性(betweenness centrality)測量,反映該節點經過網絡中其它兩個節點最短路徑的頻率[26]。中介中心性高的知識領域連接著更多不同知識領域,這種知識橋接特性使得其可能成為下一個創新點[27]。其計算公式如下:
Betweennessi=∑nj∑nkbjk(i),j≠k≠i,jlt;k(5)
其中,i是被測量節點,j和k是其它節點,bjk(i)是連接j、k且經過i的路徑數量。
(4)K均值聚類。根據以上指標,對18家樣本企業進行聚類分析,總結其專利布局。具體方法是使用機器學習中的K均值(K-means)聚類算法,其通過迭代提供局部最優聚類結果[28]。在最優聚類數量k選擇方面,首先進行10次聚類計算,k依次從1遞增至10。根據所有結果的組內平方和(within sum of squares, WSS)、eta系數(η2 coefficient)和誤差減少比例系數(proportional reduction of error, PRE)進行判斷,其中,后兩個系數根據WSS計算得出[29]。使用軟件Stata 17.0,聚類迭代次數設置為10萬次。
3 結果分析
3.1 專利布局概況
圖2展示了18家企業知識領域構成網絡,其中,網絡節點代表具體的IPC分類,邊代表兩個IPC分類間存在聯系。節點越大,表示與其連接的IPC領域越多。本網絡共涉及796個IPC領域、6 005條邊,平均每個IPC領域與15個IPC領域連接,網絡密度為0.019,較為稀疏,按照Girven-Newman算法,可以分成50個子網絡,以不同色度標注。本文共標出10個連接數最高的IPC領域,主要涉及G06F、G06K、G06N、H04L,表明美國人工智能企業的專利布局主要集中在電數字數據處理、圖形數據讀取和呈現、數據載體標記和傳送、基于特定計算模型的計算機系統、數字信息的傳輸等知識領域。
表2列出18家公司專利網絡的基本統計指標。可以看出,邊數量變化趨勢與專利數量基本一致。平均點度反映每個IPC領域與其它領域的連接數,其中,最高的為Cogito公司(14.63),最低的為Guassian公司(2.06);網絡直徑(diameter)反映網絡中最長的測地線距離(geodesic distance),數值越大表示網絡中可達的知識領域距離較遠,其中,Google公司的網絡直徑最長(7),Appen等4家企業的直徑最短(2);網絡密度測量聯系的緊密程度,但受網絡規模影響,不同企業網絡規模差異較大,不可直接比較,這里僅列出作為參考。
3.2 單個企業專利布局情況對比
表3給出18家企業專利布局指標。在知識寬度方面,涉及知識領域最多的是DeepMind,相關知識領域達到234個,Appen涉及的知識領域最少,只有7個。在知識深度方面,最高的依然是DeepMind,其76.5%的專利涉及計算模型結構;集中度最低的是Gaussian公司,其涉及的知識領域僅占所有領域的4.6%,主要為風力驅動。在知識緊密度方面,最高的是Textio公司,其緊密度為0.97,意味著幾乎所有連接都存在閉合,即所有知識領域都互相連接。緊密程度最低的為Brighterion公司,僅為0.162,即知識領域呈現A-B-C連接,僅為16.2%存在A-C閉合,換而言之,其專利布局網絡結構較為開放(open)。在知識分離程度上,分離度最高的為Gaussian公司,達到0.867,表示其知識領域非常分散,整個網絡可分成若干子網絡。知識分離度最低的是Appen公司,僅有0.107,表示其絕大部分專利涉及的領域存在相互聯系,可以歸為一個子網絡。
3.3 AIGC企業核心知識領域與橋接知識領域
根據向量中心性計算結果,得到各公司專利布局的3個核心知識領域,具體見表4。這些領域在IPC整體網絡中位于中心,也是企業現階段最為關注的知識領域。總體來看,核心知識領域集中在G06大類,主要涉及計算、推算、計數等方面,其子類涉及信息傳遞、計算模型等,具體包括數據、程序模型、機器學習、自然語言處理、圖像識別等領域。但各公司的核心知識領域不同,例如Datagrid的核心知識領域主要集中在數據傳輸、儲存和分析等方面;Narrative Science則集中在自然語言處理技術方面。
根據中介中心性計算結果,得到各公司專利布局分值最高的3個橋接知識領域,具體見表5。其中,黑體標出的是未在核心知識領域(表4)中出現的知識領域,這類領域連接不同知識,是未來創新的可能爆發點。在由企業知識領域構成的網絡中,計算系統體系結構、學習方法(G06N-003/04、G06N-003/08)、數字信息傳輸協議、控制規程(H04L-029/06、H04L-029/08)、數據識別和表示(G06K-009/62)是排名前五的橋接知識領域,意味著AIGC領域中連接不同知識領域的是通用技術。
3.4 K均值算法專利布局聚類結果
根據K均值算法計算,組內方差、WSS及相關系數判斷如圖3所示,可以看到,在k=3時,WSS、log(WSS)、eta系數分布圖存在一個明顯拐點,eta系數表示WSS減少約30%, PRE在k=3時也達到最小值。因此,最優的聚類組數應該是3。
當k=3時,5個維度上的18家企業得分與K均值聚類矩陣結果如圖4所示。可以發現,所有變量經過標準化處理后,x軸和y軸的取值范圍都為(-2,2)。矩陣中的數字點代表企業在橫軸和縱軸上的取值,具體數字代表企業所屬聚類。其中,核心、橋接知識差異表示表4、表5中各企業向量中心性和中介中心性排名前三的知識領域不一致數量。
進一步將18家AIGC公司的聚類結果和聚類組內專利布局指標均值進行匯總。有研究根據商業模式對AI公司進行分類,具有較強直觀性和現實意義。例如可以分為AI產品/服務提供商、人工智能專業開發商、數據分析提供商和創新技術研究商[30]。根據聚類結果并參照以往研究,本文將18家企業的專利布局分為三類,具體見表6。
(1)專業玩家,如聚類1所示,這類企業的知識寬度最小,知識深度中等,知識聯系緊密,而且各領域間分離程度較低,核心知識與橋接知識基本完全一致。這些企業專注于AIGC的特定技術及產品,資源較集中,成立時間也較短,創始人多為某領域技術專家,企業專利也集中在該領域。例如,Narrative Science公司于2010年由西北大學兩位教授成立于芝加哥,公司技術聚焦于將企業海量數據自動轉換為擬人化文本輸出。
(2)大廠/先行者,如聚類2所示,本文選擇對比的4家大型企業全部屬于該聚類,這類企業知識寬度最廣,但深度最小,知識領域之間的緊密度較低,擁有比較明顯的子網絡,核心知識與橋接知識存在不一致性。這些企業多是傳統的IT、硬件巨頭,成立時間較長,主營產品雖然不是人工智能領域,但資源充足,較早廣泛地布局AIGC領域且投入多年,因此專利知識領域較為分散。主要專利策略為防御性策略,或者避免在AIGC領域出現不可預料的挑戰者。例如,谷歌公司布局人工智能,投資DeepMind公司;微軟公司投資OpenAI公司,并簽訂獨家云供應商協議,微軟的必應搜索引擎接入GTP3;Nvida除涉及傳統CPU、GPU等硬件設備外,也積極布局云分析業務。
(3)創新者,如聚類3所示,這些企業知識寬度適中,知識深度最大,專利布局聚焦于少數特定領域,同時,知識連接緊密,分離程度中等,核心知識與橋接知識顯著不一致,說明除聚焦的知識領域外,專利布局中連接了不同領域知識,屬于公司技術突破和業務擴展方向。例如,Ayasdi公司主要聚焦于拓撲數據分析技術解決方案,但其業務涉及金融、醫療、政務等多個行業,通過人工智能總結不同行業的大數據要點并提供優化建議,其專利布局則以數據處理與提取為主,并涉及不同行業知識領域。
為了更好地展現聚類中代表性企業的專利布局,選擇3家企業進行IPC網絡可視化,如圖5所示。其中,節點代表IPC分類,邊代表IPC分類在同一個專利中存在共現關系。節點越大,表示該知識領域與其它領域聯系越多;邊越粗,表示兩個領域的共現關系越顯著。不同色度表示不同子網絡,根據Girven-Newman算法可以得出,三類企業的知識領域網絡存在明顯差異。如Automated Insights屬于新創企業,主要產品為Wordsmith,產品功能比較單一,主要是將原始數據轉為人類風格多變的深度文章,其專利圍繞語法分析等展開,知識寬度較小。Google則是最早布局AIGC的大企業,其知識寬度較大,主要涉及計算、信號裝置、信息傳輸、外科診斷(G06、G08B、H04L、A61B)等多個知識領域,并且明顯分成多個子網絡,各子網絡間存在橋接知識領域聯系。Cogito公司的子網絡較少,但是知識領域間聯系較緊密,其初始業務是利用AIGC為各大公司客戶服務中心提供支持,如識別客戶語音、音量、語調和停頓等,其核心知識也集中在語音識別領域(G10L)。2018年其基于該領域服務催生新業務,如使用AIGC提供醫療情緒識別服務,知識領域擴展至信息傳輸(H04)等新領域。
4 結論與啟示
本文研究了18家美國AIGC企業的專利布局,構建了專利IPC網絡,并結合復雜網絡分析方法和K均值聚類算法,從知識寬度、知識深度、知識緊密度、知識分離程度和知識一致性程度對專利布局進行聚類。研究發現:①美國領先企業的專利布局主要集中在電子數字數據處理領域,并強調不同模態數據轉換,以此為核心,擴展相關技術至不同行業,體現了AIGC技術的通用性;②領先企業的專利布局在知識深度、寬度、緊密度、分離度和一致性程度上都存在差異,與企業業務存在較高相關性,體現了美國AIGC產業多樣化的技術路徑;③通過算法,這些企業可以鮮明地分為三類,即專業玩家、大廠/領先者和創新者,他們分別在產業中承擔不同角色。如專業玩家長期聚焦于特定技術發展,有效銜接基礎研究環節與應用研究環節;大廠/領先者知識寬度最大,知識領域涉及不同行業,提升了AIGC的通用性;創新者知識深度最大,除聚焦特定技術外,亦涉及少數新行業,拓展了AIGC技術應用深度。這意味著AIGC產業發展具有不同性質的企業,對技術的研發、應用和擴展具有重要意義。
在研究方法上本文采取K均值聚類算法,為專利價值識別與信息檢索提供了可靠依據,有助于提供新洞見、改進預測精度和增強數據理解力。具體來說,第一,該算法可以對復雜的專利數據進行降維,如K均值聚類可將專利布局分成不同簇,使相似企業歸為一組,促使專利布局更易于理解,從而有助于識別與特定領域或技術相關的核心企業,感知領域發展趨勢、技術創新水平和競爭場域。第二,K均值聚類算法有助于整理和分類專利,通過將相似的專利布局歸為一組,發現布局內在結構和關聯性。這種發現可以啟發研究人員探索新方法、新思路和新路徑,從而在創新領域提出新洞見。
基于以上發現,通過對比中美兩國AIGC產業發展,對我國AIGC產業發展提出以下建議:
從企業層面來看,未來AIGC產業要取得長遠發展,需要更多的“專業玩家”和“創新者”進行優勢互補,共同建立AIGC發展生態,形成良性循環。我國的AIGC發展由騰訊、百度、阿里巴巴、華為等大型科技公司主導,“大廠”的優勢在于資金和算據,但“大廠”的傳統業務并不是AI領域,因此在核心優勢和技術深度方面存在一定不足。通過對百度、華為等國內企業IPC專利布局的分析發現,國內企業的專利布局多集中在G06N3/04和08等領域,即機器學習方法和體系結構、電子識別等領域;囤積的專利數量較多,但商業化應用較少,特別是缺乏專業應用的企業。相比之下,作為“專業玩家”和“創新者”的初創公司則在算法方面具有天然優勢,而各類算法技術也為AIGC應用提供了底層支撐。相比美國AIGC企業的多樣化發展,我國AIGC企業則顯得模式較為單一。
從國家層面來看,不同產業擁有不同創新能力演化機制[31]。要促進AIGC產業發展,我國需充分發揮新型舉國體制優勢:結合產業特性,首先是加大人工智能基礎建設,為AIGC產業發展提供保障;其次是重點培養“大廠/先行者”,培育行業領軍企業,帶動產業整體發展[32]。在基礎建設方面,我國可以從算力、算法和數據3個方面入手,發展人工智能產業,創新云計算、大數據、超算等技術,提升計算機算力;推進人工智能算法研究和開發,培養一批高水平的人工智能算法研究人員和開發人員,加強人工智能算法創新和應用;建設更加完善的數據基礎設施,提高數據質量和管理水平。在培養“大廠/先行者”方面,可以向人工智能企業提供稅收減免、研究撥款等財政支持;實施強有力的法律法規,保護AIGC公司的知識產權;鼓勵開放式創新,通過創建網絡、建立合作關系和開展其它形式的合作,不斷拓展企業知識深度、廣度和緊密度。
因為數據和方法所限,本文還存在一些不足,希望未來能夠進一步完善:一是本文樣本企業僅包含美國AIGC領域的領先企業,未來可以進一步對比不同區域企業的專利布局;二是專利蘊含豐富的信息,未來研究可以進一步挖掘如引文、摘要、發明合作等專利信息,拓展對AIGC產業領域的認識。
參考文獻參考文獻:
[1] LIU J, YANG H, LI Q. Coverless image steganography based on neural style transfer[C]. Fourteenth International Conference on Digital Image Processing, 2022, 12342: 870-878.
[2] RAMALHO A. Intellectual property protection for AI-generated creations: Europe, United States, Australia and Japan [M].London:Routledge, 2021.
[3] VAN ROY V, VERTESY D, DAMIOLI G. AI and robotics innovation: a sectoral and geographical mapping using patent data[R].GLO Discussion Paper, 2019.
[4] 李白楊, 白云, 詹希旎,等. 人工智能生成內容(AIGC)的技術特征與形態演進 [J].圖書情報知識, 2023,40(1): 66-74.
[5] 王友發, 張茗源, 羅建強,等. 專利視角下人工智能領域技術機會分析[J].科技進步與對策, 2020, 37(4):19-26.
[6] 周貞云, 邱均平. 面向人工智能的我國知識圖譜研究的分布特點與發展趨勢 [J].情報科學, 2022, 40(1): 184-192.
[7] 王山, 陳昌兵. 中美人工智能技術創新的動態比較——基于人工智能技術創新大數據的多S曲線模型分析 [J].北京工業大學學報(社會科學版), 2023, 23(3): 54-67.
[8] 袁野, 吳超楠, 李秋瑩. 人工智能產業核心技術的國際競爭態勢分析 [J].中國電子科學研究院學報, 2020, 15(11): 1128-1138.
[9] GARZANITI N, TEKIC Z, KUKOLJ D, et al. Review of technology trends in new space missions using a patent analytics approach [J].Progress in Aerospace Sciences, 2021, 125: 100727.
[10] CHOI Y, PARK S, LEE S. Identifying emerging technologies to envision a future innovation ecosystem: a machine learning approach to patent data [J].Scientometrics, 2021, 126: 5431-5476.
[11] 喬永忠, 姚清晨. 中國授權不同性質專利技術領域布局實證研究[J].科技進步與對策, 2015, 32(24):16-20.
[12] LI X, WU Y, CHENG H, et al. Identifying technology opportunity using SAO semantic mining and outlier detection method: a case of triboelectric nanogenerator technology [J].Technological Forecasting and Social Change, 2023, 189: 122353.
[13] 王偉光, 余景年, 彭莉. 中國工業機器人產業技術研究——專利地圖視角[J].科技進步與對策, 2017, 34(7): 55-61.
[14] 毛云瑩, 陸偉. 基于IPC關聯的專利技術和產業雙向分析框架研究 [J].情報科學, 2022, 40(4): 33-39.
[15] 向姝璇, 李睿. 基于專利文獻整體相似度計算的競爭對手發現——以5G領域為例 [J].情報理論與實踐, 2021, 44(5): 100-105.
[16] CHO T S, SHIH H Y. Patent citation network analysis of core and emerging technologies in Taiwan: 1997-2008 [J].Scientometrics, 2011, 89(3): 795-811.
[17] BUENO C D S, SILVEIRA J M F J D, BUAINAIN A M, et al. Applying an IPC network to identify the bioenergy technological frontier [J].Revista Brasileira de Inovacao, 2022, 17: 259-286.
[18] GLOBAL INFO RESEARCH. Global AIGC market 2022 by company, regions, type and application, forecast to 2028[R/OL].https://marketpublishers.com/report/it-technology/other-ict-n-software/global-aigc-ai-generated-content-market-2022-by-company-regions-type-n-application-forecast-to-2028.html.
[19] BRIDGE T. AIGC series- AI-generated art's technology development amp; commercialisation[EB/OL].https://thirdbridge.com/transcripts/aigc-series-ai-generated-arts-technology-development-commercialisation.
[20] LEYDESDORFF L, KUSHNIR D, RAFOLS I. Interactive overlay maps for US patent (USPTO) data based on International Patent Classification (IPC) [J].Scientometrics, 2014, 98(3): 1583-1599.
[21] RESCH C, KOCK A. The influence of information depth and information breadth on brokers' idea newness in online maker communities [J].Research Policy, 2021, 50(8): 104142.
[22] TIRADO R, HERNANDO , AGUADED J I. The effect of centralization and cohesion on the social construction of knowledge in discussion forums [J].Interactive Learning Environments, 2015, 23(3): 293-316.
[23] GULER I, NERKAR A. The impact of global and local cohesion on innovation in the pharmaceutical industry [J].Strategic Management Journal, 2012, 33(5): 535-549.
[24] XIANG J, HU T, ZHANG Y, et al. Local modularity for community detection in complex networks [J].Physica A: Statistical Mechanics and Its Applications, 2016, 443: 451-459.
[25] BONACICH P. Some unique properties of eigenvector centrality [J].Social Networks, 2007, 29(4): 555-564.
[26] YANG Z, SHU C, GAO S, et al. The combined impact of direct and indirect ties on innovation: the moderating role of similarity in alliance subtypes [J].Journal of Product Innovation Management, 2022, 39(6): 847-870.
[27] BURT R S. Structural holes and good ideas [J].American Journal of Sociology, 2004, 110(2): 349-399.
[28] BURNEY S A, TARIQ H. K-means cluster analysis for image segmentation [J].International Journal of Computer Applications, 2014, 96(4): 1-8.
[29] MAKLES A. Stata tip 110:how to get the optimal k-means cluster solution [J].The Stata Journal, 2012, 12(2): 347-351.
[30] WEBER M, BEUTTER M, WEKING J, et al. AI startup business models: key characteristics and directions for entrepreneurship research[J].Business amp; Information Systems Engineering, 2022, 64(1): 91-109.
[31] 姚威, 胡順順. 知識轉化視角下戰略性新興產業自主創新能力演化機制研究[J].科技進步與對策, 2020, 37(4): 62-69.
[32] 姜軍, 武蘭芬. 核心技術及關鍵產業演變研究——中國專利權人的美國發明專利分析[J].科技進步與對策, 2014, 31(22): 80-83.
(責任編輯:胡俊健)
英文標題
Empirical Analysis of Patent Layout" of Leading Generative Artificial Intelligence Companies Based on Complex Network Analysis and K-means Clustering Algorithm
英文作者Gao Shanxing1, Wang Hui1, Yang Zhangbo2
英文作者單位(1.School of Management, Xi'an Jiaotong University;
2.School of Humanities and Social Science, Xi'an Jiaotong University, Xi'an 710049, China)
英文摘要Abstract:The emergence of artificial intelligence-generated contents (AIGC) technology has posed great challenges to the economy and society. Most of the existing research discusses aspects of technical regulation and development history; few empirical studies are conducted on the patent layout of AIGC leading enterprises. This paper aims to direct its attention towards the comprehensive examination and scrutiny of the patent layout of enterprises at the forefront of AIGC in the United States. To accomplish this objective, this paper selects 14 leading startups and 4 technology giants in the field of AIGC in the United States to analyze their patent IPC network. Intricate network analysis methods and K-means clustering algorithms are employed.
It is found that the patent layout of AIGC emerging enterprises in the United States focuses on technical fields such as electrical digital data processing, graphic data reading and presentation. Patent layout is analyzed by knowledge width, knowledge depth, knowledge cohesion, knowledge fragment level and knowledge consistency clustering. Through this meticulous study, a profound understanding of the patent layout is achieved, leading to the identification of three distinct categories: professional players, technology giants and leaders, and innovators. Professional players refer to AIGC companies that have a focused and specialized patent layout, indicating a deep understanding and expertise in specific technical fields. Technology giants and leaders are AIGC enterprises that have established themselves as industry leaders, with a patent layout that reflects their dominance and influence in the field. Innovators are AIGC startups that demonstrate a unique and novel approach in their patent layout, showcasing their ability to introduce new ideas and technologies to the AIGC industry. These categories provide invaluable insights into the diverse strategies implemented by the aforementioned enterprises.
Furthermore, an in-depth exploration of the patent core knowledge areas and bridging knowledge areas is conducted, ultimately revealing the focal points of knowledge and the areas of expertise within AIGC companies. Core knowledge refers to the essential and fundamental knowledge areas that are central to the patent layout of AIGC enterprises. These knowledge areas represent the key technical fields in which the companies focus their patent filings. Bridging knowledge areas, on the other hand, are the knowledge areas that connect or bridge different technical fields within the patent layout of AIGC enterprises. These areas indicate the interdisciplinary nature of the companies' patent filings and their ability to integrate knowledge from multiple domains. The identification of core knowledge areas and bridging knowledge areas helps in understanding the strategic focus and innovation capabilities of AIGC companies, as well as the potential for cross-pollination of ideas and technologies across different technical fields.
The paper's pivotal contribution lies within its empirical analysis of the patent layout, which presents a wealth of valuable insights into the intricate clustering patterns and specialized knowledge areas of the leading enterprises in the field of AIGC. Firstly, it provides empirical insights into the patent layout of leading AIGC enterprises. Secondly, it employs complex network analysis methods and K-means clustering algorithms in machine learning to examine the patent IPC network of AIGC companies, offering a novel approach to investigating their patent layouts. Thirdly, it categorizes the patent layout for AIGC enterprises into three distinct groups: professional players, technology giants and leaders, and innovators. These categories are determined based on factors such as knowledge width, depth, cohesion, fragment level, and consistency clustering. Fourthly, it identifies the core knowledge areas and bridging knowledge areas within the patent layouts of AIGC companies, thereby shedding light on their technical focus, interdisciplinary integration, and innovation capabilities.
In summary, this analysis of the layout of patent networks for companies specializing in AIGC encompass enables a comprehensive understanding of the technical focus and specialization of AIGC companies based on the arrangement of their patents. Then it allows for the identification of prominent industry players and technology leaders within the AIGC sector based on the structure of their patent layouts, and facilitates an assessment of the innovation capabilities and novel approaches employed by AIGC companies, as reflected in their patent layouts. Furthermore, this analysis suggests policy measures for the development of the AIGC industry in China, with a specific focus on algorithm, computing power, and data.
英文關鍵詞Key Words:Artificial Intelligence Generated Contents; AIGC; Complex Network;Patent Layout; K-means