999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于專利文本挖掘的細粒度技術機會分析

2023-11-21 09:48:50吳柯燁孫建軍謝紫悅
情報學報 2023年10期
關鍵詞:計算機模型

吳柯燁,孫建軍,謝紫悅

(1. 南京大學信息管理學院,南京 210023;2. 南京大學數據智能與交叉創新實驗室,南京 210023)

0 引 言

隨著新一輪的科技革命與產業變革席卷全球,科技已逐漸成為評估國家綜合實力、促進社會經濟轉型、提升企業競爭優勢的關鍵變量。及時洞悉技術發展變化并快速識別潛在機會,不僅是各級科研單位實現自主創新,攻克核心技術壁壘,國家提升科技競爭力的必經之路;更是技術密集型企業高效管理生產活動,合理調配研發資源,提高科技成果轉化率的先決條件。因此,技術機會分析對于技術創新活動的開展,具有重大的戰略指導意義。

為清晰識別不同場景下的技術機會,滿足企業的異質性需求,技術機會分析需要對于復雜技術創新系統進行細粒度拆解。鑒于此,現有研究通常以關鍵詞形式細粒度地表征領域知識,并采用技術主題或SAO (subject-action-object) 語義結構表示技術機會[1]。然而,此類方法主要依賴于專家預先定義的領域專業詞表來確定領域關鍵詞[2],知識體系較為固化,難以匹配技術的動態發展;而技術機會又具備較強的時效性,應精準適配當下的環境變遷與技術發展。因此,技術機會分析的前提工作是實現自動化構建細粒度領域知識網絡并探究其演化路徑。只有在清晰掌握領域知識全貌、明確技術生命周期的基礎上,才能精準且高效地開展技術機會識別和分析。

另外,在學科交叉與技術融合的大背景下,知識重組儼然成為了技術機會的核心特征[3]。通過整合來自不同領域的知識,可以有效解決復雜技術難題,推動技術發展。組合性和遞歸性作為技術的本質特征,使得技術需依賴于自身結構完成自循環式的進化[4],因此,現有研究通常從知識挖掘與組合的角度開展定量化技術機會分析[5]。鏈路預測法通過測算網絡中每一對節點產生鏈接可能性的鏈路預測法,不僅能夠最細粒度地直觀體現知識元素間關聯性,還可以靈活地應用于大規模的圖結構數據,是技術機會分析的主流方法之一。然而,該類研究中所采用的鏈路預測指標較為傳統,一方面對圖結構信息的捕獲能力有限,另一方面又依賴于固定的前提假設,只抽取片面的節點或圖結構特征,難以整合技術機會分析所需要的多方面信息,預測精度已達瓶頸。

鑒于此,本文以專利文本為數據源,利用文本挖掘、網絡分析、鏈路預測、深度學習等多種方法構建了一套細粒度技術機會分析框架。該分析框架的優勢主要包括:①基于關鍵詞的多維度文本特征構建了特定領域下的技術知識網絡,克服領域知識表征不準確、不全面等問題。在此基礎上開展的技術演化分析有助于把握技術發展脈絡,為技術機會識別提供方向指引。②將BERT (bidirectional encoder representations from transformers) 預訓練向量模型與圖自編碼器模型有機結合,充分捕獲并融合了詞語間共現關系特征及自身語義特征,顯著提升知識網絡鏈路預測精度,為技術機會分析產出高質量候選集。③基于產業鏈結構和鏈路預測結果,佐以多源技術發展報告,模塊化產出并驗證細粒度的技術機會。

1 研究綜述

根據Lee[6]總結的技術預測研究框架,現有技術機會分析可大致劃分為4 個步驟:數據收集、技術知識測度、技術機會挖掘以及技術機會評估。其中,專利作為技術研發的成果文件,最直接地反映了技術本身的發展現狀和演化過程,是技術機會分析最主要的數據來源[7-8]。由于研究對象和研究場景的差異,各研究在技術知識測度、技術機會挖掘等環節存在異同,但也呈現一定的研究特點和趨勢。

1.1 技術知識測度單元日趨細化

技術機會被認為是“技術進步可能性的集合”,而這種可能性往往蘊藏于細微的技術變化之中[9]。傳統的技術機會分析方法通常采用粗粒度的IPC(international patent classification) 分類號或單篇專利表征技術知識,無法從微觀層面對技術細節變化實施監測。譬如,Kim 等[10]基于異常值檢測方法在專利引文網絡中識別出離群專利,并從中析出未來技術創新方向。然而,離群專利所涵蓋的技術知識十分廣泛,難以表征確切的技術機會方向,可解釋性較弱。

隨著自然語言處理的進步和發展,基于專利文本內容的細粒度技術知識挖掘與技術測度受到大多數學者的青睞。以主題[11]、關鍵詞[1]和關鍵詞組[12]等作為技術知識的最基本表示單元,為技術機會分析提供語義特征,更精準地揭示技術內容和細節。Tshitoyan 等[12]基于領域關鍵詞表利用word2vec 模型訓練出材料科學領域的關鍵詞向量,以達到超前預測材料功能性應用的目的;Feng 等[2]利用TF-IDF(term frequency-inverse document frequency) 指標并佐以專家知識識別特定領域下的技術創新元素。

然而,此類測度方式通常初始化于固化的領域知識,無法匹配技術的多維度、跨領域發展與應用,難以動態揭示領域全貌,且僅依據單一的詞語特征,如詞頻或TF-IDF 指標,抽取的領域關鍵詞較為片面,無法精準捕獲新興知識元素。鑒于此,本文集成了TF-IDF、RAKE (rapid automatic keyword extraction) 和BERT 這3 種關鍵詞抽取算法,綜合考量詞語的詞頻、語法結構以及語義特征,從細粒度與自動化兩個方面入手,實現對技術領域知識的抽取與知識網絡的組織,有效避免了固有領域知識的參與。

1.2 技術機會挖掘注重知識關聯性

現有研究中機會挖掘方法未形成統一范式,呈現百花齊放的態勢,主要包含技術空白法、形態分析法、異常值檢測法、科學與技術關聯性法、鏈路預測法等主流機會挖掘方法[13-14]。根據分析方法的不同,各研究涉及的技術機會分析環節上存在較為明顯的差異,如表1 所示。

表1 不同機會挖掘方法所涉及的知識測度與機會表示差異

雖然技術機會表征形式不一,但是其本質均是揭示技術知識之間的關聯性。在針對技術空白的相關研究中,龔惠群等[16]、Lee 等[17]以領域關鍵詞作為技術信息載體,采用主成分分析法降維并生成專利地圖,將地圖中的空白區域定義為所研究領域的技術機會。在探索科學與技術關聯性的相關研究中,黃魯成等[22]通過主題聚類和SAO 結構相似度從語義層面細粒度地揭示科學與技術間主題差異性,將此種差異性解釋為可能出現的技術機會。由此可見,大多數學者是以知識元素間的組合關聯或差異歸納來表達技術機會的主要特征[14],從知識挖掘和組合的角度開展技術機會分析[5]。

鏈接預測作為上述方法中最能直接體現知識之間關聯性的技術機會挖掘方法,主要從特定領域的技術知識網絡出發,通過鏈路預測指標計算網絡中未來最有可能產生鏈接的“IPC 對”[25]或“關鍵詞對”[12]。但是,此類研究中所采取的鏈路預測指標均需要具備較強的前提假設和應用場景。譬如,AA(Adamic-Adar)[26]指標在社交網絡中具有很強的解釋性,認為兩個節點的共同領域中度小的節點貢獻大于度大的節點,即若兩位用戶同時處在某一位小博主的朋友圈內,則可能產生較高的鏈接概率;反之,若兩位用戶同時是一位名人的粉絲,則其相互認識的概率較小。但知識元素間的共現關系可能并不會受到“明星”節點的影響,一切與研究熱點相關的知識元素都可能在未來產生聯動,促成相關技術的創新與發展,因此,該指標并不適用于技術知識網絡。

圖神經網絡方法的興起為解決上述問題提供了契機,該方法有效避免了預定義節點間相似度的計算方式,通過卷積操作學習圖結構信息,并利用節點向量表征有效地融合了節點自身特征與圖結構特征,為鏈路預測任務提供豐富信息。其中,圖自編碼器[27]作為該類方法的開篇之作,在各領域中有著廣泛的應用。譬如,自編碼器模型在生物領域中常被用于預測人類基因與疾病之間關聯性,經驗證其具備較高的準確性和魯棒性[28-29]。在社交網絡中,圖自編碼器也已經成為商品推薦、消息推送等任務的主流推薦算法[30]。另外,在交通領域,學者們基于圖自編碼器對交通流量[31]、交通事故[32]和交通需求等實現了智能化的時空預測[33]。類似地,本文將圖自編碼器模型應用于技術機會挖掘,在大規模的技術知識網絡中識別出未來可能產生鏈接的知識元素對,為后續技術機會分析提供高質量的候選集。

2 研究框架及方法

結合現有研究特點和存在問題,本文設計了如圖1 所示的基于專利文本挖掘的細粒度技術機會分析框架,以關鍵詞或詞組的形式細粒度表征技術知識,并采用關鍵詞或詞組的組合關系表征技術機會,凸顯技術機會的知識關聯特性。該分析框架主要包含知識網絡構建及演化分析、知識元素鏈路預測以及技術機會評估與篩選3 個模塊。下文將著重介紹技術知識網絡構建方法和知識元素鏈路預測方法。

圖1 基于專利文本挖掘的細粒度技術機會分析框架

2.1 技術知識網絡構建及演化分析方法

在知識網絡構建方面,本文秉持知識表征的細粒度原則,基于“關鍵詞與詞組是知識最基本的載體單位”這一假設[34],融合關鍵詞的多維度特征,自動化抽取具有技術表征能力的知識元素并構建網絡。如圖2 所示,知識元素的具體抽取流程依賴于3 種不同的關鍵詞抽取算法,分別捕獲專利文本中詞語的詞頻、語法和語義特征。

圖2 知識元素抽取方法

首先,采用TF-IDF 算法抽取專利文本中的高頻關鍵字,將其作為知識元素的必要組成部分。其次,通過RAKE 模型捕獲詞語之間的共現關系,識別出占據核心語法位置的n-gram 關鍵詞組[35]。再其次,利用BERT 預訓練模型和向量相似度,計算得出與文本內容最契合的關鍵短語[36]。需要注意的是,上述兩組關鍵詞中都必須包含TF-IDF 候選字,以保證領域專指性。最后,合并RAKE 與BERT 模型的抽取結果,即可得到同時具備高詞頻、動名詞性以及核心語義等多個關鍵特征的技術知識元素。在構建網絡連邊方面,為避免知識元素間的語義重復性,將網絡中連邊由簡單的共現關系改為僅關聯非語義重復的知識元素對,即兩個知識元素沒有相同的TF-IDF 關鍵字才可以建立鏈接。例如,“training sample”和“training set”中都出現training,存在語義重復,即使兩者出現在同一篇專利文獻中彼此也不會建立鏈接。

另外,為確保技術機會分析的時效價值,本文利用復雜網絡分析法對知識網絡結構進行深層次剖析,結合時間序列窺探技術的演化歷程,以此指引技術機會的分析方向。具體來說,先利用知識網絡的節點數和連邊數揭示目標技術的橫縱向發展趨勢,再利用網絡密度、平均路徑長度、聚類系數等網絡結構指標,深度挖掘知識元素間的交融模式,探析領域內部知識討論熱度與成熟度,以此確定各歷史時期目標技術的發展形態及其所處的生命周期。

2.2 技術機會挖掘與評估方法

在技術演化的指引下,本文采用圖神經網絡鏈路預測方法挖掘各生命周期下所蘊藏的細粒度技術機會,利用變分圖自編碼器[27](variational graph auto-encoder,VGAE)及其變體圖自編碼器(graph auto-encoder,GAE)模型開展知識網絡的鏈路預測任務,將知識元素之間未來可能產生的鏈接關系作為技術機會。圖3 描述了基于變分圖自編碼器的技術機會挖掘流程。

圖3 基于變分圖自編碼器的知識元素鏈路預測流程

如圖3 所示,VGAE 由兩層圖卷積神經網絡編碼器與解碼器組成。編碼器的工作思路是通過學習T時間下可觀測到的知識網絡結構,獲取各節點向量分布的均值μ和方差σ,并據此從標準高斯分布中采樣,生成新的節點向量Z。解碼器則是利用節點向量Z內積得到節點間鏈路預測存在的可能性,通過sigmod 激活函數將鏈接可能性歸一至0 和1 之間,以實現知識網絡的重構和還原,生成預測的T+1 時間下知識網絡。在此過程中,模型通過反向傳播不斷更新模型參數(均值μ和方差σ),將真實網絡與預測網絡之間的交叉熵和KL (Kullback-Leibler)散度損失值最小化。最終,預測所得的T+1 知識網絡中鏈路增加的部分被認為是可能出現的技術機會。另外,GAE 相較于VGAE 簡化了編碼步驟,只用了一層圖神經網絡結構就得到節點的向量分布Z,提高了鏈路預測的計算效率。

為驗證細粒度技術機會挖掘的可靠性,首先,本文基于歷史真實數據采用AUC(area under curve)和平均準確率(average precision,AP)指標對鏈路預測結果進行直接的定量評估,與其他算法進行對比,驗證圖自編碼器方法的穩定性與魯棒性。其次,綜合多源技術發展報告對所挖掘出來的技術機會進行二次識別和評估。在此過程中,本文將特定領域的技術機會按照產業鏈結構進行劃分,針對鏈路預測值(連邊可能性)排序靠前的多對知識元素及其組合關系在技術發展報告中進行循證,以確定特定領域在各產業鏈環節上的技術機會。

3 計算機視覺領域實證研究

為探究本文所提出分析框架的實際效用,選取典型交叉技術領域——計算機視覺作為研究對象,開展實證研究。其主要原因有兩點:一是在融合發展范式的驅動下,交叉領域存在大量潛在的技術發展機遇,如人工智能、生物信息學等,是各國各企業技術競爭的焦點,對該類領域的技術機會分析具有實際意義;二是交叉領域的技術覆蓋面廣泛,本身存在多學科參與、多場景應用的特征,其技術機會出現的方向和維度具有不確定性,能夠有效檢驗本文所提出的分析框架的魯棒性。

3.1 知識網絡構建及技術演化分析

3.1.1 知識網絡構建

在數據收集方面,本文基于中國人工智能產業發展聯盟(Artificial Intelligence Industry Alliance,AIIA)所制定的計算機視覺專利檢索式[37],從德文特數據庫中共抽取82535 條相關專利。鑒于專利的公開具有滯后期,與2020 年(10632 件) 相比,2021 年的專利數據量(1420 件)有斷崖式下降,故下文只采用截至2020 年的專利數據開展技術機會挖掘。

根據2.1 節網絡構建方法,知識元素抽取結果按照重要性排序,如表2 所示。可以看出,TF-IDF能夠識別具有領域特征的單個關鍵字,如“image”“iris”“pixel”等大部分詞語屬于計算機視覺領域常用的專業詞匯。RAKE 在抽取長短語上效果較為突出,但是普遍存在長度過長的情況,例如,長度為3 的關鍵詞短語“fingerprint identification device”的重要性得分比“fingerprint identification”高,但其涵蓋語義卻是后者的子集。結合文獻[38-39]與上述驗證結果,本文將KeyBERT 模型中的n設置為2抽取關鍵詞,將所得結果與前兩種算法取交集,得到1457 個知識元素。最后,根據其間的229573 條鏈路關系構建知識網絡。

表2 知識元素抽取結果

3.1.2 知識網絡演化分析

為確保微觀層面技術機會分析遵循宏觀技術演化歷程,本節基于全局網絡指標詳細探究計算機視覺技術的發展脈絡。從網絡節點增量來看,技術知識網絡規模逐年增大,增長速率呈現由緩到急再逐步進入平緩的態勢,如圖4 所示。其中,1990 年以前,計算機視覺技術知識網絡擴張速率處于較低的水平,證明該階段技術處于萌芽期,受到的關注較少;自1990 年以來,計算機視覺領域的知識元素數量激增,且10 年內均保持較高的增長水平,這意味著自20 世紀90 年代起計算機視覺技術開始進入技術生長期。

圖4 知識網絡逐年新增節點數量

如圖5 所示,從網絡中連邊增量來看,對于步入生長期的計算機視覺技術而言,雖然其知識網絡中新鏈接與舊鏈接均呈現冪指數增長態勢,但是新鏈接(灰色柱狀)占所有新增鏈接(黑色柱狀)的比例(圖5 中曲線)逐漸變小,尤其從2016 年開始,該比例大幅減小。這表明計算機視覺領域在經歷了1990—2015 年這數十載的飛速發展后,領域內創新水平逐步變緩,新興技術知識受到較少關注,開發者主要聚焦于已形成的技術方向,計算機視覺技術開始進入成熟期。

圖5 知識網絡逐年新增連邊數量

結合其他全局網絡指標可以進一步明確計算機視覺所處的技術生命周期,如圖6 所示。其中,1990—2000 年,網絡聚類系數和平均最短距離指標浮動明顯,圖密度卻保持在5%以下,這表明雖然該階段知識網絡規模急劇擴張,但節點間的共現關系沒有被完全挖掘,領域內知識交融程度并不充分,仍存在諸多值得學者探索的可能性,可以將其視作技術生長初期。2000—2010 年,圖密度指標開始呈現上升趨勢,而聚類系數與平均最短距離的上升和下降態勢逐步趨于穩定,這表明技術的縱向挖掘正逐步追趕上技術橫向擴張的步伐,計算機視覺正處在橫縱向齊頭并進的關鍵階段,可以將其視作技術生長中期。2010 年以后,隨著深度學習助力計算機技術的二次騰飛,圖密度指標呈現激增態勢,尤其在2015 年以后更為明顯,這表明計算機視覺技術的研發方向更集中于現有技術方向的縱向研究與細化,計算機視覺技術正由技術生長期逐步過渡到技術成熟期,可以將其視作技術生長后期。

圖6 全局網絡指標變化趨勢

3.2 知識元素鏈路預測

3.2.1 數據集劃分

為驗證變分圖自編碼器(VGAE) 及其變體(GAE)對于不同歷史形態下技術機會挖掘的魯棒性,本文根據知識網絡演化結論,將計算機視覺網絡按照時間拆分為4 個動態子網絡,并按照時間順序切分各子網絡的訓練集、驗證集和測試集,以此監督模型學習并驗證預測結果,劃分結果如表3 所示。具體來看,為體現技術機會所具備時間特性,將某個動態子網絡中特定時間節點t年的網絡快照作為模型訓練集,將t+1 年網絡快照中的新增鏈路作為測試集和驗證集監督模型學習。例如,對于1980—1990 年的動態子網絡而言,訓練集由子網絡中所有311 個元素在1980—1989 年產生的1206 條鏈接構成,驗證集和測試集則是由1990 年網絡中相較于1989 年網絡中新建立的513 條鏈接隨機平均分配得到。

表3 動態子網絡的數據集劃分

此種數據集劃分方式,一方面,可以消除動態技術知識網絡中頻繁建立的舊鏈接所導致前后知識網絡中鏈路的天然重復性,保證了模型的泛化能力;另一方面,技術知識網絡中舊鏈接的反復出現只能表示現有方向的深入研發,而新鏈接的初次建立則意味著技術機會的產生。因此,此種劃分方式更關注新鏈接產生,具有實際技術意義,有助于提升模型預測結果效用。

3.2.2 參數設置

圖自編碼器的鏈路預測性能在很大程度上取決于模型超參數的設置,需要通過反復實驗加以確定。為節省計算資源,本文將學習率和隨機丟棄率參照文獻[40]分別固定為0.01 和0.05,只優化數據迭代輪次(Epoch,模型學習整個數據集的輪次),以使鏈路預測性能達到最佳。另外,鑒于本文所構建的訓練集和驗證集存在時間先后性,在訓練集上具備較高的預測性能并不意味著在驗證集上同樣具有良好的泛化效果。因此選取訓練集的Epoch-Loss曲線和驗證集的Epoch-AUC 曲線共同確定數據迭代輪次Epoch,以1980—1990 年動態子網絡為例,繪制上述兩種曲線,如圖7 和圖8 所示。

圖7 1980—1990年動態子網絡訓練集Epoch-Loss曲線

圖8 1980—1990年動態子網絡驗證集Epoch-AUC曲線

由圖7 和圖8 可知,訓練集的損失值在前10 個Epoch 內驟減后趨于緩慢減小,意味著模型已經學習到大部分訓練集數據的特征;驗證集則在近50個Epoch 左右趨于相對穩定狀態,在250 個Epoch 后出現波動下降趨勢,表明此時模型出現過擬合情況。此外,GAE 和VGAE 在擬合數據過程中Loss 曲線和AUC 曲線趨勢幾乎保持一致,因此,將1980—1990年中的GAE 和VGAE 的Epoch 均設置為50。同樣地,對各動態子網絡的GAE 和VGAE 模型均進行Epoch優化后,重新訓練模型并進行后續的結果評估。

此外,為探究知識元素的語義屬性是否會對技術機會挖掘能力產生影響。本文基于預訓練向量模型BERT-Base①https://github.com/google-research/bert抽取各節點的語義特征,將節點特征矩陣作為模型輸入參數X。

3.2.3 模型評估

確定模型超參數后,將圖自編碼器與其他鏈路預測算法進行對比分析,以驗證不同歷史時期圖自編碼器鏈路預測算法的優越性與魯棒性。在評價指標方面,本文采用鏈路預測任務中兩種最常見的AUC 和AP 指標,定量評估各模型預測性能的優略。其中,AUC 是模型的綜合評價指標,其主要計算測試集鏈路得分值高于不存在鏈路得分值的概率,概率越高表示模型魯棒性越好。準確率考量預測得分最高的L條邊是否準確,計算前L條邊存在于測試集中的占比,平均準確率(AP)則是將不同L取值下的精確率取均值而得。在基線方法方面,除了傳統的鏈路預測指標,如CN(common neighborhood)、AA 和PA(preferential attachment)等,本文還選取了同屬于圖表示學習的node2vec 算法。最終預測結果如表4 所示。

表4 不同時期技術知識網絡下各模型鏈接預測結果對比

結果顯示,VGAE 及其變體GAE 在各歷史時期的技術知識網絡鏈路預測任務中都表現出卓越的性能,尤其是針對近20 年來的知識網絡,圖自編碼器比最優的傳統鏈路預測指標在AUC 和AP 兩個指標上均有近10 個百分點的提升,可達到90%左右。這表明圖自編碼器能夠高效捕獲大規模、高密度網絡下的鏈路信息。另外,GAE 模型和VGAE 模型比node2vec 具有明顯優勢,但變分操作并沒有顯著提升圖自編碼器的預測性能,這證明只采用簡單的兩層圖卷積神經網絡結構就可以達到精準預測鏈路的目的。在1980—2000 年,計算機視覺知識網絡密度較低,可捕獲的網絡結構特征較少,此時節點語義特征的輸入顯著提高了GAE 模型和VGAE 模型的預測準確率,表明知識元素的語義特征同樣也是識別技術機會的關鍵特征。

綜上所述,本文所構建的圖自編碼器模型能夠適應于不同歷史形態下知識元素的關聯預測,預測結果可以作為潛在的技術機會以備進一步篩選和分析。

3.3 技術機會評估與篩選

為進一步明確并細化未來計算機視覺領域潛在的技術機會,本節針對2010—2020 年的技術知識子網絡中的鏈路預測結果進行二次驗證,結合多源技術報告解讀并篩選未來有發展前景的技術機會。根據中國移動研究院于2020 年發布的《計算機視覺研究報告》[41](以下簡稱《報告》),計算機視覺產業鏈可分為上游感知層、中游計算層和下游應用算法層。基于此,本節采用人工方式對細粒度的技術組合關系做進一步篩選,并映射至各產業鏈環節中。

3.3.1 上游感知層技術機會

上游感知層的主要任務是圖像數據的采集,主要涉及硬件設備,如工業視覺中的工業攝像頭、視覺傳感器等。鏈路預測結果中與硬件設備相關的知識元素及其組合關系如圖9 所示。可以看出,上游硬件設備主要圍繞移動終端和智能設備進行技術研發,集成了多種傳感器設備,具體包含紅外傳感器、光學傳感器、觸摸屏幕、數碼相機和深度相機等。其中,“multiple cameras”一詞較好地概括了上游設備的未來發展趨勢,即能夠捕獲的信息日益增多,包含除圖片特征外的指紋、虹膜等多種特征。房建武[42]認為,環境感知是計算機視覺發展的基礎,他預測多傳感信息魯棒融合方向是環境感知未來的主要手段。由此可得出,計算機視覺的上游感知層技術機會主要聚焦于“多傳感信息融合”方向。

3.3.2 中游計算層技術機會

位于計算機視覺產業鏈中游的計算層包含了芯片、深度學習框架和計算平臺等相關技術,主要涉及圖片傳輸、處理和識別等任務。基于此,抽取相關知識元素及其鏈路預測結果,如圖10 所示。可以看出,中游計算層是以人工智能算法為核心,主要負責圖像處理以及上下游數據的存儲與傳輸任務。具體的技術機會可以總結為以下3 個方面。

圖10 產業鏈中游知識元素及鏈路關系

(1)算法模型優化。神經網絡、深度學習和機器學習等方法被廣泛認為是計算機視覺技術突破的重要推動力。由圖10 可知,“deep learning”“machine learning”和“neural network”等詞語占據較為核心的位置,這預示著人工智能類算法在計算機視覺上的應用性能還可能進一步突破。盧湖川在RACV (Recent Advances on Computer Vision) 2019會議上也提到這一點,其認為雖然深度學習模型實現了特征抽取的自動化,但是壓縮、裁剪和優化神經網絡結構以更好地抽取特征、準確識別是未來技術發展的重點之一[43]。

(2)高質量傳輸。位于圖10 邊緣位置的知識元素多涉及圖片傳輸任務,如“wireless transmission”“network communication” 和“wireless communication”等。這些知識元素與“mobile communication”“recognition module”的組合關系表明圖片傳輸與處理技術正逐漸集成于移動硬件設備。由此可知,隨著5G 技術的崛起,圖片等音視頻信息在智能設備端的高質量傳輸可以作為未來發展重點之一。

(3)云平臺架構。圖10 中還有部分知識元素與大數據計算能力相關。“big data”“cloud computing”和“cloud server”與“power supply”的組合關系預示著計算機視覺技術走向產業化需要強大的算力支撐,未來借助云端服務進行高效能的推理和計算是各計算機視覺企業的必爭之地。這也與《報告》不謀而合,其中指出計算機視覺核心技術中包含計算平臺技術,即用于企業生產的智能云平臺架構技術。

3.3.3 下游應用層技術機會

下游應用層是計算機視覺技術產生實際價值的關鍵一環。根據3.1 節技術演化相關結論,計算機視覺技術正步入技術成熟期的前期,該層應是未來該領域技術的發展重點之一。具體如圖11 所示,基于鏈路預測排序抽取相關知識元素及其鏈路關系,發現該網絡中包含的應用場景較為多元化,表明計算機視覺技術已經成功落地于多種下游任務,初步印證了技術演化結論。主要的5 個技術方向闡述如下。

圖11 產業鏈下游知識元素及鏈路關系

(1)生物特征識別。由圖11 中的多個核心節點可知,計算機視覺由最初的人臉識別進一步擴展到了“motion recognition”“gesture recognition” 和“expression recognition”等多個細粒度的人體特征識別任務上,并且與先進的算法模型相組合形成該應用場景未來可能的技術突破點。《報告》中印證了這一點,人臉識別、姿態估計、行為識別、目標追蹤等是熱門的視覺算法技術。

(2)多模態視頻理解。圖11 中部分節點聚焦“video”一詞,表明基于視頻和音頻的識別任務可能是未來計算機視覺技術的主要應用任務,其中還涉及“image understanding”“sign language”等具體的視頻理解任務。中國計算機學會計算機視覺專委會專家在RACV 2019 會議上的討論證實了這一點,他們認為視頻中的多模態識別和理解任務是計算機視覺未來主要攻克的難關[43]。

(3) 3D 交互感知。“virtual reality”和“augment reality”在下游網絡中也占據較核心的位置,與算法模型“neural network”和硬件設備“electronical device”等多個知識元素產生聯動。這表明增強現實與神經網絡的有機結合以及虛擬現實與電子設備的集成開發程度隨著AIGC(artificial intelligence generated content)技術突破將會出現進一步加深。中國信息通信研究院等發布的《虛擬(增強)現實白皮書》中同樣提及感知交互是計算機視覺技術的未來主要方向之一[44]。

(4) 智慧安防。圖11 中還有部分節點涉及“alarm”一詞,表明計算機視覺技術繼續下沉可應用于安保層面,如“fingerprint identification”應用于“alarm device”等。《報告》中指出,“智慧城市”是計算機視覺技術面向的主要行業需求,其中就包含“智慧安防”方向。

(5) 自動駕駛。“vehicle information”“vehicle control”與“face recognition”的組合關系是典型的計算機視覺與智慧駕駛交叉產物,預示著汽車控制技術與人臉識別、動作識別技術是自動駕駛技術的未來研發重點。中國信息通信研究院發布的《全球自動駕駛戰略與政策觀察——自動駕駛開啟商業化元年》中同樣指出,2021 是自動駕駛的元年,未來計算機視覺技術在自動駕駛領域將持續輸出動能[45]。

4 結 語

4.1 結論與討論

本文以專利文本作為研究數據,提出了基于專利文本挖掘的細粒度技術機會分析框架,主要完成了知識網絡構建及演化分析、知識元素鏈路預測以及技術機會評估與篩選3 個研究子任務。具體研究結論如下。

第一,集成多種關鍵抽取算法的知識網絡構建方法,實現了自動化捕獲詞語的多維度特征,有效減少了專家知識介入,能夠細粒度展示領域知識全貌,為機會挖掘提供數據基礎。第二,基于全局網絡指標的知識網絡演化分析,能夠從宏觀層面把握技術發展態勢,明確技術生命周期,指導技術機會分析。第三,將圖自編碼器模型與BERT 模型成功應用于技術機會挖掘中,顯著提升了知識元素鏈路預測的準確性和可解釋性。不僅論證了圖神經網絡方法的圖結構特征抽取能力和特征融合能力能夠有效突破傳統鏈路預測指標的精度瓶頸,還驗證了技術機會的產生不僅依托技術知識網絡結構,還受到知識元素語義信息的影響。第四,結合鏈路預測結果與多源技術發展報告,根據產業鏈結構將計算機視覺技術機會進一步識別歸納為9 個主要的技術方向,如圖12 所示。其中,下游技術應用機會是未來計算機視覺領域技術研發的重心,與演化分析中計算機視覺技術步入成熟初期的結論相互呼應。

圖12 計算機視覺各產生鏈技術機會分布

4.2 貢獻與展望

從理論層面來看,本文提出的分析框架基于微觀視角拓寬了技術機會分析的研究思路。一方面,從核心詞匯出發自動化挖掘領域知識并識別技術演化路徑,強調技術機會分析應遵循技術發展趨勢,并向精細化、語義化方向發展;另一方面,文本挖掘與圖神經網絡方法的有機結合,有效解決了過往研究對專家知識的過度依賴以及技術機會挖掘準確率低下等問題。從實踐層面來看,技術管理部門有必要在深入理解技術內容并結合技術趨勢前提下,及時發現潛在的細粒度技術機會,組織力量精準研發,實現技術自主創新。另外,本文還為計算機視覺技術相關的科研機構、企業及個人提供可靠的技術機會情報,有助于利益相關主體實現合理的資源布局和管理決策。

本文尚存在些許不足之處,需要進一步完善與細化。首先,在組織技術知識網絡方面,本文只考慮了單一的共現關系作為網絡鏈路,在一定程度上忽略了知識元素之間的語法與語用關系。未來需要挖掘多層級的知識網絡鏈路關系,將技術機會分析維度進一步拆分細化。其次,在知識元素鏈路預測方面,節點語義特征是直接依賴于BERT 預訓練向量模型自動生成,不具備領域專指性。未來可以利用語言模型基于領域文本自行訓練知識元素詞向量,以表征其在特定語境下的深層次內涵,這有可能進一步提升鏈路預測性能和技術機會分析準確性。

猜你喜歡
計算機模型
一半模型
計算機操作系統
重要模型『一線三等角』
穿裙子的“計算機”
趣味(數學)(2020年9期)2020-06-09 05:35:08
重尾非線性自回歸模型自加權M-估計的漸近分布
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
計算機多媒體技術應用初探
科技傳播(2019年22期)2020-01-14 03:06:30
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产成人AV大片大片在线播放 | 国产视频欧美| 欧洲极品无码一区二区三区| 亚洲最猛黑人xxxx黑人猛交 | 国产经典三级在线| 国产欧美日韩综合一区在线播放| 久久大香香蕉国产免费网站| a毛片免费看| 国产午夜一级淫片| 玖玖精品视频在线观看| 中日无码在线观看| 国产又爽又黄无遮挡免费观看| 狠狠干综合| 麻豆国产在线不卡一区二区| 婷婷激情亚洲| 国产一级小视频| 成人日韩精品| 亚洲中文字幕无码mv| 2024av在线无码中文最新| 亚洲第一极品精品无码| 成年午夜精品久久精品| 在线中文字幕网| 亚洲成人动漫在线| 欧美成人A视频| 91av国产在线| 伊人91在线| 福利视频一区| 在线国产欧美| 啪啪永久免费av| 精品自窥自偷在线看| 一区二区理伦视频| 欧美亚洲一区二区三区在线| 四虎亚洲精品| 国产jizz| 深爱婷婷激情网| 欧美亚洲日韩中文| 国产成人在线小视频| 欧美精品xx| 欧美不卡在线视频| 国产成人亚洲日韩欧美电影| 欧亚日韩Av| 国产杨幂丝袜av在线播放| 国产乱子伦无码精品小说| 丁香婷婷激情网| 97亚洲色综久久精品| 亚洲国产亚综合在线区| 激情综合图区| 国产精品亚洲片在线va| 日韩欧美网址| 国产综合无码一区二区色蜜蜜| 国产精品自拍露脸视频 | 亚洲激情区| 国产粉嫩粉嫩的18在线播放91| 日韩免费中文字幕| 无码综合天天久久综合网| 在线无码九区| 538国产在线| 亚洲天堂首页| 日韩A∨精品日韩精品无码| 亚洲区欧美区| 精品午夜国产福利观看| 毛片免费网址| 日韩国产黄色网站| 亚洲av中文无码乱人伦在线r| 欧美亚洲网| 久久精品无码中文字幕| 日本免费福利视频| 国产欧美网站| 国产靠逼视频| 天堂va亚洲va欧美va国产| 99久久国产综合精品2023| 国产精品微拍| 精品久久香蕉国产线看观看gif| 国产精品欧美日本韩免费一区二区三区不卡 | 一本二本三本不卡无码| 色网站在线免费观看| 国产欧美视频在线| 尤物午夜福利视频| 日韩午夜福利在线观看| 久久窝窝国产精品午夜看片| 久久99精品国产麻豆宅宅| 成人午夜久久|