999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF和SGTM模型的標準技術地圖構建及實證研究

2023-02-03 13:33:18修乙丹鄭素麗王鶴諼
標準科學 2023年10期

修乙丹 鄭素麗 王鶴諼

關鍵詞:標準技術地圖,TF-IDF,SGTM,V2X

DOI編碼:10.3969/j.issn.1674-5698.2023.10.002

0 引言

隨著第四次工業革命的推進和數字經濟的加速發展,標準作為產業技術基礎和國家治理工具的作用更為突出,各國紛紛加快了關鍵領域的標準布局。2022年2月,歐盟委員會首次發布歐盟層面的標準化戰略[1],重點關注彈性、綠色和數字化等領域的標準化戰略需求,試圖重塑其標準“先行者”地位。2023年5月,美國白宮發布《美國關鍵和新興技術的國家標準戰略》[2],旨在通過對關鍵和新興技術國際標準的制定,進一步強化美國在這些領域的創新和競爭力。在此背景下,如何對關鍵領域的技術標準布局進行有效的跟蹤、分析和研判,以更好地應對日益激烈的標準競爭挑戰成為一個重要的研究課題。

標準是通過標準化活動,按照規定的程序協商一致制定,為各種活動或其結果提供規則、指南或特性,供共同使用和重復使用的文件[3]。標準文獻作為標準信息最有效的載體,往往包含了名稱、起草人、起草單位、術語定義、應用范圍、技術指標等內容,可以全面反映所在領域的標準布局和發展方向[4]。因而,近年來標準文獻的分析成為標準化領域的一個研究熱點。不少學者針對特定行業或領域的標準起草人[5]、起草單位[6]、技術領域[7]、地域分布[8]等展開分析,部分學者利用社會網絡分析方法對起草人合作網絡進行了初步的探索[9],還有一些學者利用大數據方法對標準關鍵詞等內容進行了可視化呈現[10-12]。上述研究豐富了我們對于標準信息的理解和利用,然而以上研究主要是針對淺層次的結構化文獻信息的分析,并沒有對包含核心技術內容的標準文件本身進行深入挖掘,因此對標準所規定的技術內容的解釋是極為有限的,難以滿足我們對國內外標準技術布局的分析需求。

事實上,標準文本包含了豐富的技術信息,然而這些信息本身不是以包裝好的形式呈現的,需要通過一定的技術手段挖掘后才能加以識別應用。近年來,文本挖掘技術如:文本分詞、摘要提取、主題識別、信息地圖繪制等快速發展[13, 14]。這些基于文本的處理技術可以針對數量大、高維空間中的數據,批量挖掘并概括大量隱藏在冗長文本內部的潛在信息[15 ],有效地進行技術趨勢分析和技術領域的劃分,在科學計量、專利計量等領域得到了廣泛的應用[16]。然而,目前利用文本挖掘方法來呈現技術標準信息的研究還很少,筆者檢索到的僅有 Jeong& Yoon和吳菲菲等的研究。Jeong & Yoon在對標準和專利文本數據進行挖掘的基礎上來識別潛在的標準必要專利[17 ],吳菲菲等則通過對標準文本的挖掘識別標準技術空白[18]。上述研究將文本挖掘技術引入標準文本領域,豐富了標準化領域的研究方法。然而,上述研究的重點均聚焦在特定技術標準空白點的識別上,而沒有對整個技術標準構成和布局進行有效呈現。

基于上述背景,本文嘗試將文本挖掘方法和知識地圖繪制的思路引入標準化領域,提出一種基于TF-IDF關鍵詞提取和SGTM模型的標準技術地圖構建方法,并以V2X技術為例進行實證應用。研究結果顯示,該方法不僅可以全面系統地呈現技術標準分布地圖,識別主要的技術標準研發方向,還可以通過密度信息將標準研發的重點進行可視化展示,從而為產業和企業標準布局提供理論依據和實踐指導。

1 基于TF-IDF和SGTM模型的標準技術地圖構建方法

1.1 總體研究框架

本研究從標準文本信息入手,通過TF-IDF關鍵詞提取和SGTM方法實現標準關鍵信息的挖掘和映射,具體包括標準文本收集、關鍵詞提取、標準-關鍵詞矩陣構建、標準技術地圖繪制和分析5 個步驟(如圖1所示):(1)依據研究領域選定標準數據庫,構建檢索表達式收集技術標準文本。為了提高文本挖掘分析結果的可靠性,對標準文本數據進行清洗,剔除相關度較低的文本。由于一項標準通常涉及若干不同的主題,根據涉及的技術主題不同對標準文本進行分割。(2)利用TF-IDF算法結合領域專家判斷提取關鍵詞。(3)構造詞(關鍵詞)-篇(標準文本)矩陣以表示標準文本信息,作為下一步標準地圖的輸入信息。(4)繪制標準地圖。通過SGTM實現多維標準數據在二維地圖空間的映射,利用S GT M的聚類功能對標準地圖分布進行有效展示,通過標準密度信息識別標準熱點和空白點。(5)通過SGTM的逆映射函數來完成標準熱點和空白點解釋,系統分析標準技術發展趨勢。

1.2 主要研究方法

(1)基于TF-IDF的關鍵詞提取方法

T F-IDF(ter m frequency-inverse documentfrequency)是一種基于概率統計文本的方法,通過分析每個文本的詞頻-逆文檔頻率來衡量一個詞語的權重,是信息檢索與數據挖掘的常用加權技術[19]。在數據集中,某一字詞的重要性隨著其在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降,若該字詞僅在少數文檔中出現,且該詞在文檔中被頻繁使用,則能很好地代表文檔的主題。TF-IDF的計算公式為:

其中N 是語料庫D 的文檔總數,分母是包含術語 t 的文檔數量,IDF會降低常用詞語的權重,增加文檔集中很少使用詞語的權重。借助TF-IDF算法可得到某一領域標準技術初步的關鍵詞集合,在此基礎上結合領域專家判斷從而確定關鍵詞列表。

(2)基于SGTM的標準地圖可視化與聚類方法

由于關鍵詞矩陣構成的是高維稀疏空間,我們需要從眾多關鍵詞中求出那些對分類最有效的特征,從而實現特征空間維數的壓縮,這個過程被稱之為特征提取,也稱降維。目前的降維方法一般包括線性和非線性兩類:線性降維算法主要有主成分分析(PCA)、多維標度法(MDS)及獨立成分分析(ICA);非線性降維算法主要有自組織映射網絡(SOM), 生成拓撲映射(GTM), 自編碼神經網絡(ANN)和線性混合模型(MLM)等。其中GTM(Generative Topographic Mapping)方法作為一種新的降維方法[20],具有存在全局損失函數、收斂性確定、參數自動調整等優點[18],成為近幾年學者們研究的熱點。

GTM可以將多維數據空間映射到低維潛在空間,這個過程通過徑向基函數神經網絡來實現。圖2為二維潛變量空間與三維數據的映射示意圖,左邊的二維潛變量數據通過非線性函數y(x;w) 映射至右邊三維數據空間上。GTM算法可以依據高維實際數據與反應點之間的依賴關系進行基于潛在空間到數據空間之間的映射變換,根據文檔分散分布的關鍵詞向量,構建潛在變量分類的數據節點,生成的每個數據節點都能根據其特征進行映射,反映原始數據的概率密度,因而可以繪制包含關鍵詞密度的標準技術分布地圖。此外,GTM的逆向映射功能可以實現反向解釋專利地圖的功能。通過反向繪圖功能將地圖中的不同位置還原成原始的關鍵字矢量,可以對標準地圖進行客觀而準確的解釋,因此本文選定GTM方法作為標準地圖繪制的基本工具。

然而,在一般的GT M映射地圖上相鄰網格點之間的技術距離是隨機分布的,雖然我們可以通過逆向映射函數對每一個網格點進行逐一核驗,但很難對地圖的整體分布結果進行有效的分析和解釋。為了克服這一問題,我們借鑒Kaneko的思路將GTM方法與聚類方法進行融合[21],形成SGT M(Sparse Generative Topographic Mapping)方法,從而同時實現數據可視化和聚類的目的。SGTM的工作原理如下:

其中d是當前聚類的簇數。

可以看出,在原始的GTM算法中每個網格點的權重是恒定的,而在SGTM中修改了圖上每個節點對應的正態分布的權重,且每個網格點的權重都是可變的。SGTM為原始GTM算法增加了一些自由度,使其能夠解決自組織映射(SOM)遇到的各種問題。此外,SGTM模型通過基于貝葉斯信息準則(BIC)來優化確定適當數量的聚類,使其具有更強的解釋力??偟膩碚f,SGTM可以在可視化數據的同時對數據進行聚類,提供了一種更高效的方法來分析數據。

2 V2X標準技術地圖實證分析

2.1 研究樣本與數據處理

為了驗證該方法的有效性,我們擬選取一個關鍵技術領域進行驗證。根據研究目的,研究樣本的選擇應滿足以下兩個條件:(1)該領域應為關鍵或新興技術領域,標準布局對產業發展存在重要影響;(2)該領域標準技術發展迅速,形成了大量的標準信息,傳統的人工手段難以對文本信息進行有效解讀和判斷。車用無線通信技術(Vehicle toEverything,V2X)是將車輛與一切事物相連接的新一代信息通信技術,其中V代表車輛,X代表任何與車交互信息的對象,X主要包含車、人、交通路側基礎設施和網絡。V2X技術可以提高駕駛安全性、減少擁堵、提高交通效率、提供車載娛樂信息等,是實現城市交通系統智能化、構建新型智慧城市的核心要素[7, 22, 23]。世界各地圍繞V2X的技術研究和標準制定進行得如火如荼,以期搶占未來發展制高點。因此,本研究以V2X相關的標準為樣本進行研究。

3GPP是當前V2X國際標準制定的主要機構,本文從3GPP獲取相關標準信息和文檔。首先,通過關鍵詞和主題檢索的方式獲得相關標準文件308項。其次,考慮到每一個標準存在多個不同版本以及草案信息,本文對標準文件進行了去重處理:以標準號對相關信息進行合并,只納入已經發布的標準文件,同一標準號以最新發布日期為準,最終得到有效標準文件42項。由于一個標準文本可能涉及多個技術主題,本文依據各章節內容對下載的標準文檔進行文本分割,共得到技術主題文本497項。

完成文本分割的標準技術主題文檔中包含許多與技術無關的詞語,需要對其進行預處理:首先,刪除如:日期、連接詞、網址、數字等符號,進行英文字母大小寫的轉換;其次,還原詞語的詞性,并根據設置的固定詞組和同義詞進行歸一化處理;最后,刪除停用詞,提高數據的可靠性。接下來使用TF-IDF算法選取TF-IDF值大于0.1的名詞詞語,結合領域技術專家意見篩選出63個最具解釋力的關鍵詞,見表1。

利用上一步確定的63個關鍵詞構建二進制表達的詞-篇矩陣。當某標準主題文檔包含所確定的關鍵詞時,該矩陣中關鍵詞對應向量元素賦值為1,否則賦為0。得到的詞篇矩陣見表2。

2.2 V2X標準地圖繪制

在輸入“標準文本-關鍵詞”特征矩陣之后,通過定義模型的5個超參數生成標準技術地圖,包括網格節點數、高斯基函數個數、每個高斯基函數的方差、EM算法的λ值和SGTM模型的訓練迭代次數。由于不同的參數設置會極大地影響可視化結果,本研究使用靈敏度分析以及EM算法確定參數的最優選擇。最終確定使用10×10的網絡方格作為潛在變量的映射點,使用36個徑向高斯基函數,每個基函數的方差設置為2-1,權重正則化系數為0.001,訓練周期設置為500次,使用的軟件工具為Python。圖3顯示了不同聚類個數的BIC值,我們可以看到當聚類個數為5時出現了明顯的拐點,因而將聚類個數設置為5個。生成的結果如圖4所示,標準文本對應的點可能歸屬于不同的技術領域,用不同深淺表示;空白區域即為標準空白點,表示未有與之對應的標準文本存在。

為了更為準確地分析標準布局情況,本文根據映射關系進一步計算了標準地圖上每一個位置的標準密度信息,以氣泡圖的形式予以呈現,結果如圖5所示。圖形的大小代表該位置標準分布的多少,氣泡越大所對應的標準越多,氣泡越小所對應的標準越少,還有58個空白點代表著截至目前這些位置上仍沒有相應標準出現。

2.3 結果分析

在上一節中,我們用SGTM方法繪制出了已有的技術標準熱點和標準空白點分布情況。為了深入分析標準布局,我們需要將每個位置所在的矢量空間反向映射到原始數據空間,進而對標準布局的內容進行有效解讀。由于算法逆向映射的結果為關鍵詞的向量表示,所以還需要將向量的數值與設置的閾值相比較,參照已有文獻的做法本研究設置閾值為0.3,最終得出每一個矢量空間所對特征的關鍵詞組合,在此基礎上對標準布局現狀進行分析。

(1)V2X領域標準布局分析

V2X是以車輛為主體,依靠與車、人、網、基礎設施的通信網絡互聯實現互聯互通、信息共享,進而達到保障交通安全、拓展智能服務等實現智慧交通解決方案的目標。從標準地圖發現,目前V2X標準制定大致分布在5類主題,其中類別1、2、3代表的標準文本占所有文本的94.2%(如圖6所示),構成了當前V2X標準的主體。

類別1包含的標準文本主要是面向V2X服務的架構增強研究,該類標準占文本總量的34. 21%。這一類標準針對PC5接口定義了全新的幀結構、資源調度和數據重傳方式,支持單播、組播和廣播3種模式;在Uu口引入了V2X通信切片、邊緣計算、QoS預測等特性,從而能夠滿足車聯網低時延、高可靠和大帶寬等需求,并且可以在增強移動寬帶(eMBB)和高可靠低時延(URLLC)場景實現ToC向ToB的業務拓展。類別2的標準主要規定了基于LTE支持的V2X道路通信服務。具體又分為安全與非安全兩類:與安全相關V2X的應用場景包括各等級的自動駕駛、前向碰撞預警、協同自適應巡航控制、緊急制動、車輛排隊、通過基礎設施提供道路安全服務等,而非安全相關的V2X場景包括移動高數據速率娛樂、移動熱點/辦公室/家庭、動態數字地圖更新等。因而這一類標準對于V2X的各類服務要求做出了較為全面的規定,在標準文本中占比約為32.8%。類別3包括的標準主要是UE之間以及UE和V2X應用服務器之間的應用通信服務支持,用以解決支持行人感知車輛、基礎設施及應用服務器的用戶設備之間的通信問題,規定了UE在用于V2X服務時的應用層支持的協議,該類別文本比例在27%左右。上述3類標準搭建了V2X的核心協議規范和技術要求,為V2X的產業化落地搭建了較為堅實的基礎。

隨著V2X技術的演進、應用場景的豐富和部署的完善,V2X在智能網聯汽車和自動駕駛中將發揮更多的協同作用,逐步實現網聯協同決策與控制。因而,類別4主要針對的是基于5G技術的增強功能以及在增強場景中的應用規范問題,如:Sidelink增強、Sidelink中繼增強、LTE V2X與NR V2X共存等;類別5規定了VAE支持的高效V2P通信服務,VAE層可以通過整合V2P的應用服務要求,并使通信流量模式與PC5 QoS設置和AS層配置保持一致,從而為支持V2P應用提供支持功能??傮w而言,這兩類標準包含的相關標準文本較少,未來仍有很大的標準制定空間。

(2)V2X潛在標準機會分析

在技術發展過程中,往往存在著不同領域的技術開發進度和標準制定的不平衡性,從技術創新的角度來看標準空白點在一定程度上隱含著標準技術進步的方向。挖掘出這些標準空白信息有助于我們識別技術機會,把握技術創新的方向,為未來的標準技術開發提供一定的參考。我們可以通過逆向映射確定標準空白點代表的關鍵詞組合,結果見表3所示。以空白點1為例,它所對應的關鍵詞為Network, AVP, V2X, Link, Service, RSU,Entity, V2X Services, LTE, Control, QOS, Message,Resources, Carrier, V2X Application, UEs, Vehicle等,因而代表的是一個“基于LT E的U E與V2 I、V2P、V2V等設備間的網絡通信服務”的標準機會,其他技術空白可以按照類似的原理進行判斷。當然,這些關鍵詞組合可行性如何,是否需要進行前瞻性的布局需要領域專家共同參與加以研判。

綜合而言,根據空白點對應關鍵詞可以發現,V2X技術標準網絡設備支持、用戶應用服務、信號接收、位置信息更新等領域仍存在較多技術空白。目前,車聯網產業正在進入以行業實際應用需求和市場發展為牽引進行小規模部署與應用實踐的新階段,大量增強型應用場景對基于V2X的車路協同決策提出了更高的要求,可以瞄準產業需求和標準空白,加快推動重點V2X產業技術的研發和標準制定。

3 結論與建議

借助 TF-IDF和SGTM方法,本文提出了一套基于標準文本信息構建標準技術地圖的方法。該方法從技術角度分析標準化活動和布局,通過文本挖掘和可視化工具繪制出某一技術領域的標準技術地圖,為標準化戰略、技術研發和產業技術競爭等創新決策提供科學依據。基于V2X技術的實證研究發現:在V2X領域3GPP已經制定出了較為完備的技術規范,這些技術規范分布在基于LTE技術的服務要求和傳輸層支持、與用戶設備相關的通信規范和V2X服務網絡協議等領域。而基于5G技術的增強功能以及在增強場景中的應用規范問題相關標準雖有出現,但總體數量較少,未來還有較大的完善空間。另外,標準地圖上的58個標準空白點為我們提示了標準開發的潛在方向,從空白點所對應的關鍵詞可以看出主要包括道路、行人及基礎設施等智能化UE的搭載,基于5G技術系統的V2X增強功能以及應用規范等領域。

上述研究驗證了本文所提出的研究框架具有可行性,同時對V2X標準布局的研究結果為我們提出如下啟示:(1)3GPP的V2X基礎協議規范已經較為成熟,但在UE間通信支持、高精度地圖更新、信息傳輸增強、用戶應用服務等領域還有較多空白點。近年來我國在《國家車聯網產業標準體系建設指南(智能網聯汽車)》的指導下,協同推進LT EV2X全協議棧標準制修訂,完成了覆蓋總體要求、接入層、網絡層、應用層等各個環節的技術標準規范制定。未來可結合國際標準空白點,選擇我國已具備較好基礎的重點標準推向國際,進一步提升國際話語權和影響力。(2)整體而言,針對V2X增強業務場景的標準尚在研究階段,由于無線通信技術的演進節奏明顯快于垂直行業的部署周期,導致場景需求和技術開發推進力度不一,一定程度上阻礙了標準的開發。下一步需要汽車、交通、公安和通信等行業通力協作,從技術開發和市場需求兩方面綜合考慮V2X的技術成熟度和部署可行性,加快對增強場景的標準研制。

本文是利用標準文本信息進行深度挖掘和可視化呈現的初步嘗試,一定程度上可以彌補當前研究僅針對淺層結構化信息進行統計分析的不足。未來的研究可以向兩個方向進一步探索:(1)本文提出的標準技術地圖構建方法可以根據分析目的進一步拓展和改進,形成不同側重點的標準地圖。比如:我們可以在本文基礎上構建標準起草人-關鍵詞矩陣,從競爭主體的視角形成標準競爭地圖,更為直觀地揭示標準競爭態勢。(2)當前研究僅從標準文本本身挖掘標準布局信息,未來可以考慮將標準和專利、科學論文等多源信息納入統一的研究框架,從而對未來的技術發展趨勢和標準布局態勢進行更為準確的判斷。

主站蜘蛛池模板: 成人精品视频一区二区在线| 亚洲婷婷在线视频| 亚洲天堂精品在线| 国内精品视频| 人妻中文字幕无码久久一区| 97se亚洲综合| 四虎国产成人免费观看| 国产亚洲高清视频| 亚洲av色吊丝无码| 亚洲日本一本dvd高清| 天天激情综合| 尤物成AV人片在线观看| 国产毛片高清一级国语| 国产亚洲精| 三级视频中文字幕| 噜噜噜久久| 国产色伊人| 色老二精品视频在线观看| 亚洲成在人线av品善网好看| 久久美女精品国产精品亚洲| 国产99在线| 在线另类稀缺国产呦| 四虎影视无码永久免费观看| 午夜国产精品视频黄| 国产亚洲成AⅤ人片在线观看| 欧美性精品| 国产成人精品一区二区不卡| 久久国产精品国产自线拍| 日本午夜影院| 国产真实乱子伦精品视手机观看 | 免费在线一区| 热99精品视频| 美女扒开下面流白浆在线试听| 国产精品流白浆在线观看| 国产香蕉在线视频| 18黑白丝水手服自慰喷水网站| 99精品视频九九精品| 国产熟女一级毛片| 精品国产自在在线在线观看| 国产午夜福利亚洲第一| 国产成人h在线观看网站站| 亚洲a级毛片| 国产黑丝一区| 日本一区中文字幕最新在线| 一区二区影院| 狠狠躁天天躁夜夜躁婷婷| 精品福利视频导航| 综合久久五月天| 午夜啪啪网| 精品免费在线视频| 欧美中文字幕在线播放| 国产理论最新国产精品视频| 这里只有精品在线| 在线网站18禁| 青青青国产免费线在| 欧美成人综合视频| 免费 国产 无码久久久| 91综合色区亚洲熟妇p| 亚洲午夜福利精品无码不卡 | 九九久久99精品| 无码视频国产精品一区二区| 波多野结衣一二三| 成人福利在线视频| 久久免费成人| 国产高潮流白浆视频| 亚洲综合国产一区二区三区| 宅男噜噜噜66国产在线观看| 久久免费视频6| 亚洲人成在线免费观看| 91精品国产情侣高潮露脸| 亚洲欧美日韩久久精品| 99一级毛片| 午夜a视频| 国产精品视频导航| 日韩国产精品无码一区二区三区| 成人精品免费视频| 97视频免费在线观看| 国产区成人精品视频| 香蕉在线视频网站| 亚洲高清中文字幕在线看不卡| 欧美精品一区在线看| 丁香婷婷综合激情|