999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上市公司數據資產披露對企業績效的影響研究

2025-04-01 00:00:00劉廣威趙若琦王成龍周恒張鵬年
上海經濟 2025年1期

[摘要] 隨著數字化時代的到來,數據資產成為企業價值創造的關鍵因素。本研究采用了定量分析的方法,首先利用文本分析技術中的TF-IDF方法來量化上市公司的數據資產規模,然后通過對比分析數據資產規模與企業財務指標之間的關系,評估數據資產對企業績效的影響。研究發現,數據資產與企業績效之間存在顯著的正向關系,而這一正向促進關系是通過企業創新能力中介效應實現的。本文研究不僅在學術上為理解數據資產對企業財務績效影響提供了新的視角和實證證據,也為實踐者在如何有效管理和利用數據資產以提升企業價值和績效提供了指導。

[關鍵詞] 數據資產;企業績效;文本分析;TF-IDF

[中圖分類號] F249.2" [文獻標識碼]A" "[文章編號]1000-4211(2025)01-0008-23

一、引言

在數字經濟時代背景下,數據資產已經成為企業增強競爭力、提升價值創造能力的關鍵資源。隨著信息技術的飛速發展,企業獲取、處理和分析數據的能力日益增強,使得數據資產在促進業務創新、優化運營效率、提高決策質量等方面發揮著越來越重要的作用。財政部于2023年8月發布的《企業數據資源相關會計處理暫行規定》是對這一趨勢的正式回應(國務院公報,2023)。該規定自2024年1月1日起正式施行,明確要求上市公司需在財務報表中披露按企業會計準則確認為無形資產或存貨等資產類別的數據資源。這一政策變動標志著數據資產在企業財務管理和會計準則中的重要地位正式得到認可和強化,同時也提出了新的挑戰:如何在財務報表中準確衡量和披露數據資產。

在新規定發布之前,大多數企業對數據資產的報告基于自愿原則,僅有少數視數據資產為核心競爭力的企業在其財務報告中提及相關信息。提高一個新類目披露的規范性、合理性以及最終會計制度的制定往往需要從該制度所依存的法律環境、制度形式、制度內容等諸多方面進行考察(劉玉廷等,2001)。這種狀況反映出,在全面實施新規定之前,尋找一種合適的方式來衡量企業的數據資產具有重要的研究價值和實踐意義。

從理論和實踐的角度看,數據資產的衡量和評估面臨著多重挑戰。首先,數據資產與傳統的物理資產在性質上存在顯著差異,而即使將其認定為無形資產也會和傳統的無形資產有所不同,如易復制性高、價值隨時間變化等特點,這些特性使得傳統的資產評估方法難以直接應用于數據資產。朱繼軍等(2024)認為數據資產的價值會因為處理和分析顯著變化,很有可能造成資產虛增和漏報。其次,數據資產的價值往往與其使用方式和使用環境密切相關,即相同的數據在不同的應用場景中可能具有截然不同的價值。此外,數據資產的價值實現過程涉及數據的收集、存儲、處理、分析和應用等多個環節,每個環節的效率和效果都會直接影響到數據資產的最終價值。

基于以上背景,本研究提出采用文本分析方法來衡量數據資產的價值。文本分析,尤其是基于自然語言處理(NLP)的技術,能夠從大量非結構化的文本數據中提取有價值的信息和知識,為數據資產的價值評估提供了新的可能性。特別是,通過運用TF-IDF(Term Frequency-Inverse Document Frequency)等文本挖掘技術,可以有效地量化數據資產中的關鍵信息,并評估其對企業績效的潛在影響。此外,結合機器學習等先進的數據分析技術,可以進一步深化對數據資產價值形成機制的理解,為企業提供更為精準的數據資產管理和利用策略。

二、文獻綜述與指標構建

(一)文獻綜述

在中國經濟高速發展的背景下,數據已經成為創新和競爭的新引擎。隨著“互聯網+”戰略的實施和數字化轉型的加速,數據資產的概念應運而生,逐漸成為企業最重要的無形資產之一。在傳統的資產分類中,物質資產長期占據主導地位,然而,在數字經濟的浪潮中,數據資產因其獨特的價值創造能力受到了政府、企業以及投資者的廣泛關注。在此背景下,企業需要重新審視和優化其數據資產的管理策略,確保數據資產的有效利用和合規披露,以抓住數字經濟時代的新機遇。同時,這一變化也為研究者提供了新的研究方向,即探討數據資產管理和利用對企業績效及其在資本市場上表現的影響,從而為理解數據資產的經濟價值和管理實踐提供新的視角和實證證據。因此,本文從數據資產的定義和形成、數據資產的衡量方法和數據資產的三個角度梳理相關文獻。

1.數據資產的定義和形成

對于數據資產的定義,目前學術界已經有了很廣泛的討論,不同的學者從不同的角度闡述了什么樣的資產可以認作數據資產。許憲春等(2022)認為,數據資產是指擁有應用場景且在生產過程中被反復或連續使用一年以上的數據。能被視作資產的數據,一定是生產資產,相應的支出會作為固定資本形成直接對 GDP 產生影響,從而反映出數據作為關鍵生產要素對經濟增長的貢獻。關于數據資產形成過程的研究有很多,比如美國經濟分析局研究員Rassier資產的界定和形成過程進行了詳細闡述,他認為數據資產的形成一般需要經過數據收集、數據存儲、數據處理和數據應用。中外關于數字資產的研究也有不同程度的進展,中西方數據價值化的研究存在差異,而朱秀梅等(2023)統計梳理了在2022年關于數據價值化的250篇的英文文獻和117篇中文文獻,這也表明數據資產已經成為學術研究熱門的話題。當然在數據資產形成中,研究數據生產過程中的“數據價值鏈”,為中國企業數據資產的統計和核算提供了理論依據和方法支撐也是非常有意義的(許憲春等,2022)。其次,羅玫等(2023)認為要解決數據資產問題,除了首先關注數據自身特征對確認原則和計量方法的影響之外,更要創新出資產負債表理論的研究觀念及研究范式以適應新的經濟發展階段。當然,隨著消費者大數據在商業界中越來越多地被使用,會計準則可能需要進行修訂以充分展示一個組織的真實估值。審計人員將需要保證客戶的內部控制能夠充分防止其消費者數據集中的不準確或重復條目,這對于提供準確的估值至關重要,因為重復的數據條目可能會夸大用于決定企業消費者數據估值的估值(Boehrns B E.2021)。馬克衛等(2023)對各種數據資產估值方法的比較,包括基礎的成本法公允價值法貼現法,另外還額外比較了實物期權法、成分分析、博弈法、廣告收入法、支付意愿法、機器學習法未來應用在數據資產估值的可行性分析。Moody等(1999)分別比較了數據價值衡量的方法,從不同的角度闡述了效用評價法、市場價值法和歷史成本法在進行數據信息價值衡量適用的情形。李紅光等(2023)研究了數據資產化過程中的資產形成機制、價格形成機制和信用形成機制,提出數據資產在信息增信和風險補償增信方面均可為數據要素型企業提供新機制。龔強等(2022)基于不完全契約理論,對數據交易的機制設計問題進行系統理論分析。研究發現,數據的“可用不可見”是突破“數據流通”與“數據安全”悖論的關鍵。“可用不可見”不僅是數據交易技術的變革,更是交易模式的創新。相比于數據所有權交易,數據使用權交易能夠更有效地提升數據采集激勵,實現數據要素的高水平積累,充分發揮數據價值,從而佐證數據資產入表的合理性以及其對經濟高質量發展的作用。數據在處理中尤其要注意特別是重要數據、敏感數據的出境流動時,有很大的可能性會產生合規性風險(滕明明,2024)。

2.數據資產的衡量方法

研究數據資產是衡量方法非常具有前景的研究方向,文本分析就是一種非常好的能夠鑒別特征的方法(Figueiredo F,et al.2011)。而與數據資產聯系最為密切且研究較為成熟的是數字化。如Huixiang等(2022)采用文本挖掘方法從企業年報中提取與數字化相關的關鍵詞,并根據提取結果建立堅實的數字化指標。Srinivasan等(2023)基于數字詞匯披露構建一個數字術語詞庫,根據數字活動的代理變量提及次數進行分組得到量化分數(0/1/2/3/4)。武常岐等(2022)基于上市公司年報文本進行文本分析和詞頻統計,詞頻作為衡量企業數字化轉型水平的代理指標,對詞典涵蓋的詞語進行搜索、匹配和詞頻計數構建企業數字化轉型的指標,研究了其對企業高質量發展的促進作用。Lu等(2023)通過問卷調查的方法獲得數據的相關變量,發現其與托賓Q之間存在顯著的正相關關系。劉景江等(2023)將機器學習與傳統計量經濟學相結合有助于做出更加精準的因果推斷,機器學習能夠在模式發現這一理論構建的關鍵步驟中發揮重要作用。Li(2010)用機器學習的方法對于公司公告中的文本進行分析,發現文本內容和公司收益呈正相關。李健等(2023)通過主觀搜集關鍵詞的方式,根據詞在年報中出現的詞頻量化企業數據資產,考察了數據資產對創新投入的影響及其機制。王勇等(2022)從流量博弈的視角出發,基于電子商務平臺得出了流量數據的最優定價,揭示了商品基本屬性、流量轉化率以及成本等因素對最優數據定價的影響機制。徐翔等(2023)以研發競爭作為研究視角,研究了數據要素如何影響企業創新,其在研究過程中用到以行業分類作為依據劃分,很好地區分出數字經濟型企業并得出良好的回歸結果。

3.數據資產的相關研究

目前,國內外已經有較多關于以數據資產作為核心解釋變量進行研究。Wamba等(2017)認為數據資源會影響公司未來的盈利能力,并通過促進更準確地反映數據資產價值來提高財務報告的質量;Feng等(2022)討論了亞馬遜、臉書、騰訊和沃爾瑪如何利用大數據為自己的業務創造價值,然后討論了為什么將大數據視為無形資產是有意義的;陸岷峰等(2023)指出企業數據資產有助于提升企業的產能利用率。機制檢驗分析發現,提高產品市場份額、抑制管理層跟風投資、提升資源配置效率、助力企業轉型升級是企業數據資產提升企業產能利用率的重要途徑。進一步研究發現,企業數據資產還能通過提升企業產能利用率來改善企業業績和提升企業未來價值。路征等(2023)發現企業數據資產能夠顯著促進自身發展水平的提高,這一結論在考慮內生性問題以及一系列穩健性檢驗后仍然成立,促進作用是通過降低信息不對稱程度、降低交易成本和提高企業創新能力三種路徑實現的。數據資產對企業發展的促進作用在小規模企業和非國有企業、高新技術企業和制造業、建設有大數據交易平臺的地區和經濟政策不確定性較低的地區中效果相對更明顯。劉濤雄等(2023)基于數據價值鏈的視角,使用成本法和增值法估算價值層面的數據資本形成額與數據資本對經濟增長的產出彈性和對經濟增長率的貢獻均明顯超過之前階段,已成為中國經濟增長重要動能之一。李三希等(2023)則是從數據產權的角度闡述了其對數據共享帶來的促進作用。危雁麟等(2022)通過運用Word2Vec神經網絡模型構建文本詞典以挖掘年報中的文本信息,發現數據資產信息披露會對分析師預測準確度產生影響。無論是從財務報告還是對宏觀經濟發展促進來說,數據資產的研究非常有必要,數據作為核心要素總是在各個層面上發揮著重大的作用。

三、實證研究

(一)樣本選擇與數據來源

1.樣本選擇

本研究旨在深入探討數據資產對上市公司財務績效的影響。為了實現這一目標,本文采用了來自Wind數據庫和國泰安數據庫的數據資源,獲取了2014—2022年間A股上市公司的財務數據以及相關企業信息,以構建分析所需的模型變量。這一時間跨度涵蓋了中國經濟快速發展和數字化轉型加速的關鍵階段,為研究提供了豐富而有價值的數據基礎。在數據收集過程中,特別關注了上市公司年報中的管理討論與分析(MDamp;A)部分,通過精細的文本分析技術,從中摘取與數據資產相關的關鍵詞及其出現的頻次。這種方法旨在量化上市公司在數據資產管理和利用方面的關注程度和實踐深度,從而為評估數據資產對企業績效影響提供直接證據。由于研究期間內部分公司可能會新上市或退市,同時也存在部分企業的相關數據不完整或缺失,因此,本研究采用了“短板數據”處理方法,即只選取在2014—2022年期間連續完整記錄的數據,以保證模型分析的準確性和可靠性。經過這一篩選過程,本文最終得到了4911家上市企業的數據樣本,共計近30000個樣本數據點,這為本研究的實證分析提供了堅實的數據支持。通過運用先進的統計和計量經濟學方法對這些數據進行深入分析,本研究旨在揭示數據資產與企業財務績效之間的內在聯系和影響機制。研究成果不僅期望為學術界提供新的理論見解,而且旨在為企業管理者、投資者和政策制定者在數據資產管理和評估方面提供實證基礎和決策參考。此外,本研究的方法論和發現也將為未來在數據資產價值量化和利用效率提升方面的研究奠定基礎,對推動數字經濟的健康發展具有重要意義。

2.關鍵詞統計分析

在當代經濟環境下,數字化轉型已成為推動企業持續增長和競爭力提升的關鍵因素。在這一背景下,數據,作為數字化時代的核心資產,其在企業戰略決策、運營優化以及市場定位中的作用愈發凸顯。企業通過收集、分析和應用大數據,能夠獲得關鍵的商業洞察,推動產品創新,優化客戶體驗,提高運營效率。隨之而來,數據資產的管理和利用成了企業管理層和研究者關注的焦點。

在進行企業數據資產評估的研究中,本文首先采集了2014—2022年間所有A股上市公司年報的PDF文件。這些文件通過Python編程語言和pdfplumber工具的應用被高效讀取,特別是聚焦于年報中的“管理層討論與分析”(MDamp;A)部分。本研究采取的方法如下:首先,構建一個涵蓋數據資產相關詞匯的詞典,隨后統計這些詞匯在各個A股上市公司年報MDamp;A部分的出現次數。為了控制不同公司年報披露文本長度的變異,本研究采用了詞典詞匯出現頻率與文檔總詞數之比作為衡量數據資產的關鍵指標,為后續模型提供解釋變量。

在數據資產相關詞匯的選取方面,手動收集和基于文獻閱讀的方法存在較大主觀性,這種主觀性可能導致選取的詞匯實際上在企業年報中并不常見。為了克服這一問題,本研究采用了基于TF-IDF(Term Frequency-Inverse Document Frequency)方法提取年報關鍵詞的技術。TF-IDF是一種在信息檢索和文本挖掘中廣泛使用的加權技術,有效地反映了詞語在一篇文檔中的重要程度。TF-IDF通過計算詞語頻率和逆文檔頻率的乘積,既反映了詞語在特定文檔中的重要性,也調整了詞語在語料庫中的普遍重要性,從而為避免基于主觀偏見的詞匯選擇提供了一種客觀的方法論。具體計算方法如式(1)所示:

TF(Term Frequency):衡量一個詞在文檔中出現的頻率,計算方式是詞在文檔中出現的次數除以文檔的總詞數。

(1)

IDF(Inverse Document Frequency):衡量一個詞在整個文檔集中的重要性,計算方式是總文檔數除以包含該詞的文檔數的對數,如式(2)所示:

(2)

最終的TF-IDF值是TF和IDF的乘積如式(3)所示:

(3)

它的目標是評估一個詞對于一個文檔集或語料庫中的特定文檔的重要性,TF-IDF的作用是突出在一個文檔中頻繁出現、但在整個文檔集中較為罕見的詞語,認為這些詞對于該文檔的內容具有重要性,這對于信息檢索、文本分類等任務非常有用,通過這種方式,得到對應文本所有詞匯的TF-IDF值從大到小排序,取前150個詞匯作為文本關鍵詞。

接下來問題就是確認選取數據資產特征詞獲取的文本,本文通過在Wind數據庫研報平臺以“數據資產”作為關鍵詞搜索研報,可以得到所有證券公司以及其他金融機構發布的所有關于數據資產研報。每一份研報中會提及和數據資產高度相關的企業,通過手動收集的方式獲取144家A股上市公司,再用python代碼實現摘取這144家企業2022年年報MDamp;A部分,合并為一個文檔,以此作為獲得數據資產特征詞的基礎文本。

另外,企業數字化相關的研究已經有很多,其中很大一部分都是基于文本分析的方式來衡量企業的數字化程度。本文在選取企業數據資產衡量指標的時候也借鑒該方法作為指標衡量的核心方法。數字經濟型企業在一定程度上會擁有更多的數據資產,兩者內在有極其密切的關聯,數字化的過程中會形成一定數量的數據資產,而數據資產的形成過程中也會涉及一定的數字化。因此,除了用TF-IDF的方法得到和數字資產相關特征詞,也用同樣的方法得到數字經濟型企業的特征詞。我們按照證監會2012年發布的《上市公司行業分類指引》,將屬于信息傳輸或軟件和信息技術服務業或計算機、通信和其他電子設備制造業的企業認定為數字經濟型企業(徐翔等,2023)。按照這種方法得到894家企業,也用上述同樣的方式摘取年報MDamp;A部分合并為一個文檔,得到獲得數據經濟型企業特征詞的基礎文本。接下來,就可以用Python代碼實現兩類文本特征詞的TF-IDF值的排序。為了深入理解數據資產對企業績效的具體影響,本文將重點關注上市公司年報中數據資產的表述和披露情況,以此作為分析數據資產在企業中重要性的窗口,具體操作方法見附錄。統計完所有公司年報MDamp;A關鍵詞出現次數,總體統計結果如圖1所示。近年來,隨著信息技術的迅速發展和大數據時代的到來,數據資產已成為企業價值鏈中的重要組成部分。數據資產的重要性不僅體現在其對企業內部決策的影響,也體現在企業外部溝通如財務報告中的體現。

從2014—2022年的統計數據來看,統計的上市公司數量從2,071家增加到4,983家,約為2.5倍,而數據資產關鍵詞的出現次數卻有顯著增加,從2014年的36,031次增加到2022年的335,221次,短短九年之間數據資產關鍵詞的統計次數增加變化近十倍,數據資產重視程度大幅度提升。從圖中可以發現,在社會發展的背景下,數據資產變化可以分為三個階段。2014—2016年,企業對數據資產的認識尚處于初級階段。盡管互聯網已廣泛應用于企業的日常運營,數據資產的概念和價值卻未得到充分的認識和利用。統計數據顯示,在這段時間內,數據資產關鍵詞的平均出現次數從17.4增加到19.2,這一變化雖然緩慢,卻預示著企業開始逐漸重視數據的潛力。自2017年起,隨著大數據和人工智能等技術的推廣,企業開始意識到數據資產對于競爭優勢的重要性。數據資產關鍵詞的平均出現次數穩步增長,從21.3增加到30.9。這一變化反映了企業在這一時期加大了對數據資產的投入和管理,同時也凸顯企業在年報中提及數據資產的趨勢越來越明顯。而在2021年和2022年,數據資產關鍵詞總詞數和平均出現次數出現了飛躍性的增長,分別達到了總數33萬和平均每家上市公司67.3次,這一躍升不僅反映了數據資產在企業中的戰略地位,也反映了社會對數據保護、數據交易和數據驅動決策的高度關注。

在社會發展的背景下,數據資產的增長不僅是技術進步的結果,也是企業適應市場變化、追求可持續發展的體現。數據資產的交易和分享為創新提供了新的途徑,推動了新業務模式的發展。在此過程中,企業面臨的挑戰也日益顯現。如何確保數據的安全和隱私、如何衡量數據資產的價值,以及如何在保護數據原創性的同時促進其流通,都是當前企業亟須解決的問題。隨著社會對數據資產的關注不斷增加,相關的法律法規也在不斷完善,這對企業來說既是機遇也是挑戰。在未來,隨著數據資產管理技術的進一步發展和數據資產價值的充分挖掘,企業將更加依賴數據資產來推動創新,提高競爭力,實現可持續發展。

(二)定義變量與模型構建

文本研究的內容是基于文本分析的數據資產對上市公司企業績效的影響,模型構建首先需要定義好能夠代表企業績效的指標作為被解釋變量,以及在上文中研究方案中得到的上市公司衡量數據資產的特征關鍵詞的出現頻率,再根據研究的內容選取控制變量。基于以上,構建如下實證模型探究企業數據資產對企業績效的影響:

(4)

(4)式中,代表各個公司在不同年份對應的權益回報率,是上文構建的各個企業的數據資產衡量指標關鍵詞出現的頻率,代表的是一系列控制變量,參考王永進等(2016)和周鳳秀等(2017)的研究選取控制變量,包括企業規模、資本勞動比、人口勞動力和總收入,其中人口勞動力和總收入取自然對數,回歸過程中控制了企業和時間固定效應。變量定義如下表所示:

(三)實證分析

1.變量描述性統計

各研究變量的描述性統計如下表所示。由表2可知:權益回報率(roe)作為衡量企業利用自有資本盈利能力的關鍵指標,平均值為5.79%,標準差為15.48%,反映了企業之間盈利能力的顯著差異。這種差異可能源于行業特性、企業規模、經營策略和市場定位的不同。尤其是最小值-81.23%到最大值39.20%的范圍,揭示了某些行業或企業可能面臨的高風險或特殊經營條件;特征詞頻(gl)和特征詞數(ln_tzcs)作為衡量企業年報信息披露質量的指標,反映了企業透明度和信息披露習慣的行業差異。平均特征詞頻為0.64%,而特征詞數對數轉換的平均值為2.855,這可能指示不同企業在戰略溝通和信息披露方面采取了不同的策略。在監管要求嚴格或投資者關注度高的行業,特征詞的使用可能更為頻繁。企業規模(size)和資本勞動比(k2l)反映了企業的規模經濟和資本集約程度。企業規模對數的平均值為13.0253,資本勞動比的平均值為3.3562,這揭示了大型企業可能更能有效利用資本和勞動資源。在人力成本高昂或技術進步迅速的行業,資本勞動比高的企業可能享有競爭優勢。是否國有控股(soe)的平均值為0.3261,表明在樣本中,約三分之一的企業為國有控股。國有企業與私營企業在經營策略、資本獲取和市場反應速度上可能存在本質差異,這些差異在競爭激烈或轉型期的行業中尤為明顯。

2.實證回歸分析

為研究上市公司數據資產對企業績效的影響,按照前文設定的模型(1)進行估計,為了避免由于極端情況下異常值對實證結果的影響,后續所有模型在回歸前,參考吳超鵬等(2019)的做法,對異常值即觀測值超過或小于均值三倍標準差范圍的變量,進行了上下1%(即99%分位和1%分位)的winsor2縮尾處理。特征詞出現頻率在控制變量下對企業權益回報率roe回歸結果如表3所示:

由表3的回歸結果可以得到,以特征關鍵詞作為衡量標準的數據資產對企業績效存在顯著性影響,在未控制變量時估計系數為1.218,表示在1%的顯著性水平下,數據資產對企業績效存在顯著的正相關;控制變量后,特征詞頻的估計系數為0.88,表示在1%的顯著性水平下,數據資產對企業績效存在顯著的正相關。其經濟學含義上來說,特征詞頻每提升一個單位,企業績效就提高0.88個單位。結合描述性統計的結果來看,也就是特征詞頻每變動一個標準差,企業績效roe就會變動0.7%,相較于企業績效roe的平均值5.79%而言,將會產生均值12%的變動。這一結果能夠表明基于年報披露信息的過程中,在保證其他控制變量的情況下,特征關鍵詞披露越多,即數據資產更為密集型的企業,其企業績效表現更優,也就是說企業數據資產水平會明顯對其企業績效產生正向影響。對于(3)(4)列回歸結果來看,通過對城市和企業進行聚類,顯著性會有所差異,兩者標準誤都有不同程度變大,說明數據資產在以這兩個標準進行聚類時,對企業績效的影響存在不同程度的差異。當以城市聚類時,顯著性降低但也能夠在5%的顯著性水平下,數據資產對企業績效存在顯著的正相關,顯著性降低說明不同城市的經濟發展水平、產業政策和市場環境對企業的數據資產建設和利用產生影響,一些城市可能提供更多關于數據安全、數據交換的政策支持,促進了企業數據資產的增值。在聚類分析中顯著性的降低揭示了地域因素對數據資產利用效率和企業績效的潛在影響;而對于企業聚類來看,在5%的顯著性水平下,數據資產對企業績效存在顯著的正相關,顯著性略有降低說明可能不同企業內部的管理實踐、戰略方向和組織文化存在差異導致數據資產利用不同,這也反映了企業間在數據資產的收集、處理和應用方面存在差異。第(5)個回歸模型是將自變量換成特征詞數的對數值,也在1%的顯著性水平下,數據資產對企業績效存在顯著的正相關。因此,數據資產會顯著影響企業績效。

3.穩健性檢驗

穩健性檢驗在經濟學和金融學研究中扮演著重要角色,通過在不同條件下重復分析,穩健性檢驗幫助研究者確認原始研究發現的可靠性。如果研究結果在多種情況下保持一致,那么這些發現就可以被認為是穩健的。本文采用替換關鍵變量的方式來驗證穩健性,分別為替換被解釋變量和替換解釋變量。替換關鍵變量之后重新對模型進行回歸從而檢驗其穩健性。

(1)替換被解釋變量

除了roe能夠很好地衡量企業績效,市盈率(張慶亮等,2007)和托賓Q(朱焱等,2013)都能夠從特定角度衡量企業績效,它們反映的是企業績效的不同方面。市盈率更多地反映了市場對企業當前和未來盈利能力的評估,而托賓的Q則反映了企業的增長潛力和投資價值。因此,這兩個指標可以提供企業績效的有用信息,為了避免市盈率會有很大的范圍,從極低到極高。取對數可以減少數據的偏斜性,使其更接近正態分布。回歸結果如表4所示:

用托賓Q和對市盈率代替特征詞頻進行回歸,同時也做了將自變量gl換成ln_tzcs后的回歸。通過回歸結果可以看出,數據資產關鍵詞出現頻率的增加與市盈率的自然對數呈顯著的負相關關系。換句話說,隨著數據資產關鍵詞出現的頻率增加,公司的市盈率傾向于下降,這也能說明隨著公司在其財務報告中更頻繁地提及數據資產,這可能反映了企業對數據資產管理和風險的高度重視。這種增加的透明度可能使投資者更加明確意識到與數據資產相關的潛在風險,如數據安全、隱私保護以及數據管理的合規要求等。因此,投資者可能會以更為謹慎的估值來反映這些風險,導致市盈率下降。數據資產關鍵詞出現頻率增加與公司市盈率傾向于下降之間的關系表明,投資者和市場正在對數據資產及其對企業長期績效影響進行復雜的評估。這一現象突顯了對數據資產管理和戰略利用的深入理解對于正確評估企業價值的重要性;而數據資產關鍵詞出現頻率與托賓的Q之間存在正相關關系。二者的回歸至少都在5%的水平下是顯著的,均通過了顯著性檢驗。

(2)替換核心解釋變量

由于數據資產密集型企業特征關鍵詞中有很多屬于數字型企業的關鍵詞,為了驗證本文研究結果的穩健性,剔除和數字型企業相關詞匯,選取其中和數據資產高度相關的詞匯,重新統計近30000個樣本MDamp;A部分的關鍵詞,從而完成替換解釋變量。選取的數據資產核心關鍵如表5所示,這類詞匯更加集中涉及了數據資產形成過程中數據采集與整理、數據儲存與管理、數據處理與分析、數據安全與保護的環節。

再根據表5所得的詞匯重新統計每個年報MDamp;A部分詞頻得到gl2和ln_tzcs2變量,按照式(4)的回歸模型進行回歸,回歸結果如表6所示。從表中可以得出,在不添加控制變量的(1)列中,回歸結果在1%的水平下是顯著的,第(2)列中添加控制變量后,系數有所減小,但其顯著性不變,相較于表3中的第(2)列,系數變為將近原來的兩倍,說明在替換核心解釋變量之后,使得關鍵詞更加符合數據資產類型的關鍵詞,回歸系數變為原來的兩倍也能反映出數據資產對以roe作為衡量指標的企業績效有顯著的正向作用。在第(3)(4)列中,按照企業和城市進行聚類,雖然聚類標準誤有所增大,但也能保證在1%的顯著水平下說明數據資產對企業績效的影響是顯著的,同時在對統計的特征詞數取對數后作為解釋變量得到的回歸結果也是顯著的。因此,更加能夠代表數據資產的關鍵詞出來的統計結果做出的回歸表明了數據資產在作為一個新興的生產要素對企業績效的影響是更為顯著和深遠的。這進一步證明了數據資產作為企業資源配置的重要組成部分,對于提高企業的經營績效具有關鍵性的影響。特別是,在當今數據驅動的經濟環境下,數據資產的有效管理和利用顯得尤為重要。本研究通過精細化的方法重新定義和量化了數據資產相關的核心詞匯,從而更準確地捕捉了數據資產與企業績效之間的關系。

綜合上述替換核心解釋變量之后重新對模型回歸的回歸結果來看,本文建立的回歸模型有很好的穩健性,可以認為回歸結果是準確可靠的。

4.異質性檢驗

為了揭示不同群體間的差異并且提高模型的解釋能力,本文對模型進行異質性檢驗。異質性檢驗通過以下兩種分類標準對樣本進行分組回歸,回歸結果如表7所示。

(1)按照地理位置分成東部、中部和西部

中國的東部、中部、西部地區在經濟發展水平上存在顯著差異。參考梁榜等(2019)的做法將樣本劃分為東部、中部、西部。東部地區通常經濟更加發達,擁有更成熟的市場環境、更高的人均收入水平和更完善的基礎設施。相比之下,中部和西部地區在這些方面可能相對落后,這種差異可能影響企業利用數據資產的能力和方式。同時,不同地區受到的政策支持和市場環境也有所不同,不同地區企業在數據資產建設和應用方面的策略可能存在差異。東部地區由于市場更為成熟,競爭也更為激烈,企業可能更早地開始積累和利用數據資產來獲取競爭優勢。

(2)按照控股人性質分為國有和非國有

國有企業和非國有企業在資源獲取與配置效率上存在顯著差異。參考吳超鵬等(2016)在研究技術創新和企業績效將樣本分成國有和非國有的做法,國有企業可能更容易獲得政府的資金支持和政策傾斜,而非國有企業則需要在更為開放和競爭激烈的市場環境中生存,這對數據資產的建設和應用策略產生影響。同時國有企業通常具有穩定的管理機制,但可能在某些情況下缺乏足夠的創新動力和靈活性。非國有企業在追求效率和創新方面可能更為積極,更傾向于利用數據資產來提升競爭力。再者,國有企業和非國有企業在市場定位和業務模式上可能有所不同,這影響了它們對數據資產的需求和利用方式。非國有企業可能更側重于通過數據資產驅動業務創新和模式創新,而國有企業可能更注重數據資產在提升管理效率和服務質量方面的作用。

根據表7回歸結果所示,以地區劃分依據來看,中部地區的回歸系數最高(2.729),且在1%的顯著性水平上顯著,表明在中部地區,數據資產的關鍵詞出現頻率與企業績效之間的正相關關系最為強烈。這可能意味著中部地區的企業能夠更有效地利用數據資產來提升其績效;東部地區的回歸系數最小(0.527),但在10%的顯著性水平上顯著,這表明在經濟較為發達的東部地區,企業雖然經濟更加發達,數據資產的應用也更為廣泛,但由于東部地區企業的基數較大,行業競爭激烈,數據資產對企業績效的邊際影響可能相對較小,這可能是東部地區顯著性低于中部地區的原因之一,這也和梁榜等(2019)的回歸結果東部地區顯著性不好的結果一致。西部地區的不顯著反映了該地區在數據資產的應用和管理方面還存在較大的提升空間。西部地區可能由于基礎設施、人才和技術應用方面的限制,使得數據資產對企業績效的正面影響不如中部和東部地區顯著。

以控股人性質劃分來看,在非國有企業中,數據資產的關鍵詞出現頻率與企業績效之間存在正相關關系,且在統計上顯著,但顯著性水平相對較低。這表明在非國有企業中,數據資產的積累和應用對提升企業績效有一定的正面影響。然而,這種影響相對較為溫和,可能是由于非國有企業在數據資產的利用效率、技術應用能力或資源獲取方面相對國有企業存在一定的限制。而在國有企業中,數據資產的關鍵詞出現頻率與企業績效之間的正相關關系更為顯著且系數較高,表明在國有企業中,數據資產對企業績效的正向影響更加明顯。這可能反映了國有企業在資源配置、技術投入以及政策支持等方面的優勢,使得它們能夠更有效地利用數據資產來提升績效。此外,國有企業可能因其規模和行業地位而更容易獲得數據資產相關的技術和人才資源,進一步增強了數據資產對績效的積極影響。

四、結論與建議

(一)主要結論

在2014—2022年間,上市公司數量和數據資產關鍵詞的出現次數的顯著增長反映了市場對數據資產重視程度的大幅提升,企業對數據資產的認識經歷了從初步認識到深入理解的轉變,標志著數據資產在企業戰略中的地位日益重要。隨著技術進步和市場需求的演變,數據資產成為推動企業創新、提高競爭力和實現可持續發展的關鍵資源。面臨數據安全和隱私保護的挑戰,企業需適應不斷完善的法律法規環境,合理評估和利用數據資產,以促進其在新經濟形勢下的發展。

通過回歸分析,探討了數據資產對上市公司績效的影響,并得出了數據資產顯著提高企業績效的結論。在不同的模型設定下,數據資產的特征關鍵詞出現頻率與企業績效之間均顯示出正向的顯著關系。這一發現表明,隨著數據資產的增加,企業的績效水平也相應提高,數據資產披露每提升一個單位,企業績效就提高0.88個單位。結合描述性統計的結果來看,數據資產每變動一個標準差,企業績效roe就會變動0.7%,相較于企業績效roe的平均值5.79%而言,將會產生均值12%的變動。這表明在保證其他控制變量的情況下,數據資產披露越多,其企業績效表現更優。此外,通過對行業、城市和企業進行聚類分析,研究發現數據資產對企業績效的影響在不同聚類中存在異質性。這表明行業特性、地域差異和企業內部管理實踐等因素都會影響數據資產對企業績效的具體影響程度。這些發現強調了在數字經濟時代,企業應加強數據資產的管理與利用,同時考慮行業特性、地域差異和內部管理實踐等因素,以充分挖掘數據資產的潛力,進而提升企業績效。

(二)相關建議

強化數據資產管理與戰略融合:企業應將數據資產視為核心戰略資源,通過高級管理層的積極參與和支持,將數據資產管理融入企業文化和日常運營中。建議企業建立專門的數據管理部門,負責數據資產的收集、整理和分析工作,同時加強數據安全和隱私保護措施。為了適應快速變化的市場和技術環境,企業還應定期評估其數據資產策略,確保其與企業的長期目標和市場需求保持一致。此外,通過培訓和教育,提高全員對數據資產重要性的認識和理解,可以進一步增強企業內部對數據驅動決策的支持。

針對地區特性和行業差異制定定制化策略:考慮到不同地區和行業對數據資產利用的差異性,企業應根據自身所在地區的經濟環境、政策支持和市場需求,以及所處行業的特性,制定更為精準的數據資產利用策略。對于中部地區的企業,鑒于其對數據資產的敏感性和潛在的政策優勢,應著力于提高數據資產的收集和分析能力,同時積極尋求政府支持和合作機會,以加速數據資產的有效利用。對于東部地區的企業,應關注提高數據資產利用的質量和效率,通過技術創新和模式創新,探索數據資產的更深層次應用,以在競爭激烈的市場中獲得優勢。西部地區的企業則應注重基礎設施和人才的建設,通過技術引進和人才培養,提高數據管理和分析能力,開發數據資產的潛在價值。

提升非國有企業的數據資產利用效率:雖然國有企業在數據資產利用上具有一定優勢,但非國有企業同樣擁有通過提高數據資產管理和利用效率來提升績效的潛力。建議非國有企業加大對數據技術的投入,例如采用云計算、大數據分析和人工智能等先進技術,以提高數據處理和分析的能力。此外,非國有企業應積極尋求與政府、高校和研究機構的合作,通過共享資源和知識,加速數據資產的應用和創新。同時,非國有企業還應注重提升組織內部的數據文化,通過培訓和激勵機制,鼓勵員工參與到數據資產的管理和利用中,以提高整個組織的數據敏感性和利用效率。

參考文獻:

[1]Boehrns, B.E. Accounting Implications Derived From Consumer Big Data[J]. 2021.

[2]Chen, W. and Srinivasan, S. Going Digital: Implications for Firm Value and Performance[J]. Review of Accounting Studies, 2023: 1-47.

[3]Feng, X., Maoyue, X. and Lingjuan, Z. Recognition and Evaluation of Data as Intangible Assets[J].SAGE Open,2022,12(2):

[4]Figueiredo, F., Rocha, L. and Couto, T. Word Co-occurrence Features for Text Classification[J].Information Systems,2011,36(5):843-858.

[5]Huixiang, Z., Hangxin, R. and Qiong, Z. The Financial Effect of Firm Digitalization: Evidence from China[J].Technological Forecasting Social Change,2022,183

[6]Li, F. The Information Content of Forward-looking Statements in Corporate Filings—A naive Bayesian Machine Learning Approach[J]. Journal of Accounting Research, 2010, 48(5): 1049-1102.

[7]Lu, Z. and Li, H. Does Environmental Information Disclosure Affect gGreen Innovation?[J]. Economic Analysis and Policy, 2023, 80: 47-59.

[8]Moody, D.L. and Walsh, P. Measuring the Value Of Information-An Asset Valuation Approach[C]//ECIS. 1999: 496-512.

[9]Rassier, D.G., Kornfeld, R.J. and Strassner, E.H. Treatment of Data in National Accounts[J]. BEA Advisory Committee. Burau of Economic Analysis, 2019.

[10]Sparck Jones, K. A Statistical Interpretation of Term sSpecificity and Its Application in Retrieval[J]. Journal of Documentation, 1972, 28(1): 11-21.

[11]Wamba, F.S., Gunasekaran, A. and Akter, S. Big Data Analytics and Firm Performance: Effects of Dynamic Capabilities[J].Journal of Business Research,2017,70356-365.

[12]財政部關于印發《企業數據資源相關會計處理暫行規定》的通知[J]. 中華人民共和國國務院公報, 2023(28): 20-24.

[13]龔強, 班銘媛, 劉沖. 數據交易之悖論與突破:不完全契約視角[J]. 經濟研究, 2022,57(07): 172-188.

[14]李紅光, 王磊, 李穎. 數據資產化視角下企業增信機制研究——基于深圳的實踐探索[J]. 價格理論與實踐, 2023,(04): 33-37.

[15]李健, 董小凡, 張金林等. 數據資產對企業創新投入的影響研究[J/OL]. 外國經濟與管理, 1-16[2023-12-03].

[16]李三希, 王泰茗, 劉小魯. 數據投資、數據共享與數據產權分配[J]. 經濟研究, 2023,58(07): 139-155.

[17]梁榜, 張建華. 數字普惠金融發展能激勵創新嗎?——來自中國城市和中小企業的證據[J]. 當代經濟科學, 2019,41(05): 74-86.

[18]劉景江, 鄭暢然, 洪永淼. 機器學習如何賦能管理學研究?——國內外前沿綜述和未來展望[J]. 管理世界, 2023,39(09): 191-216.

[19]劉濤雄, 戎珂, 張亞迪. 數據資本估算及對中國經濟增長的貢獻——基于數據價值鏈的視角[J]. 中國社會科學, 2023,(10): 44-64+205.

[20]劉玉廷. 《企業會計制度》的中國特色及與國際慣例的協調[J]. 會計研究, 2001(03):3-8+65.

[21]陸岷峰, 王穩華, 朱震. 數據資產如何賦能企業高質量發展——基于產能利用率視角的經驗證據[J]. 上海商學院學報, 2023,24(04): 22-41.

[22]路征, 周婷, 王理等. 數據資產與企業發展——來自中國上市公司的經驗證據[J]. 產業經濟研究, 2023(04): 128-142.

[23]羅玫, 李金璞, 湯珂. 企業數據資產化:會計確認與價值評估[J]. 清華大學學報(哲學社會科學版), 2023,38(05): 195-209+226.

[24]馬克衛, 王碩, 苑杰. 數據資產核算應用研究:理論與實踐[J]. 中南財經政法大學學報, 2023(05): 149-160.

[25]滕明明. 數據要素流動與數據資產入表:關系、風險與對策[J]. 國際商務財會, 2024, (13): 30-33.

[26]王永進, 劉燦雷. 國有企業上游壟斷阻礙了中國的經濟增長?——基于制造業數據的微觀考察[J]. 管理世界, 2016(06): 10-21+187.

[27]王勇, 劉樂易, 遲熙等. 流量博弈與流量數據的最優定價——基于電子商務平臺的視角[J]. 管理世界, 2022,38(08): 116-132.

[28]危雁麟, 張俊瑞, 汪方軍等. 數據資產信息披露與分析師盈余預測關系研究——基于文本分析的經驗證據[J]. 管理工程報, 2022,36(05): 130-141.

[29]吳超鵬, 唐菂. 知識產權保護執法力度、技術創新與企業績效——來自中國上市公司的證據[J]. 經濟研究, 2016,51(11): 125-139.

[30]武常岐, 張昆賢, 周欣雨等. 數字化轉型、競爭戰略選擇與企業高質量發展——基于機器學習與文本分析的證據[J]. 經濟管理, 2022,44(04): 5-22.

[31]徐翔, 趙墨非, 李濤等. 數據要素與企業創新:基于研發競爭的視角[J]. 經濟研究, 2023,58(02): 39-56.

[32]許帥, 邵帥, 何賢杰. 業績說明會前瞻性信息對分析師盈余預測準確性的影響——信口雌黃還是言而有征[J/OL]. 中國管理科學, 1-15[2023-12-03]. https://doi.org/10.16381/j.cnki.issn1003-207x.2022.0771.

[33]許憲春, 張鐘文, 亞茹. 數據資產統計與核算問題研究[J]. 管理世界, 2022,38(02): 16-30+2.

[34]張慶亮, 孫景同. 我國產融結合有效性的企業績效分析[J]. 中國工業經濟, 2007(07): 96-102.

[35]周鳳秀, 張建華. 貿易自由化、融資約束與企業創新——來自中國制造業企業的經驗研究[J]. 當代財經, 2017(06): 100-108.

[36]朱繼軍, 劉洋, 許志勇. 數據資源資產化入表風險探討[J]. 財會通訊, 2024,(13): 91-96.

[37]朱秀梅, 林曉玥, 王天東等. 數據價值化:研究評述與展望[J].外國經濟與管理, 2023,45(12): 3-17.

[38]朱焱, 張孟昌. 企業管理團隊人力資本、研發投入與企業績效的實證研究[J]. 會計研究, 2013(11): 45-52+96.

附錄:數據資產衡量指標構建方法

為了深入探索數據資產對企業績效的潛在影響,本研究首先開發了一個企業數據資產衡量指標。考慮到現有的財務報告體系中缺乏專門針對數據資產的分類和明細,本研究采納了一種基于文本分析的方法論。在數字化經濟的背景下,企業不斷涉及數據的收集、處理、存儲,以及交易等多個環節,這些環節累積貢獻于數據資產的形成,并在企業的年度報告中得到相應的體現。因此,本研究提出一個假設:企業年報中與數據資產相關的關鍵詞出現的頻次越高,表明該企業所擁有的數據資產越為豐富和深入。基于此,年報中數據資產相關關鍵詞的提及頻率成為一種衡量企業數據資產水平的有效指標,旨在為后續的實證分析提供一個量化的基礎。

進一步地,本研究將上述衡量得出的數據資產指標作為主要的解釋變量,用于分析其對企業績效的具體影響。企業績效的衡量采用了一系列綜合性指標,如權益回報率(代表企業財務績效),市盈率(反映市場對企業盈利能力的評價)、以及托賓Q值(指示市場對公司投資價值的認可程度)。通過這些多維度的衡量指標,本研究旨在全面評估數據資產對企業績效的影響。同時,為了確保回歸分析結果的準確性和可靠性,研究中還將考慮引入一系列與企業績效密切相關的控制變量,以剔除其他潛在干擾因素的影響。本研究的目的在于通過精細化的實證分析,揭示數據資產如何作為現代企業競爭力的一個關鍵因素,對企業的盈利能力、市場評價和投資價值產生影響,從而為理解數據資產在加速企業創新和提升績效方面的作用提供新的理論和實踐證據。

(一)年報關鍵詞提取技術

在進行企業數據資產評估的研究中,本文首先采集了2014—2022年間所有A股上市公司年報的PDF文件。這些文件通過Python編程語言和pdfplumber工具的應用被高效讀取,特別是聚焦于年報中的“管理層討論與分析”(MDamp;A)部分。據許帥(2023)所述,基于年報MDamp;A部分進行文本分析是當前學術界廣泛采用的一種方法。不僅是數字化程度的分析,情感分析等多維度的研究也常常以此為基礎。因此,本研究亦選擇以企業年報的MDamp;A部分作為文本分析的主要來源。

在具體的文本分析過程中,傳統方法多基于報告中的文字信息來提取研究所需的數據。針對企業數字化轉型的相關研究,廣泛的做法是通過預先收集和設定與數字化轉型相關的詞匯構建詞典,隨后統計這些詞匯在年報中出現的次數,或者根據詞典詞匯的出現與否來設定衡量指標。例如,若年報中出現與數字化轉型相關的詞匯,則記為1;反之,未出現則記為0。這種方法在處理極少數關鍵詞時頗為適用。然而,隨著互聯網時代的進展,幾乎不可能找到完全未提及該類詞匯的公司。因此,部分學者對此方法進行了改良,提出將每個詞匯視作0或1的變量,通過是否出現來區分,進而進行匯總分析,以應對詞匯過多導致的分類困境。

進一步地,也有研究者通過閱讀文獻的方式構建詞典,利用總詞頻作為衡量數字化轉型程度的指標。這種方法尤其適用于在數據密集型時代背景下,新出現的與數字化轉型相關的詞匯越來越多的情形。本研究采取的方法如下:首先,構建一個涵蓋數據資產相關詞匯的詞典,隨后統計這些詞匯在各個A股上市公司年報MDamp;A部分的出現次數。為了控制不同公司年報披露文本長度的變異,本研究采用了詞典詞匯出現頻率與文檔總詞數之比作為衡量數據資產的關鍵指標,為后續模型提供解釋變量。

在數據資產相關詞匯的選取方面,手動收集和基于文獻閱讀的方法存在較大主觀性,這種主觀性可能導致選取的詞匯實際上在企業年報中并不常見。為了克服這一問題,本研究采用了基于TF-IDF(Term Frequency-Inverse Document Frequency)方法提取年報關鍵詞的技術。TF-IDF是一種在信息檢索和文本挖掘中廣泛使用的加權技術,有效地反映了詞語在一篇文檔中的重要程度。該方法由Karen Sp?rck Jones在1972年提出,并在其后的文章中進行了系統闡述和推廣,因此她在TF-IDF發展史上作出的貢獻被廣泛認可。TF-IDF通過計算詞語頻率和逆文檔頻率的乘積,既反映了詞語在特定文檔中的重要性,也調整了詞語在語料庫中的普遍重要性,從而為避免基于主觀偏見的詞匯選擇提供了一種客觀的方法論。具體計算方法如式(1)所示:

TF(Term Frequency):衡量一個詞在文檔中出現的頻率,計算方式是詞在文檔中出現的次數除以文檔的總詞數。

(1)

IDF(Inverse Document Frequency):衡量一個詞在整個文檔集中的重要性,計算方式是總文檔數除以包含該詞的文檔數的對數,如式(2)所示:

(2)

最終的TF-IDF值是TF和IDF的乘積如式(3)所示:

(3)

它的目標是評估一個詞對于一個文檔集或語料庫中的特定文檔的重要性,TF-IDF的作用是突出在一個文檔中頻繁出現、但在整個文檔集中較為罕見的詞語,認為這些詞對于該文檔的內容具有重要性,這對于信息檢索、文本分類等任務非常有用,通過這種方式,得到對應文本所有詞匯的TF-IDF值從大到小排序,取前150個詞匯作為文本關鍵詞。

接下來問題就是確認選取數據資產特征詞獲取的文本,本文通過在Wind數據庫研報平臺以“數據資產”作為關鍵詞搜索研報,可以得到所有證券公司以及其他金融機構發布的所有關于數據資產研報,每一份研報中會提及和數據資產高度相關的企業,通過手動收集的方式獲取144家A股上市公司,再用python代碼實現摘取這144家企業2022年年報MDamp;A部分,合并為一個文檔,以此作為獲得數據資產特征詞的基礎文本。

另外,企業數字化相關的研究已經有很多,其中很多都是基于文本分析的方式來衡量企業的數字化程度,本文在選取企業數據資產衡量指標的時候也借鑒該方法作為指標衡量的核心方法,數字經濟型企業在一定程度上會擁有更多的數據資產,兩者內在有極其密切的關聯,數字化的過程中會形成一定數量的數據資產,而數據資產的形成過程中也會涉及一定的數字化。因此,除了用TF-IDF的方法得到和數字資產相關特征詞,也用同樣的方法得到數字經濟型企業的特征詞,我們按照證監會2012年發布的《上市公司行業分類指引》,屬于信息傳輸或軟件和信息技術服務業或計算機、通信和其他電子設備制造業的,作為數字經濟型企業(徐翔等,2023),按照這種方法得到894家企業,也用上述同樣的方式摘取年報MDamp;A部分合并為一個文檔,得到獲得數據經濟型企業特征詞的基礎文本。接下來就可以用Python代碼實現兩類文本特征詞的TF-IDF值的排序,具體操作方式如下。

(二)數據資產關鍵詞

首先,對2022年5014家上市公司年報MDamp;A部分每個文檔進行文本清洗。去除所有非中文字符,其中包括標點符號、數字以及字母之后使用jieba進行分詞。在分詞過程中,停用詞使用的是中國人民大學中文停用詞表、哈工大停用詞表、百度停用詞表和四川大學機器智能實驗室停用詞庫,共計2314個停用詞。 在此基礎上,添加了由150個詞匯兩兩有序組合再去除如“深度云”等無意義的詞后共計12652個詞,作為預設詞典。由此到如云服務、深度計算等詞匯時直接將該詞作為一個詞語而不被分開。通過這種方式,得到表現更好的分詞結果,隨后用python代碼中的sklearn、vector等第三方庫的調用就可以計算出每個詞的TF-IDF值并實現可視化如圖1和圖2所示,分別為數據密集型企業特征關鍵詞和數字經濟型企業特征關鍵詞的按照TF-IDF值排序可視化。

在去除尾部TF-IDF值偏小且和兩類企業均無關的詞匯后,得到的特征詞如圖3所示,數據資產特征詞和數字經濟型企業特征詞中前150排序的TF-IDF值對應的詞存在高度重疊。這也佐證了數據資產形成和數字化高度相關,也為用數字化的衡量方法運用在數據資產衡量提供依據。但是在重疊的詞語中,我們發現有一類詞的TF-IDF值是數據型大于數字型,也就是說這一類詞在數據資產密集型企業中的屬性特征更明顯,這也符合最開始選取的144家企業和894家企業的本身特征的差異,一類是證券公司研報中高度關注的和數據資產相關的企業,另一類是較為粗糙的以《上市公司行業分類指引》作為分類標準得到的數字經濟型企業。樣本分類的初始依據也就導致雖然二者特征詞存在高度重疊,但同樣出現在兩類的詞中,更多的詞TF-IDF值所屬于數據資產密集型企業更大。

接下來,選取圖1所示兩類特征詞中數據資產密集型企業特征詞與數字經濟型企業特征詞非交集詞匯以及交集詞匯中TF-IDF值更高的詞匯,通過簡單篩選后,以此作為最終衡量數據資產密集型企業的關鍵特征詞典共計93個詞匯如表1所示。

根據獲得的93個特征詞,分別統計2014—2022年A股上市公司年報MDamp;A部分特征詞出現的總次數,再得到對應的總頻率,同時從Wind數據庫和國泰安數據庫中獲得同樣2014年—2022年A股上市公司每個企業的凈資產回報率(ROA)和其他若干個指標,其中包括上市年份,企業規模、員工總人數、年收入等。通過python代碼以股票代碼作為依據進行數據匹配,得到對應年份、企業股票代碼、特征詞頻率、ROA以及模型中需要的其他變量,至此已經獲得后續實證部分解釋變量特征詞頻率和被解釋變ROA,由于統計數據是從2014—2022年,全面的數據足夠在后續做回歸分析考慮面板數據分析,豐富實證部分。

The Impact of Listed Companies' Data Asset Disclosure on Corporate Performance——A Text Analysis Perspective

Liu Guangwei1,Zhao Ruoqi2, Wang Chenglong3,4,

Zhou Heng4, Zhang Pengnian5

(1.Institute of Digital and Artificial Intelligence Applications, Shanghai Lida University, Shanghai 201608, China;

2. School of Economics, Jilin University, Changchun 130021, China;

3. Shanghai Fuli Technology Co., Ltd., Shanghai 200235, China;

4. School of Finance, Zhejiang Gongshang University, Hangzhou 310018, China

5. Shanghai Lida University, Shanghai 201608, China)

Abstract: With the advent of the digital era, data assets have become a critical factor in corporate value creation. This study adopts a quantitative approach, first employing the TF-IDF method from text analysis techniques to quantify the scale of data assets in listed companies, and then evaluating the impact of data assets on corporate performance through comparative analysis of the relationship between data asset scale and financial indicators. The findings reveal a significant positive relationship between data assets and corporate performance, with this positive promoting effect being mediated by corporate innovation capabilities. This research not only provides new perspectives and empirical evidence for understanding the impact of data assets on corporate financial performance in academic discourse, but also offers practical guidance for managers on how to effectively manage and utilize data assets to enhance corporate value and performance

Key Words:Data assets; Corporate performance; Text analysis; TF-IDF

主站蜘蛛池模板: 久草中文网| 亚洲中文精品人人永久免费| 国产福利在线观看精品| 天天躁夜夜躁狠狠躁图片| 欧美中文一区| 久久久久久午夜精品| 无码丝袜人妻| 亚洲成人网在线播放| 天天综合网色| 欧美成人一级| 国产成人精品日本亚洲| 欧美有码在线观看| 99激情网| 国产丝袜无码一区二区视频| 亚洲第一国产综合| 亚洲va欧美va国产综合下载| 国产精鲁鲁网在线视频| 欧美亚洲欧美| 精品一区二区无码av| 在线亚洲小视频| 欧美日韩一区二区在线播放 | 免费 国产 无码久久久| 欧洲成人在线观看| 日本人又色又爽的视频| 久久精品嫩草研究院| 99er精品视频| 在线综合亚洲欧美网站| 人妖无码第一页| 国产色婷婷| 在线看免费无码av天堂的| 亚洲成年人网| 欧美日韩午夜| 动漫精品中文字幕无码| 欧美一级专区免费大片| 亚洲男人的天堂在线观看| 毛片免费试看| 国产SUV精品一区二区| 无码中文字幕乱码免费2| 午夜啪啪网| 亚洲Va中文字幕久久一区| 在线国产91| 国禁国产you女视频网站| 亚洲国产一区在线观看| 欧美性精品| 国产美女免费| 高清国产va日韩亚洲免费午夜电影| www.狠狠| 91在线免费公开视频| 扒开粉嫩的小缝隙喷白浆视频| 国产一级裸网站| 国产区91| 色亚洲成人| 国产中文一区a级毛片视频| 欧美日韩免费在线视频| 亚洲第一区精品日韩在线播放| 国产精品女在线观看| 国产尹人香蕉综合在线电影| 亚洲男女天堂| 亚洲区欧美区| 国产精品太粉嫩高中在线观看| 国产精品美女自慰喷水| 精品無碼一區在線觀看 | 香蕉伊思人视频| 在线观看国产精美视频| 亚洲精品国产自在现线最新| 国产在线观看一区二区三区| 亚洲高清在线天堂精品| 久久成人18免费| 欧美日韩国产在线人成app| 72种姿势欧美久久久大黄蕉| 少妇精品久久久一区二区三区| 在线观看欧美国产| 亚洲中文字幕23页在线| 国产成人精品视频一区视频二区| 91人妻在线视频| 亚洲综合第一区| 免费va国产在线观看| 国产www网站| 日韩人妻精品一区| 露脸国产精品自产在线播| 免费高清自慰一区二区三区| 成色7777精品在线|