李祁恒 吳武清 譚凱洪
(中國人民大學商學院)
目前,將數據資源視為生產要素、充分釋放數據資源價值已成為國家戰略。2019年10月,黨的十九屆四中全會首次將數據列為生產要素,提出要“健全勞動、資本、土地、知識、技術、管理、數據等生產要素由市場評價貢獻、按貢獻決定報酬的機制”。2020年3月,中共中央、國務院發布了《關于構建更加完善的要素市場化配置體制機制的意見》(簡稱“意見”),意見單獨列出加快培育數據要素市場的方式,指出要提升社會數據資源價值,培育數字經濟新產業、新業態和新模式。同年10月,黨的十九屆五中全會發布了《關于制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》(簡稱“建議”),建議再次確立了數據要素的市場地位,提出要“推進土地、勞動力、資本、技術、數據等要素市場化改革,健全要素市場運行機制,完善要素交易規則和服務體系”。2022年6月,習近平總書記召開的中央全面深化改革委員會第二十六次會議中,審議通過了《關于構建數據基礎制度更好發揮數據要素作用的意見》。這些政策表明,重視數據資源價值、研究數據資源問題已成為實務界和理論界的緊要任務。
然而,與國家戰略對數據資源高度重視形成鮮明對比的是,企業財務報表卻忽視了數據資源的披露,導致會計信息相關性下降(黃世忠等,2020;張新民和金瑛,2022)。換言之,企業財務報告中的資產負債表、利潤表以及現金流量表三大報表均未明確列示數據資源項目及其金額,從而投資者難以從財務報表中獲取企業數據資源的相關信息,投資者面臨較為嚴重的信息不對稱問題。而信息不對稱程度的增加又會導致逆向選擇和道德風險問題,進而影響資本市場資源配置效率,阻礙實體經濟健康發展。
那么,企業財務報告中關于數據資源的文本信息披露是否有助于投資者獲取更多與企業數據資源相關的信息,緩解投資者的信息不對稱程度,從而提高資本市場資源配置效率?本文認為,這一假說有可能成立,原因在于:企業財務報告不僅包含財務報表,還包含大量文本信息。這些文本信息能夠在一定程度上彌補財務報表披露不足的問題,降低投資者的信息不對稱程度。當然,由于企業財務報告披露數據資源的文本信息較為零散,投資者未必會對這些零散的信息有所反應,因此該假說也可能不成立。這表明該假說具有張力(Tension),需要通過實證研究進行檢驗。值得注意的是,本文并沒有按照危雁麟等(2022)的研究,將數據資源稱為數據資產,這是因為在會計學中,資產是一個定義嚴格的概念,文本詞頻信息只能反映數據資源狀況,而不一定能夠反映數據資產狀況。具體而言,根據《企業會計準則——基本準則》(2014),資產是指企業過去的交易或者事項形成的、由企業擁有或者控制的、預期會給企業帶來經濟利益的資源,所以如果要將數據資源確認為數據資產,首先需要明確數據資源的權屬及其價值相關性。而目前,數據資源的權屬及其價值相關性均難以確定,是法學、經濟學、財務學、會計學等領域研究的前沿問題,為遵從定義嚴謹性,本文使用數據資源一詞代替數據資產一詞。
為了檢驗上述假說,本文以2010—2019年A股上市公司為研究樣本,實證檢驗企業年報中數據資源披露程度與資本市場資源配置效率的關系。研究發現,企業年報中數據資源披露程度越高,企業權益資本成本越低,表明數據資源披露有助于提高資本市場資源配置效率。穩健性檢驗發現,無論是使用傾向得分匹配、熵平衡匹配,還是替換變量衡量方法、延長樣本期間,主回歸結果均較為穩健。使用企業市場價值作為代理變量進行機制檢驗,發現數據資源的披露提高了投資者對企業未來發展的預期,進而降低企業權益資本成本。
數字經濟時代的當前,數據資源的企業價值創造功能正在被越來越多文獻所關注和檢驗。例如,謝康等(2020)結合企業問卷調查和國泰安數據庫收集數據,實證檢驗了企業大數據資源對產品創新績效的影響。研究發現,企業大數據資源與產品創新績效二者呈現正相關關系,且大數據分析、組織學習和慣例更新是二者關系的完全中介,表明大數據分析能力是數據資源創造價值的重要前提。張葉青等(2021)通過對A股上市公司年報進行文本分析,構建了企業大數據應用指標,并基于此檢驗了企業大數據應用的影響因素和經濟后果。研究發現,企業規模、有形資產比例、盈利能力以及地區市場化程度均會影響企業大數據應用程度。此外,企業大數據的應用能顯著提高企業生產效率和研發投入,進而提高企業市場價值。相似地,鈔小靜和王宸威(2022)通過對制造行業上市公司2011—2020年的年報數據進行文本分析發現,數據要素能夠增加企業研發創新和促進企業生產協同,進而提高企業全要素生產率,促進企業高質量發展。蔡繼明等(2022)基于廣義價值論模型發現,通過數據的初始存量以及處理數據和生產產品時所投入的勞動等途徑,數據可以提高絕對生產力,是價值創造的重大源泉。總而言之,上述研究表明,數據資源作為備受關注的生產要素,正在為企業發揮著日益重要的價值創造功能。
由于數據資源具有價值創造功能,因此數據資源的披露能夠幫助投資者獲取公司更豐富的與數據資源價值相關的信息,緩解投資者與企業之間的信息不對稱程度,降低投資者信息風險,進而降低企業權益資本成本,提高資本市場資源配置效率。實際上,盡管關注數據資源披露經濟后果的文獻較為匱乏,但研究其他信息披露與權益資本成本的文獻卻較為豐富。例如,Botosan(1997)的經典文獻指出,企業在年報中的自愿性信息披露程度越高,企業權益資本成本越低。當分析師關注程度較高時,二者之間的關系不顯著,表明年報自愿性信息披露能夠在信息不對稱較為嚴重的情況下幫助投資者更好地了解企業。吳紅軍(2014)從環境披露視角,研究發現企業環境信息披露水平與環境績效正相關,與權益資本成本負相關,說明企業披露環境信息向外界傳達了利好信號,提高了企業聲譽。黃建元和靳月(2016)從社會責任報告的角度,研究發現獨立的社會責任報告有助于降低企業權益資本成本。王冰潔和劉振濤(2017)從管理層業績預告披露視角,提出管理層作為內部人,對企業經營狀況有更清晰的了解,因此其業績預告有助于降低投資者信息不對稱程度,從而影響企業權益資本成本。通過實證研究,他們證明了這一觀點,即管理層業績預告消息的利好程度越高,權益資本成本越低,且強制性披露制度下二者之間的關系更加顯著。王雄元和高曦(2018)從風險信息披露視角,研究發現年報風險披露長度越長,企業權益資本成本越低,說明風險信息的披露有助于降低投資者對企業未來風險的不確定性預期,因而要求更低的風險溢價。傅傳銳和王美玲(2018)則對智力資本信息披露進行研究,通過使用內容分析法對企業年報進行編碼,他們發現智力資本信息披露的增加有助于降低企業權益資本成本。蔡貴龍等(2022)使用了投資者互動平臺數據,研究發現投資者與上市公司互動能夠降低投資者信息整合成本,緩解投資者與企業之間的信息不對稱程度,從而降低企業權益資本成本。
根據上述文獻,本文認為,當前數字經濟高速發展,數據資源價值凸顯,但是財務報表仍未明確披露數據資源科目及其金額。在這種情況下,投資者在估計企業數據資源的價值、進而預測企業價值時會面臨著比傳統估值更為嚴重的信息不對稱問題。而當企業在其財務報告中通過文本方式自愿披露數據資源時,投資者能夠更容易獲得企業與數據資源價值相關的信息,投資者與企業之間的信息不對稱程度下降,投資者面臨的信息風險下降,其要求的資本風險溢價下降,從而企業權益資本成本下降(Easley和O'Hara,2004)。綜上,本文提出如下假說:
H1:其他條件保持不變時,企業數據資源披露程度越高,企業權益資本成本越低。
為了檢驗上述假說,本文參考危雁麟等(2022)、蔡貴龍等(2022)的研究,構建了如下回歸模型:

模型(1)中,COC_MPEGi,t表示企業權益資本成本,該指標是反映資本市場資源配置效率的常用指標(姜付秀等,2008;蔡貴龍等,2022)。參考Easton(2004)、蔡貴龍等(2022)的研究,同時考慮到PEG模型是MPEG模型的特殊形式,本文主回歸主要使用MPEG模型計算企業權益資本成本,同時在穩健性檢驗中分別使用PEG模型、OJN模型進行分析。WordProi,t表示企業數據資源披露程度,參考危雁麟等(2022),該指標的計算方法為企業年度財務報告中,與數據資源相關的、經相似度加權平均的詞頻與文本總詞頻(不包含英文和數字)之比。Controlsi,t表示控制變量的集合。λi表示企業固定效應,ηt表示年份固定效應;εi,t為隨機擾動項。上述的變量具體計算方法可參見本文主回歸變量定義部分。
本文主要關注WordProi,t變量的系數,若該系數顯著為負,表明企業數據資源披露程度越高,其權益資本成本越低,從而驗證了數據資源的披露具有信息效應,即數據資源的披露能夠緩解投資者與企業之間的信息不對稱,降低投資者信息風險,提高資本市場資源配置效率。
1.被解釋變量
本文主回歸被解釋變量為企業權益資本成本,主要使用MPEG模型計算。具體而言,參考Easton(2004)、毛新述等(2012)的研究,主回歸中企業權益資本成本的計算公式如下:

其中,COC_MPEG為權益資本成本,EPS1、EPS2分別為分析師對企業未來一期、兩期的每股收益預測值,DPS1為分析師對未來一期的預期每股股利k×EPS1,k為過去3年的平均股利支付率的平均值,P0為期末股價。
2.解釋變量
本文主回歸解釋變量為數據資源披露程度。參考危雁麟等(2022)的研究,首先,本文將“數據資產”和“數據資源”確定為種子詞。此外,由于現有文獻在討論數據資源和數據資產話題時,往往還會使用數據要素一詞(謝康等,2020;蔡繼明等,2022),因此本文亦將“數據要素”確認為種子詞。其次,通過WinGo(文構)數據庫深度學習相似詞功能,本文篩選出上述種子詞的相似詞,并只保留與種子詞相似度為0.5以上的相似詞。根據WinGO(文構)數據庫說明書,相似詞的識別方法為:使用詞向量(Word Embedding)模型對大量分詞后的財經文本進行訓練,構建出詞語相似度計算模型,然后使用該模型來計算種子詞與其他詞語的相似度大小。一般而言,與種子詞相似度越大的詞語,其使用語境、語義與種子詞越相近,越能客觀、全面地反映所要代理變量的特征。接著,本文從WinGo(文構)數據庫中提取了種子詞及其相似詞在上市公司年度財務報告中的詞頻信息,以及上市公司年度財務報告中的總詞頻信息。最后,根據如下公式,本文計算出數據資源披露程度WordPro:

式(3)中,Freqi,t,j表示i公司第t年年報中詞語j出現的頻率;Similarityi,t,j表示詞語j與種子詞的相似度,其中種子詞的相似度定義為1;SumFreqi,t表示年報總詞頻(不含英文和數字)。
3.控制變量
參考肖作平(2016)、危雁麟等(2022)、蔡貴龍等(2022)的研究,本文主回歸的控制變量包括企業規模(Size)、資產負債率(Lev)、現金流(Cash)、資產周轉率(ROA)、董事會規模(BoardSize)、獨董比例(Independ)、第一大股東持股比例(FirstShare)以及機構投資者持股比例(Institute)。此外,為了控制不隨個體變化的內生性特征和不隨時間變化的內生性特征,本文還控制了時間固定效應和企業個體固定效應。
主回歸變量定義見表1。

表1 主回歸變量定義
本文主回歸以2010—2019年A股上市公司為初始樣本,然后進行如下處理:(1)剔除金融股;(2)剔除ST、*ST等特殊處理股;(3)剔除數據缺失的樣本。完成樣本選擇后,最終得到2806個公司16 921個“公司—年度”樣本。
本文的數據分為文本數據和結構化數據。其中,文本數據是指數據資源披露的數據,其來源于WinGo(文構)數據庫;結構化數據是指公司財務、公司治理、分析師預測等數據,其來源于CSMAR(國泰安)數據庫和Wind(萬得)數據庫。為了防止極端值對回歸結果的影響,本文對所有連續變量進行1%和99%分位的Winsorize縮尾處理。
表2報告了本文主要變量的描述性統計結果。由表2可知,COC_MPEG的均值為0.116,標準差為0.044,表明中國上市公司權益資本成本平均約為11.6%,且不同公司的權益資本成本存在一定的差異。WordPro的均值為0.004,與危雁麟等(2022)的統計結果相比,本文刻畫上市公司數據資源信息平均披露程度更大,這主要是因為本文增加了“數據要素”一詞作為種子詞。此外,WordPro的最小值以及25%分位數均為0,表明中國上市公司數據資源信息披露程度總體較低。

表2 主要變量描述性統計
表3展示了本文主要變量的相關性分析,其中主對角線上方為Spearman相關系數,下方為Pearson相關系數。由表3可知,WordPro與COC_MPEG的Spearman相關系數為-0.075,Pearson相關系數為-0.083,兩者均在1%水平上顯著為負,表明WordPro與COC_MPEG負相關,為本文假說的檢驗提供了初步證據。

表3 主要變量相關性分析
表4列示了本文主回歸結果。其中第一列是單變量回歸結果,第二列加入公司基本面和公司治理維度的控制變量,第三列加入個體固定效應和年份固定效應。由表4可知,三列WordPro的系數均顯著為負,表明數據資源披露有助于降低企業權益資本成本,假設1得證。對于經濟意義,第三列WordPro的系數為-0.127,而由描述性統計可知COC_MPEG和WordPro的標準差分別為0.044和0.012,因此數據資源披露詞頻(單位:%)每增加一個標準差,企業權益資本成本下降3.4%(0.127×0.012/0.044)。

表4 主回歸結果
1.樣本匹配
為了緩解內生性問題,本文使用傾向得分匹配和熵平衡匹配進行穩健性檢驗。對于傾向得分匹配,本文首先將數據資源披露程度大于行業-年度平均值的樣本設置為處理組,然后使用logit模型,將處理組虛擬變量設置為因變量,主回歸中的控制變量和行業固定效應設置為協變量,在共同取值范圍內進行1:1~1:5最近鄰卡尺、可放回的逐年匹配,最后使用匹配樣本重新回歸。對于熵平衡匹配,參考Hainmueller(2012)、Francoeur等(2022),本文將主回歸中的控制變量、年度固定效應和行業固定效應作為匹配的協變量,并在匹配完成后進行加權回歸。樣本匹配回歸結果如表5所示,由表5可知,WordPro的系數均顯著為負,表明基準回歸結果較為穩健。
2.替換解釋變量衡量方法
其次,本文還替換了解釋變量衡量方法,并將新指標重新回歸其中,WordPro1的計算方式為“相似度加權詞頻/文本總詞頻”,SentPro的計算方式為“相似度加權句頻/文本句頻(除含有英文和數字的句頻)”。回歸結果如表6所示,WordPro1的系數均顯著為負,表明基準回歸結果較穩健。

表6 替換解釋變量衡量方法結果
3.替換被解釋變量衡量方法
接著,本文替換被解釋變量衡量方法并重新進行回歸。其中,參考Easton(2004),PEG模型COC_PEG的計算公式為:

式(4)中,EPS1、EPS2分別為分析師對企業未來一年、兩年的每股收益預測值,P0為期末股價。與MPEG模型相比,PEG模型將未來一期的每股股利DPS1設置為0,因此是MPEG模型的特殊形式。
而參考Ohlson和Juettner-Nauroth(2005),OJN模型COC_OJN的計算公式為:

式(5)中,參考肖作平(2016),本文將r-1設置為0.05,其他變量定義與主回歸相同。
回歸結果如表7所示,由該表可見,無論是使用PEG模型還是OJN模型計算權益資本成本,解釋變量WordPro的系數均顯著為負,表明主回歸結果較穩健。

表7 替換被解釋變量衡量方法結果
4.延長樣本期間
最后,本文還將主回歸樣本期間延長為2007—2021年,樣本期間涵蓋了2008年金融危機以及2020年新冠疫情。由表8可見,盡管延長期間后的樣本噪音較大,解釋變量系數仍顯著為負,表明主回歸結果較穩健。

表8 延長樣本期間結果
數據資源披露通過何種機制影響權益資本成本?本文認為,數據資源的披露能夠幫助投資者獲取公司更豐富的與數據資源價值相關的信息,降低投資者信息風險,進而降低企業權益資本成本,提高資本市場資源配置效率。
為了檢驗投資者是否獲得了更豐富的與數據資源價值相關的信息,本文使用企業市場價值作為中介變量進行檢驗。之所以使用企業市場價值,是因為該指標代表了投資者對企業未來發展的預期,當投資者獲取了企業披露的數據資源信息,其對企業未來發展更樂觀,從而企業股價越高,企業市場價值越大。參考Baron和Kenny(1986)、Ferreira和Matos(2008)的研究,本文首先計算企業市場價值,其公式為:ln((股權市場價值+負債賬面價值)/總資產),然后按照如下模型逐步檢驗:

回歸結果如表9所示,數據自愿披露有助于提高企業市場價值,進而降低企業權益資本成本。

表9 機制檢驗結果
本文以2010—2019年A股上市公司為研究樣本,實證檢驗企業年報中數據資源披露程度與資本市場資源配置效率的關系。研究發現,企業年報中數據資源披露程度越高,企業權益資本成本越低,表明數據資源披露有助于提高資本市場資源配置效率。穩健性檢驗發現,傾向得分匹配、熵平衡匹配,還是替換變量衡量方法、延長樣本期間,主回歸結果均較為穩健。機制檢驗發現,數據資源的披露提高了投資者對企業未來發展的預期,進而降低企業權益資本成本。
根據研究結論,本文提出如下政策建議:(1)對于企業而言,增加數據資源信息披露,以降低權益資本成本,緩解融資約束。(2)對于投資者而言,充分挖掘企業披露文本中包含的數據資源情況,以降低自身的信息不對稱程度,降低數據經濟時代的信息風險,提高投資效率。(3)對于政策制定者而言,積極研究與制定數據資源披露規則,比如如何增加數據資源的文本披露內容,如何將數據資源記入報表等,以提高資本市場資源配置效率,促進資本市場與實體經濟高質量發展。