馬文超+吳商碩+黃麒+劉培基
[摘 要]企業(yè)社會責(zé)任(CSR)報告越來越受重視,其披露內(nèi)容和質(zhì)量成為學(xué)者們研究的重點。文章回顧了以往對CSR報告的質(zhì)量評價、文本挖掘等領(lǐng)域的研究,通過研究發(fā)現(xiàn)不同企業(yè)報告質(zhì)量有差異,不同年份間質(zhì)量相關(guān)性高,利用文本挖掘技術(shù)從個體和上市公司群體角度分析了CSR報告,認為文本挖掘技術(shù)便利了CSR報告的信息獲取,為研究建構(gòu)CSR報告的本體提供了參考,并做出政策建議。文章還對文本挖掘在這一領(lǐng)域內(nèi)的不足做了述評。
[關(guān)鍵詞]文本挖掘;CSR;報告;企業(yè)社會責(zé)任;信息披露
[DOI]10.13939/j.cnki.zgsc.2018.04.016
1 引 言
現(xiàn)代社會,CSR問題的頻頻出現(xiàn)引發(fā)了嚴重的信任危機。社會要求企業(yè)在關(guān)注自身利益時,充分關(guān)注國家和社會的共同利益。對企業(yè)而言,履行社會責(zé)任一方面可以降低與利益相關(guān)者之間的信息不對稱;另一方面,這也是進行公共關(guān)系的有效手段。CSR報告作為企業(yè)向公眾傳達履行社會責(zé)任信息的主要途徑,重要性不言而喻。但是,目前CSR報告的發(fā)展面臨窘境,報告披露的信息多是樂觀、空洞的,況且一個沒有強制審計的報告并不能作為投資者決策的依據(jù),也沒有造假的必要,更可能是企業(yè)粉飾門面的廣告而已。
企業(yè)發(fā)布CSR報告的壓力主要來自證交所和行政壓力、有影響的組織機構(gòu)和社會團體,上交所要求,“上證公司治理板塊”樣本公司、發(fā)行境外上市外資股的公司以及金融類公司必須披露CSR報告,鼓勵其他有條件的公司披露報告。此外,有做大做強動機的企業(yè)也表現(xiàn)出發(fā)布CSR報告的愿望,一個證據(jù)是2012年自愿披露CSR報告的企業(yè)比例為32.47%,2015年達到了42.23%(見表1)。但目前CSR報告市場上也存在阻力:監(jiān)管上,缺少強制性要求;操作上,第三方審驗機構(gòu)收費高昂,不經(jīng)過審計的報告公正性和客觀性有問題,進行審計又不一定能給公司帶來切實利益,企業(yè)也陷入兩難。
2 文獻綜述與假設(shè)
2.1 CSR報告質(zhì)量的評價
陶文杰等(2013)研究了A股上市公司CSR披露和公司績效間的關(guān)系,并引入中介變量媒體關(guān)注度。[1]齊麗云等(2016)構(gòu)建了CSR報告的質(zhì)量評價體系,將報告的實質(zhì)性、完整性、回應(yīng)性、可行性和包容性歸類為核心維度,[2]指明了提高CSR報告質(zhì)量的關(guān)鍵,我們要做的是根據(jù)一定的標準,利用數(shù)據(jù)挖掘工具,衡量CSR報告的質(zhì)量,因此提出假設(shè):使用文本挖掘技術(shù)可以提高CSR報告信息獲取的效率。段釗等(2017)認為企業(yè)披露信息的真實性在文本主客觀描述的差異中有所表現(xiàn),并指出我國上市公司CSR報告中主觀文本占比呈現(xiàn)歷年上升態(tài)勢,不同年份、不同行業(yè)間差異顯著,[3]這有助于CSR報告質(zhì)量的判斷,基于此我們假設(shè),橫向上,CSR報告質(zhì)量有行業(yè)區(qū)分,甚至企業(yè)差別;縱向上,不同年份的CSR報告質(zhì)量有差別。
2.2 基于知識發(fā)現(xiàn)的文本挖掘技術(shù)
文本挖掘(Text Mining)是一種從文本中提取隱含有用信息的計算機處理技術(shù),在商業(yè)領(lǐng)域取得了良好的效果,其操作方法一般包括分詞技術(shù)、詞頻分析、聚類分析、可視化技術(shù)和情感分析等。陸宇杰等(2012)舉例詳細敘述了文本挖掘技術(shù)在社會科學(xué)領(lǐng)域的應(yīng)用,[4]應(yīng)用在CSR報告的研究上,我們認為篇章分析、情感分析和本體建構(gòu)分析是實用的。通過規(guī)范概念、術(shù)語,數(shù)據(jù)挖掘可以助力CSR報告披露標準或質(zhì)量評價體系的建立。除了將財報的審計規(guī)范挪用到CSR報告上,基于文本挖掘進行半自動的本體建構(gòu)大有可為。M.Foucault等(2009)研究認為,政府首腦就職演說中優(yōu)先級更高的部門和任內(nèi)財政預(yù)算的分配沒有關(guān)系,[5]這一發(fā)現(xiàn)打破了傳統(tǒng)觀念,CSR報告中所說與企業(yè)實際所做也可能大有差別。
3 研究設(shè)計
3.1 數(shù)據(jù)來源
我們選擇了100家上交所上市公司CSR報告作為研究主體,剔除了金融業(yè)企業(yè)、ST公司和以圖片為CSR報告主要形式的公司(對圖表形式的報告,文本挖掘技術(shù)無能為力,但我們承認這種形式的有用性),剩下58家企業(yè),從上交所網(wǎng)站下載報告,采用ANSI編碼將PDF格式的報告轉(zhuǎn)換成TXT格式的文本。另一部分數(shù)據(jù)來自潤靈環(huán)球發(fā)布的2012—2015年CSR報告評級數(shù)據(jù)庫。潤靈環(huán)球從整體性、內(nèi)容性、技術(shù)性和行業(yè)性四個零級指標出發(fā)建構(gòu)了完整的評級體系(MCT 2012_1.2i),其中,內(nèi)容性(Content)包含經(jīng)濟績效、勞工與人權(quán)、環(huán)境、公平運營、消費者和社區(qū)參與及發(fā)展等6個一級指標,下分更細的二、三級指標。顯然,若不是十分熟悉潤靈體系并將其納入CSR報告的編寫參考,企業(yè)的報告很難在評分中拿到理想成績。
3.2 假設(shè)檢驗
以證監(jiān)會分類標準為自變量,潤靈環(huán)球的評分為因變量,借助SPSS 22軟件做方差分析,原假設(shè)為各行業(yè)無差異,該檢驗的p值為0.206,這表明CSR報告質(zhì)量不存在行業(yè)差異,這與學(xué)者所說不同,我們認為是由于企業(yè)CSR報告得分整體偏低、行業(yè)間沒有形成規(guī)范所致。以行業(yè)為分組依據(jù)分割文件,此時自變量為不同企業(yè),檢驗各行業(yè)企業(yè)間CSR報告質(zhì)量是否存在差異,該檢驗的p值小于0.01,結(jié)果表明各企業(yè)間的CSR報告存在差異。以歷年的評分為變量做相關(guān)分析,相關(guān)性在0.01上顯著(雙尾),尤其是2014年和2015年報告得分,相關(guān)性達到了0.922,這說明不同年份的企業(yè)CSR報告質(zhì)量不存在差別。
3.3 文本挖掘方法的使用
我們使用沈陽教授研發(fā)的ROST Content Mining軟件進行文本挖掘,選擇潤靈評級中得分較高的兗州煤業(yè)為代表做數(shù)據(jù)挖掘個案分析,再以其所在的采掘業(yè)為代表做行業(yè)分析,最后,用收集的58個樣本企業(yè)做上市公司CSR報告的整體分析。通過上市公司群體的分析,我們希望降低有關(guān)企業(yè)特色和行業(yè)特色的詞匯比重,建立基于CSR更本質(zhì)的語義網(wǎng)絡(luò)。endprint
4 結(jié)論解釋
我們處理了所有樣本企業(yè)的CSR報告,參考潤靈環(huán)球MCTi指標體系和過濾后的高頻詞表,將這些詞(見表2)作為關(guān)鍵詞納入數(shù)據(jù)庫進行分析。通過納入C指標數(shù)量多少與潤靈評級中C指標得分高低的匹配,p值小于0.01,因此我們認為文本挖掘技術(shù)可以提高CSR報告信息獲取的效率。高頻詞間的關(guān)系可以通過共現(xiàn)矩陣進行描述,通過分析兗州煤業(yè)CSR報告高頻詞共現(xiàn)矩陣,發(fā)現(xiàn)部分高頻詞間較少甚至沒有共現(xiàn)過,我們認為這是因為不同關(guān)鍵詞處在報告的不同部分,分工不同。
兗州煤業(yè)CSR報告篇幅較長,可以達到行業(yè)內(nèi)其他企業(yè)的3倍以上,以報告頁數(shù)和潤靈評分為變量做相關(guān)分析,p值小于0.01,Pearson相關(guān)系數(shù)達0.902,由此得出結(jié)論,報告頁數(shù)和評分高低正相關(guān),我們認為可能是因為頁數(shù)越多,披露信息量越大,得分點相對而言也就越多。在采掘業(yè)報告的高頻詞表中我們認為代表兗州煤業(yè)企業(yè)特色關(guān)鍵詞的比重已經(jīng)下降,但不是特別明顯,限于篇幅,行業(yè)分析就不展開了。
最后是上市公司群體的分析。基于兗州煤業(yè)CSR報告高頻詞共現(xiàn)矩陣如表3所示,ROST軟件繪制了關(guān)鍵詞語義網(wǎng)絡(luò)圖。我們看到,無論是個案(行業(yè))還是上市公司群體,“安全”“員工”“管理”“環(huán)境”等一直處在CSR報告的核心地位,一方面是因為文件要求,如2008年上交所《環(huán)境披露指引》;另一方面員工權(quán)益、安全管理等也是社會關(guān)注的重點。不同于單個企業(yè)的CSR報告,行業(yè)和上市公司群體的CSR報告的內(nèi)容和質(zhì)量能對市場的規(guī)范化提供參考,因此呈現(xiàn)出的關(guān)鍵詞不能根據(jù)賦權(quán)簡單地認定重要與否,語義網(wǎng)絡(luò)中不起眼的,不代表不能提供有效信息;處于邊緣地位的,亦有可能是未來的方展方向。我們特意用9×9的矩陣讓大家看到,關(guān)鍵詞“股東”與前8個高頻詞甚至沒有一次共現(xiàn)的情況,這在以往的研究中或許被忽視,但共現(xiàn)矩陣發(fā)現(xiàn)了它。
5 展望與不足
5.1 展望
通過研究文本挖掘技術(shù)在CSR報告中的應(yīng)用,我們可以為相關(guān)制度的出臺提供參考,規(guī)范企業(yè)的社會責(zé)任行為,也能幫助開拓完善CSR報告的評價體系,還能為公眾閱讀理解CSR報告提供便利。但是,基于某些方面的考慮,部分信息企業(yè)可能都不愿意披露,重要概念、術(shù)語也沒有規(guī)范,基于文本挖掘的本體建構(gòu)就不會全面,所以在事先立法設(shè)規(guī)時就應(yīng)將有關(guān)事項予以明確。從另一個角度看,不同企業(yè)CSR報告質(zhì)量存在差異,但這種差異不是不可以消除,相關(guān)行業(yè)視情況應(yīng)出臺一些指導(dǎo)性意見用以自律,但不應(yīng)越權(quán)管理或強制執(zhí)行。此外,對于包括但不限于文本挖掘研究的成果,企業(yè)得到反饋后可能在之后的報告中做出改變,加強重要相關(guān)信息的準確度,而對其他敏感信息故意模糊,[6]使文本挖掘的成果無法運用到下一期,因此文本挖掘技術(shù)的應(yīng)用有不可避免的滯后性,起不到預(yù)測作用。
5.2 研究不足
研究的不足之處,大體上可分為方法上和技術(shù)上兩類。我們認為,CSR報告中關(guān)鍵詞越多,報告越全面;主觀文本越少,報告越客觀。這樣的假設(shè)存在兩個問題,一是與履行CSR無關(guān)的詞匯在報告中大量出現(xiàn),[7]它們并不屬于關(guān)鍵詞,這使得報告全面性不夠;二是語義分析雖然可以從非結(jié)構(gòu)化的文本中提取有用信息,但前提是企業(yè)信息披露是充分、準確的,這在現(xiàn)實中很難做到,以上是方法上的不足。技術(shù)上,我們的分詞技術(shù)并不完善,在一定程度上,行業(yè)術(shù)語的暴力切分不影響本體建構(gòu)的基礎(chǔ),但總歸是不令人滿意,還有就是同一個詞在上下文的意義不盡相同,這使得確定關(guān)鍵詞、統(tǒng)計頻數(shù)和構(gòu)造共現(xiàn)矩陣上存在很大問題。
參考文獻:
[1]陶文杰,金占明.媒體關(guān)注下的CSR信息披露與企業(yè)財務(wù)績效關(guān)系研究及啟示——基于我國A股上市公司CSR報告的實證研究[J].中國管理科學(xué),2013,21(4):162-170.
[2]齊麗云,張碧波,李騰飛.企業(yè)社會責(zé)任報告質(zhì)量評價研究[J].科研管理,2016(4):644-651.
[3]段釗,何雅娟,鐘原.企業(yè)社會責(zé)任信息披露是否客觀——基于文本挖掘的我國上市公司實證研究[J].南開管理評論,2017,20(4):62-72.
[4]陸宇杰,許鑫,郭金龍.文本挖掘在人文社會科學(xué)研究中的典型應(yīng)用述評[J].圖書情報工作,2012,56(8):18-25.
[5]Foucault M,F(xiàn)ranois A.General Policy Speech of Prime Ministers and Fiscal Choices in France:“Preach Water and Drink Wine!”[M].//Do They Walk Like They Talk?.New York:Springer,2009:131-154.
[6]Li F.Annual Report Readability,Current Earnings,and Earnings Persistence[J].Journal of Accounting and Economics,2008,45(2):221-247.
[7]李慧云,周華艷,胡欣蕾,等.自愿性信息披露質(zhì)量評判方法的架構(gòu)與實現(xiàn)[J].統(tǒng)計與決策,2017(8):70-73.
[8]趙美,黃麒.文本挖掘在企業(yè)社會責(zé)任報告研究中的應(yīng)用探析[J].中國市場, 2017(19).
[9]陳茜,連婉琳.基于文本挖掘技術(shù)的互聯(lián)網(wǎng)股票新聞的情感分類[J].中國市場,2015(24).
[10]王澤恩.我國企業(yè)社會責(zé)任探究[J]. 中國市場,2017(4).
[11]王月恒,王晶,劉欣俠.大數(shù)據(jù)時代新型對外貨物貿(mào)易統(tǒng)計體系研究[J]. 中國市場,2017(19).endprint