999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱含狄利克雷分配模型的企業創新測量方法研究

2024-02-06 04:20:29葉琴蔡建峰張秋韻
科技進步與對策 2024年2期

葉琴 蔡建峰 張秋韻

收稿日期:2022-04-17? 修回日期:2022-08-25

基金項目:國家社會科學基金重大項目(18ZDA103);國家社會科學基金一般項目(21BGL012)

作者簡介:葉琴(1989-),女,江西撫州人,西北工業大學管理學院博士研究生,研究方向為創新管理、非市場化戰略;蔡建峰(1964-),男,山東平原人,博士,西北工業大學管理學院教授、博士生導師,研究方向為技術創新管理、戰略管理;張秋韻(1997-),女,陜西西安人,西北工業大學計算機學院博士研究生,研究方向為深度神經網絡、機器學習。

摘? 要:如何準確測量企業創新是國家創新驅動發展戰略背景下學界和業界亟待解決的關鍵問題。近年來,專利和研發支出作為當前主流企業創新代理指標備受質疑。為此,基于上市公司分析師報告文本,引入機器學習領域非監督學習方法,通過構建隱含狄利克雷分配主題模型,開發一種新的測量企業創新的方法,并與當前主流方法進行比較。研究發現:①基于文本的企業創新測量方法既適用于專利和研發企業,也適用于非專利和非研發企業;②對于專利和研發企業而言,基于文本的企業創新與企業專利申請和研發支出顯著相關;對于非專利和非研發企業而言,新測量方法能夠有效識別企業利用新技術、開辟新市場等創新實踐;③時間序列分析表明,基于文本分析的企業創新能夠準確反映樣本區間企業創新活動宏觀趨勢。

關鍵詞關鍵詞:隱含狄利克雷分配模型;企業創新;文本分析;主題模型;分析師報告

DOI:10.6049/kjjbydc.2022040376

開放科學(資源服務)標識碼(OSID)????? 開放科學(資源服務)標識碼(OSID):

中圖分類號:F273.1

文獻標識碼:A

文章編號:1001-7348(2024)02-0090-09

0? 引言

企業是創新的重要主體,準確測量企業創新是國家出臺相關政策激勵企業創新的基本前提。學術界圍繞企業創新測量開展了廣泛研究,現有文獻主要采用專利數量、研發支出、新產品數量、新產品銷售額占比等指標測度企業創新,還有部分研究運用問卷調研法,通過與競爭對手在產品創新和工藝創新等方面的比較測度企業創新。一方面,專利數量、研發支出等指標與企業創新構念內涵契合度不高;另一方面,利用問卷調研法獲取企業創新評價數據,容易受被調查者心理偏差的影響。因此,已有企業創新測量方法并不能客觀、有效反映企業創新實踐[1],尤其是將專利數量和研發支出作為常用指標無法有效測度企業創新。世界知識產權報告顯示,2019年我國發明專利申請量超過美國、日本、韓國和歐洲專利局總和,實用新型專利和外觀設計專利申請量分別占全球總量的96.9%和52.3%,全年研發經費22 143.6億元,位居世界第二。專利申請數量和研發經費投入均位居世界前列,與我國創新實力與發達國家相比仍存在較大差距的客觀現實形成反差,說明專利數量和研發支出并不能有效反映企業創新實力[2]。此外,現代創新理論奠基者約瑟夫·熊彼特指出,企業創新包括生產新產品、采用新生產方法、開辟新市場、獲得新供應來源以及建立新組織形式5個方面。新產品數量和新產品銷售額占比等代理指標主要反映產品創新,忽略了企業創新的其它方面。因此,如何準確、有效測度企業創新成為當前社會各界亟待解決的關鍵問題。

得益于自然語言處理技術和機器學習算法的發展,非結構化文本大數據為企業創新測量提供了新視角。自然語言處理領域經典的隱含狄利克雷分配(Latent Dirichlet Allocation, LDA)主題模型將每篇文檔看作是一個詞頻向量,將文本信息轉化為易于建模的數值信息[3],以無監督的機器學習方式對文本語料庫隱含的語義結構進行聚類分析并生成潛在主題,可對大規模語料潛藏主題信息進行有效識別,已廣泛應用于文本主題挖掘研究[4]。本文借鑒前人研究成果,將LDA主題模型引入企業創新測量研究,以金融分析師的研究報告(簡稱分析師報告)為語料,利用LDA主題建模工具構建基于文本分析的企業創新測度模型,以解決傳統企業創新測量不夠全面和客觀的問題。分析師報告文本內容不僅涵蓋分析師對企業產品創新、流程創新、市場創新、供應來源創新、組織創新的客觀描述和專業評價,對于全面理解和準確把握企業創新信息具有顯著價值[5],而且在文本結構和用詞等方面也具有相似特征,為LDA主題建模方法的使用奠定了良好基礎。因此,本研究利用LDA主題模型對分析師報告語料進行文本分析,識別企業創新主題,提取每份分析師報告關于企業創新主題的負載強度,將其作為測量企業創新水平的代理指標,以全面、客觀地反映企業創新實踐。

本文主要貢獻在于:①提供一種新的企業創新測量方法。基于文本分析的企業創新測量包含非專利創新,這是目前利用專利測量企業創新的重大局限,而本文創新測度不依賴專利和研發支出數據,能夠測度沒有專利和研發的企業;②進一步拓寬文本大數據在企業管理研究中的應用。文本大數據已被廣泛用于測度投資者情緒和媒體關注度,本研究運用文本大數據刻畫企業創新,可豐富文本大數據應用于企業創新研究;③對分析師行為研究進行有益補充。已有文獻主要關注分析師報告的定量信息(分析師預測、分析師覆蓋)對投資者和企業創新的影響,忽略了文字內容,不利于全面認識分析師行為。

1? 文獻回顧

1.1? 企業創新內涵與測量

經濟學家熊彼特揭開創新理論研究的序幕,提出創新是建立新的生產函數,引進或重組生產要素或生產條件,創新的目的在于謀求潛在經濟利益[6]。隨后,熊彼特進一步指出,創新包括生產新產品、采用新生產方法、開辟新市場、獲得新原料或半成品新供應來源以及建立新組織形式。創新概念被提出后,學者從不同視角對企業創新進行分析,主要包括過程觀和結果觀兩種視角。秉持過程觀視角的研究認為,企業創新本質上是一個過程。Nelson & Winter(1977)將企業創新定義為企業產生、采納和應用新思想、新活動的過程;國內學者陳勁和陳鈺芬(2006)指出,企業創新是新思想從產生、研究、開發、制造到商品化的全過程。秉持結果觀視角的學者把企業創新視為創造新的結果,結果形式可以多種多樣,如產品創新、服務創新、市場創新、流程創新、商業模式創新等[7]。本文采納Crossan & Apaydin(2010)的觀點,認為企業創新既是一個過程也是一種結果,是企業對經濟和社會領域中新價值生產、采納、同化和應用的過程,包含更新或擴大產品、服務和市場,發展新生產方法以及建立新管理體系。

對于企業創新的測量,學術界尚未形成共識。現有文獻基于研究目的和研究視角不同,采用多種研究方法測度企業創新。總體來看,企業創新測量方法可歸納為3類:①根據數據收集方式,包括主觀測量法和客觀測量法;②按照測量指標選取,包括過程類指標和結果類指標;③根據測量內容,包括專利測量法、新產品測量法和研發投入測量法。

(1)從數據來源看,企業創新測量方法包括主觀測量法和客觀測量法兩種。主觀測量法以量表形式,通過問卷調研獲取被調查者對企業創新的主觀評價等相關數據。如與競爭對手相比,企業在產品創新、工藝創新、市場創新、管理創新等方面的表現[8]。客觀測量法則利用上市公司數據、企業專利數據、企業調查數據、權威機構以及公開出版物數據等二手數據客觀測量企業創新,包括專利數量、企業研發支出等[9]。主觀測量法和客觀測量法各有優劣,主觀測量法能夠較好地契合企業創新構念,但容易受被調查者心理偏差的影響。客觀測量法雖然具有可靠性、可復制性等優點,但往往難以很好地契合企業創新構念。

(2)從測量指標看,企業創新測量指標主要包括過程類指標和結果類指標。其中,過程類指標主要測量企業創新過程,如研發人員與生產部門交流頻率、企業運用新技術的速度和水平、管理方法改進速度、機器設備領先程度等[10]。然而,許多學者認為專利、新產品等企業創新結果更能體現企業創新水平,代表性結果類指標包括專利申請數、專利增長率、專利申請數與研發投入比、新產品數量、新產品銷售額、新產品銷售額占比等[11]。

(3)從測量內容看,企業創新測量方法主要包括專利測量法、新產品測量法和研發投入測量法。其中,專利測量法以企業專利數據為依據測度企業創新水平,是企業創新研究領域主流測量方法之一。企業創新相關文獻圍繞專利展開了豐富研究,主要指標包括專利申請數量、專利授權數量、專利引證數、專利被引數、專利存續期、專利權利要求數、專利技術分類號數、專利轉讓次數等[12]。新產品測量法以新產品指標測量企業創新實踐,是企業創新測量的另一種主流方法。新產品銷售額、利潤率、市場占有率等財務指標和新產品數量、質量、開發速度、開發成功率等非財務指標也常被用于測量企業創新[13]。研發投入測量法相關研究認為,研發投入是表征企業創新的重要指標[14],研發投入有絕對投入和相對投入之分。典型的絕對研發投入指標包括企業研發人員數、企業研發支出額等,相對投入指標包括企業研發人員數占員工總量的比重、研發支出占企業總資產或營業收入的比重等[15]。

1.2? 文本分析在經管領域的研究進展

自然語言處理作為人工智能的重要分支,越來越廣泛地應用于各個領域。在經管研究領域,學者習慣稱其為文本分析[16]。文本分析技術發展使來源多樣、體量龐大、時頻高的文本大數據在經管領域的應用方興未艾[3]。其中,最具有代表性的是Baker等[17]采用新聞文本數據構建EPU指數,用以度量經濟政策不確定性。EPU指數得到學術界普遍認可,國內外許多文獻研究EPU指數與其它變量之間的關系,尤其是對企業經營管理活動的影響[18]。另一個典型指標是基于上市公司定期報告、業績說明會和招股說明書等文本大數據提取文本情緒,從而構建管理層語調[19]。林煜恩等[20]使用2008—2017年中國A股上市企業財務報告文本數據研究管理層語調與企業創新之間的關系,發現管理層語調正向影響企業創新。除語調外,文本可讀性或復雜性也是文本大數據的常用變量。例如,Li[21]根據文本平均詞語長度和復雜詞語所占比重度量年報可讀性,證實年報可讀性與企業盈利水平正相關;孟慶斌等[22]利用上市企業年報中管理層討論與分析部分常用漢字詞語占比測量文本可讀性。此外,文本分析技術還用于預測經濟周期、度量媒體報道、刻畫媒體關注度等[23]。

1.3? 主題模型相關研究

主題模型以非監督學習方式對目標文集的隱含語義結構進行聚類分析,將每篇文檔看作是一個詞頻向量,并將文本信息轉化為易于建模的數字信息[24]。主題模型的一個潛在假設是每篇文檔都由一組固定的主題生成,其中主題是字和詞的一種概率分布。主題模型早期思想來源于潛在語義索引(Latent Semantic Indexing, LSI)模型提出的潛在語義空間[25]。隨后,Hofmann等[26]提出概率潛在語義索引模型(Probabilistic LSI, PLSI);在此基礎上,Blei等[27]提出隱含狄利克雷分配(Latent Dirichlet Allocation, LDA)主題模型,彌補了PLSI模型不是完整文檔生成模型的不足。LDA主題模型是一個三層貝葉斯概率模型,包含詞、主題和文檔3層結構,使用Dirichlet分布作為主題分布信息的先驗知識。LDA主題模型可利用概率模型學習文本數據的潛在語義結構,因此常被用于文本挖掘。Thorsrud[23]使用LDA主題模型,從挪威商業新聞數據中提取80個主題,并據此構建日度經濟周期指數;Hansen & McMahon[28]采用LDA主題模型,從聯邦公開市場委員會討論中提取與當前經濟狀態相關的5個主題;Hansen等[29]利用LDA主題模型提取相關信息,研究央行政策溝通透明度對貨幣政策制定者商議過程的影響;曹麗娜和唐錫晉[4]以天涯雜談首發帖為數據來源,將主題模型引入BBS內容分析領域,研究BBS話題演化趨勢;王博等(2015)運用LDA主題模型對專利內容主題進行劃分,探究專利主題與機構之間的內在聯系;國顯達等(2020)基于LDA主題模型獲取在線評論主題分布。

本文通過梳理相關文獻發現,傳統企業創新代理指標主要源自企業財務數據。這些數據單獨使用可以反映企業創新的某個方面,但如何綜合運用這些數據全面刻畫企業創新,以便解決單一指標所引發的測量偏誤至今仍是一個難題。與此同時,這些結構化數據可能會導致分析人員遺漏企業創新信息,如管理層關注重點、企業創新活動關鍵環節等。基于文本大數據,利用LDA主題模型等自然語言處理技術測度企業創新能夠全面反映企業創新情境。因此,重新定義企業創新度量方式對于理解我國企業創新實踐具有重要理論價值和實踐意義。

2? 數據與模型

2.1? 數據來源與樣本選取

上市公司定期報告和招股說明書等文本資料已廣泛應用于構建企業層面變量,但企業自我披露文本經過官方語言加工修飾,往往存在較大的主觀性。新聞媒體報道雖然能夠滿足客觀性要求,但在文本結構和用詞方面卻存在較大差異,難以挖掘企業創新活動真實信息。分析師報告作為第三方文本數據在滿足客觀性和專業性的同時,兼具文本結構和用詞相似的特點,適合文本分析方法。此外,已有研究表明,分析師報告文本內容包含企業產品創新、市場創新、組織創新等企業創新實踐。因此,本研究使用分析師報告文本大數據挖掘企業創新活動。首先,利用Python軟件編程從和訊財經網、新浪財經網、Wind金融終端下載2010—2019年我國A股上市公司發布的分析師報告,共獲得201 569份分析師報告。在此基礎上,按照以下步驟進行篩選:①剔除重復樣本;②剔除同時跟蹤多家上市公司的分析師報告;③剔除字符數少于195(第二百分位數)的分析師報告;④剔除在樣本期內存在ST、*ST等異常狀態的上市公司分析師報告;⑤為保證每個企業樣本數據的完整性,剔除2010年以后上市以及樣本期內數據不全、存在異常值和缺失值的樣本,最終得到47 563個觀測樣本,包括2010-2019年372家A股制造業上市公司。

2.2? LDA主題模型

傳統企業創新測量方法難以全面客觀反映企業創新實踐,機器學習和自然語言處理技術的快速發展為基于非結構化文本大數據的企業創新測量帶來希望。在經管研究領域,非結構化文本已被廣泛用于分析管理層語調、年報信息等[30],分析方法主要包括詞頻分析和主題模型。詞頻分析通過構建關鍵詞詞典識別文本中特定詞匯含量以測度某概念的特征強度,主題模型則通過主題建模識別文本包含的主題信息和主題負載強度。由于詞頻分析方法過于依賴關鍵詞詞典的精準構建,因此本研究使用經典LDA主題模型識別企業創新主題,并在此基礎上提取創新主題負載強度,用以測度企業創新。

LDA主題模型采用詞袋法將文檔轉化為詞頻向量,從而實現復雜文本信息到易于建模的數字信息的轉化。LDA主題模型的基本思想是將每個文檔轉化為多項式分布話題,再將每個話題轉化為多項式分布詞語,且當文檔—話題分布和話題—詞語分布具有共軛的Dirichlet分布時,可基于文檔集通過統計抽樣方法估計未知參數。在LDA模型中,給定一個由M篇文檔組成的語料庫,文檔記為di,文檔di有Ndi個詞語,wij表示文檔di的第j個詞語,假設語料庫中存在K個主題,生成文檔di的詞語wij的具體過程如下:首先,從Dirichlet分布α中抽樣生成文檔di的主題分布θi,i=1,2,3,…,M;其次,從Dirichlet分布β中抽樣得到主題k的詞語分布φk,k=1,2,3,…,K;再次,從主題分布θi中抽樣得到文檔di的第j個詞語的主題kij,j=1,2,3,…,Ndi;接著,從主題kij對應的詞語分布Φkij中抽取詞語wij;最后,重復上述步驟Ndi次。所有變量的聯合分布可表示為:P=∏Ndij=1P(θi;a)P(kij|θi)P(φk;β)P(wij|φkij),其中i∈[1,M],j∈1,Ndi,k∈1,K,詞語wij是模型中唯一的可觀測變量,通過Gibss抽樣法對LDA模型中的參數進行估計,從而得到每個文檔的主題分布θi和每個主題對應的詞語分布φk。

根據Blei等[27]的研究,當擬合一個LDA主題模型時,研究者只需要制定主題總數K,程序從文檔語料庫中生成兩個結果:①在文檔中常見的K個主題的詞頻分布;②每個文檔的主題分布。對于每個文檔,主題分布是一個負載向量,它描述了主題在特定文檔中的使用強度。該方法表明,如果文檔對特定主題具有較高負載強度,說明它很有可能與該主題相關聯。

結合本文研究實際,LDA主題模型能夠發現分析師報告語料庫中的一組主題和每個主題的詞頻分布,這些主題描述了單詞組在分析師報告中的分布經驗,訓練好的LDA主題模型可以計算每份分析師報告在每個主題的負載強度。通過分析主題詞頻分布識別企業創新主題,創新主題負載強度可以解釋一份分析師報告在多大程度上能用創新描述[5],為此提取企業創新主題負載強度測量企業創新水平。

3? 模型應用與結果分析

在利用LDA主題建模工具將分析師報告解析為創新主題前,需要充分考慮分析師報告的信息屬性和分析師撰寫研究報告的激勵因素。已有研究表明,分析師報告文本包含企業價值活動信息,創新作為企業價值活動最重要的組成部分,分析師報告文字描述能夠提供與企業創新相關的見解[31]。表1摘錄的部分分析師報告文本從直觀上可以反映分析師對企業創新活動的定性描述。通過簡單梳理文獻發現,分析師報告文本能夠捕獲專利以外的企業創新活動。

總之,分析師報告定性描述企業創新活動是本研究對分析師報告進行文本分析的前提。除包含與創新相關的企業價值活動信息外,與媒體報道和公司自我披露等文本大數據相比,分析師報告在用詞和文本結構等方面具有相似性特征。鑒于LDA主題建模方法假設每份分析師報告均基于一組共同的潛在主題構建,因此分析師報告為LDA主題建模方法的使用奠定了良好基礎。

3.1? 基于LDA主題模型的企業創新測度

為對企業創新進行測度,本研究使用47 563份分析師報告作為基礎文檔語料估計一個K個主題的LDA模型。雖然主題數量是擬合LDA模型的唯一自由度,但已有LDA研究并沒有提供如何選擇適當的主題數量。因此,本文參考前人研究[32],通過最大化似然函數獲得最優主題數量。最終,得出K=5是符合分析師報告上下文的最佳主題數。為準確獲取創新主題,以陳勁和鄭剛[33]編著的創新管理領域的權威教科書《創新管理:贏得持續競爭優勢(第三版)》為基準,選擇與該書詞語分布相似度最高的主題。具體而言,計算每個主題詞語分布與基準文本的余弦相似度(Cosine Similarity)和杰卡德相似度(Jaccard Similarity),選擇余弦相似度和杰卡德相似度最高的主題,使用該主題分布代替基準教科書中詞語分布的預期信息損失最小,相當于選擇關于基準教科書信息最豐富的主題。

另外,本文考慮文本情緒對企業創新的影響,如果一份分析師報告對某企業持負面態度,那么其對創新話題的強烈關注不太可能反映企業創新。為此,將樣本限定在那些積極情緒得分前75%的分析師報告。分析師報告的積極情緒得分基于Loughran & McDonald[34]提出的商業領域情感詞典,通過Python軟件中的jieba模塊對分詞和停用詞進行過濾,根據公式P-NT進行計算,記為變量pos_senti。其中,P表示正面詞語數量(Positive Words),N表示負面詞語數量(Negative Words),T表示該分析師報告的詞語總數(Total Words)。pos_senti的平均值為0.047 8,下四分位數為0.027 6,中位數為0.047 7,上四分位數為0.068 5,其分布情況如圖1所示。本研究將積極情緒得分低于下四分位數分析師報告的創新主題負載強度記為0。然后,將分析師報告層面創新主題負載強度聚合到企業年度層面(firm-year level),利用LDA主題建模衡量企業創新數值,記為變量innov_text。

3.2? 結果分析

創新主題與描述企業創新的因素密切相關。圖2以詞云圖的形式展示創新主題詞語分布。撰寫創新這個話題時,分析師最常用的詞語是領域、技術、發展、國內、智能、研發、平臺、服務、合作、布局。除直觀考察上下文用詞外,本文還計算分析師報告的pos_senti和innov_text相關系數僅為0.032 5,表明基于文本的企業創新不太可能反映企業收益的積極情緒。此外,innov_text高的分析師報告較為詳細地描述了企業創新相關活動,如表1所示。

(1)企業申請和獲得專利結果比較。分析沒有申請專利企業的創新表現是基于文本測度企業創新的主要優勢。為比較企業申請和獲得專利情況,本研究以數據較為完整的我國制造業A股372家上市公司為例,發現在3 720個樣本中有266個樣本專利申請數量為0。圖3展示了申請專利樣本與未申請專利樣本企業創新測量結果。從中可見,雖然申請專利樣本具有較高的innov_text值,但innov_text在兩類樣本之間的分布具有很大的重疊。這表明,盡管有些樣本企業沒有專利申請,但仍然具有較強的創新性。具有較強創新性的未申請專利企業具體案例也與這一觀點相符(見表1(a))。表2樣本分組t檢驗結果顯示,平均而言,申請專利樣本企業比未申請專利樣本企業的innov_text值顯著高0.009,表明innov_text與企業是否申請專利存在顯著正相關關系。此外,為保證研究結果的可靠性,本研究采用企業專利獲得數(patents_g)替換專利申請數(patents_a)進行穩健性檢驗,發現結論保持一致。表3相關性分析結果顯示,innov_text與patents_a和patents_g顯著正相關。可見,本研究采用基于文本的企業創新測量與企業同期申請和獲取專利密切相關。

(2)企業研發支出比較。基于文本的企業創新測量方法同樣也適用于測度沒有研發支出數據的企業(簡稱非研發企業)。在制造業企業樣本中有175個樣本企業研發支出為缺失值。與非專利企業類似,許多非研發企業具有較強的創新性。非研發企業與研發企業基于文本的企業創新測量結果如圖3所示。由圖3可知,基于文本測度的企業創新在非研發企業與研發企業之間的分布有很大的重疊,反映出利用研發支出作為企業創新代理變量忽略了企業的重要創新活動。從分析師報告的文本內容看,基于文本分析的企業創新度量能夠有效反映企業引進新技術的決策,而這些信息難以在研發支出中體現。圖4展示了基于文本分析的企業創新和企業研發支出(研發支出總額和研發支出占營業收入比值)隨時間變化的趨勢。在2010—2019年時間序列中,基于文本分析的企業創新與研發支出總額以及研發支出占營業收入的比重均存在較強的相關性,相關系數分別為0.845 1和0.871 8(在1%水平上顯著)。可見,基于文本分析的企業創新能夠較好地反映2010-2019年時間序列中企業創新活動宏觀趨勢。

綜上所述,基于文本分析的企業創新不僅能夠反映專利企業和研發企業創新活動,還能刻畫非專利企業和非研發企業的創新表現,擴大企業創新研究適用樣本,體現企業創新綜合性特征。專利和研發支出等傳統企業創新代理指標通常與新產品生產有關,但忽略了新生產方法、新市場開發、新供應來源、新組織形式等其它方面企業創新。基于文本分析的企業創新作為一種綜合性測量結果,突破了傳統代理指標的局限性。

4? 結論與展望

4.1? 研究結論

本文基于分析師報告文本內容,通過構建LDA主題模型得到文本所包含的主題信息,通過分析主題詞頻分布識別企業創新主題,提取創新主題負載強度測量企業創新,開發一種測量企業創新的新方法,在此基礎上對基于文本分析的企業創新進行測度并對專利、研發投入等傳統企業創新代理指標進行比較,得出如下研究結論:①本文測量方法能夠有效反映廣泛存在的非專利企業和非研發企業的創新實踐,包括利用和引進新技術等創新活動;②基于文本分析的企業創新測量與專利申請數、專利授權數、研發支出總額、研發支出占營業收入比值4種傳統企業創新代理指標具有顯著相關性,基于非結構化文本大數據的創新測量方法適用于專利企業和研發企業;③通過時間序列分析發現,與企業研發支出隨時間變化趨勢一致,基于文本分析的企業創新有效體現了樣本區間企業創新活動宏觀趨勢。

4.2? 啟示與建議

創新是國家經濟發展的重要引擎,企業在國家創新發展中扮演著關鍵性角色,是創新的重要主體。相比于發達國家而言,我國企業創新發展起步較晚,如何制定并實施相關政策助力企業在創新發展賽道上實現從模仿到跟跑、并跑、領跑,是當前社會各界關注的重要議題。本文研究結論對于企業創新實踐和政府出臺激勵政策具有重要啟示意義。

(1)對于企業創新實踐而言,創新是高度復雜、系統化的工程,企業應該注重產品創新、流程創新、市場創新、供應來源創新、組織創新等方面的平衡發展,實現對生產要素或生產條件的新組合。一方面,從發達國家企業創新發展歷史邏輯和現實路徑看,產品、流程、市場等全方位創新是市場競爭發展到高級階段的必然結果,企業只有充分重視各個方面創新,才能在激烈的市場競爭中維持可持續發展;另一方面,全方位構建競爭優勢是企業全面均衡發展的內在要求。當前,國內外發展環境面臨深刻復雜的變化,世界正經歷百年未有之大變局,這個重要歷史戰略機遇期為我國企業進一步增強國際競爭實力提供了空間和時間。

(2)對于政策制定者而言,單純依靠專利數量或研發投入等指標判斷企業創新水平具有一定局限性,應綜合考量企業各個方面的創新實踐,構建全面、系統的企業創新支持政策體系。首先,各級政府應繼續加大研發補貼、稅收優惠和融資便利等創新政策支持力度。自國家創新驅動發展戰略實施以來,各級政府先后出臺各種扶持政策,并取得多樣化效果,特別是調動了企業創新發展積極性。未來,在總結前期政策效果的基礎上,應進一步加大有效政策支持力度,使企業成為國家創新發展的馬達;其次,各級政府在制定和實施企業創新發展政策過程中應該注重精準施策,靶向發力。盡管各類創新政策的出臺在一定程度上推動了企業創新投入和產出,但是當前相關政策仍然十分籠統,下一階段要強調政策的精準性和針對性,有的放矢地促進企業創新發展。

4.3? 不足與展望

本研究在中文語境下,利用機器學習領域文本分析技術測量企業創新尚處于探索階段,未來應進行如下拓展:①僅以分析師報告為樣本,但本文研究方法還可應用于其它文本大數據,如媒體報道、業績說明會、定期報告等,未來將采用不同信息披露方式挖掘多元文本大數據,并將其作為企業創新測量的有益補充;②為保證數據完整性,將研究對象限定為制造業,未來應將研究樣本延伸至其它行業,以增強研究結論的普適性;③探討基于文本分析的企業創新測度與專利數量和研發支出等常用企業創新代理指標的關系,未來將進一步挖掘文本分析數據,探究基于文本分析的企業創新測量數據與總資產收益率、凈資產收益率、托賓Q值等企業經營績效的關系,嘗試得出一些創新性結論。

參考文獻:

[1]朱雪忠,胡成.專利是測度企業技術創新績效的有效工具嗎[J].科學學研究,2021,39(8):1498-1503.

[2]HALL B, HELMERS C, ROGERS M, et al. The choice between formal and informal intellectual property: a review[J]. Journal of Economic Literature, 2014, 52(2): 375-423.

[3]沈艷,陳赟,黃卓.文本大數據分析在經濟學和金融學中的應用:一個文獻綜述[J].經濟學(季刊), 2019, 18(4): 1153-1186.

[4]曹麗娜,唐錫晉.基于主題模型的BBS話題演化趨勢分析[J].管理科學學報, 2014, 17(11): 109-121.

[5]BELLSTAM G,BHAGAT S,COOKSON J A.A text-based analysis of corporate innovation[J]. Management Science, 2021, 67(7): 4004-4031.

[6]AHUJA G, LAMPERT C M, TANDON V. Moving beyond schumpeter: management research on the determinants of technological innovation[J]. Academy of Management annals, 2008, 2(1): 1-98.

[7]CHEN J-S, TSOU H-T, CHING R K. Co-production and its effects on service innovation[J]. Industrial Marketing Management, 2011, 40(8): 1331-1346.

[8]解學梅,左蕾蕾.企業協同創新網絡特征與創新績效:基于知識吸收能力的中介效應研究[J].南開管理評論, 2013, 16(3): 47-56.

[9]朱磊,陳曦,王春燕.國有企業混合所有制改革對企業創新的影響[J].經濟管理, 2019, 41(11): 72-91.

[10]KHALILI H, NEJADHUSSEIN S, FAZEL A. The influence of entrepreneurial orientation on innovative performance: study of a petrochemical company in Iran[J]. Journal of Knowledge-based Innovation in China, 2013, 5(3): 262-278.

[11]ZHOU K Z, GAO G Y, ZHAO H. State ownership and firm innovation in China: an integrated view of institutional and efficiency logics[J]. Administrative Science Quarterly, 2017, 62(2): 375-404.

[12]郝項超,梁琪.非高管股權激勵與企業創新:公平理論視角[J].金融研究,2022,65(3):171-188.

[13]BROCKMAN B K, MORGAN R M. The role of existing knowledge in new product innovativeness and performance[J]. Decision Sciences, 2003, 34(2): 385-419.

[14]余明桂,鐘慧潔,范蕊.業績考核制度可以促進央企創新嗎[J].經濟研究, 2016, 51(12): 104-117.

[15]HIRSHLEIFER D, LOW A, TEOH S H. Are overconfident CEOs better innovators[J]. The Journal of Finance, 2012, 67(4): 1457-1498.

[16]趙晶,陳宣雨,遲旭.基于文本分析的企業國際化測量方法及應用研究[J].中國軟科學, 2021,36(1): 136-146.

[17]BAKER S R, BLOOM N, DAVIS S J. Measuring economic policy uncertainty[J]. The quarterly Journal of Economics, 2016, 131(4): 1593-1636.

[18]GULEN H, ION M. Policy uncertainty and corporate investment[J]. The Review of Financial Studies, 2016, 29(3): 523-564.

[19]JIANG F, LEE J, MARTIN X, et al. Manager sentiment and stock returns[J]. Journal of Financial Economics, 2019, 132(1): 126-149.

[20]林煜恩,李欣哲,盧揚,等.管理層語調的信號和迎合:基于中國上市企業創新的研究[J].管理科學,2020,33(4): 53-66.

[21]LI F. Annual report readability, current earnings, and earnings persistence[J]. Journal of Accounting and economics, 2008, 45(2-3): 221-247.

[22]孟慶斌,楊俊華,魯冰.管理層討論與分析披露的信息含量與股價崩盤風險——基于文本向量化方法的研究[J].中國工業經濟, 2017,35(12): 132-150.

[23]THORSRUD L A. Words are the new numbers: a newsy coincident index of the business cycle[J]. Journal of Business & Economic Statistics, 2020, 38(2): 393-409.

[24]徐戈,王厚峰.自然語言處理中主題模型的發展[J].計算機學報, 2011, 34(8): 1423-1436.

[25]DEERWESTER S, DUMAIS S T, FURNAS G W,et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.

[26]HOFMANN T. Probabilistic latent semantic indexing[C]. Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999: 50-57.

[27]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3(1): 993-1022.

[28]HANSEN S, MCMAHON M. Shocking language: understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

[29]HANSEN S, MCMAHON M, PRAT A. Transparency and deliberation within the FOMC: a computational linguistics approach[J]. The Quarterly Journal of Economics, 2018, 133(2): 801-870.

[30]馬黎珺,伊志宏,張澈.廉價交談還是言之有據——分析師報告文本的信息含量研究[J].管理世界, 2019, 35(7): 182-200.

[31]HUANG A H, ZANG A Y, ZHENG R. Evidence on the information content of text in analyst reports[J]. The Accounting Review, 2014, 89(6): 2151-2180.

[32]TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical dirichlet processes[J]. Journal of the American Statistical Association, 2006, 101(476): 1566-1581.

[33]陳勁,鄭剛.創新管理:贏得持續競爭優勢(第三版)[M].北京:北京大學出版社, 2016.

[34]LOUGHRAN T, MCDONALD B. When is a liability not a liability? textual analysis, dictionaries, and 10-Ks[J]. The Journal of Finance, 2011, 66(1): 35-65.

責任編輯(責任編輯:王敬敏)

英文標題Measuring Corporate Innovation Based on LDA Topic Model

英文作者Ye Qin1,Cai Jianfeng1,Zhang Qiuyun2

英文作者單位(1.School of Management, Northwestern Polytechnical University;2.School of Computer Science, Northwestern Polytechnical University, Xi′an 710129, China)

英文摘要Abstract:The Chinese government firmly adheres to the path of independent innovation with Chinese characteristics and implement an innovation-driven development strategy. As the main body of innovation, enterprises play a pivotal role in promoting national innovation and transformation, therefore the research on corporate innovation has received extensive attention from the academic community. Scholars have carried out a variety of theoretical and empirical studies around corporate innovation and have obtained some remarkable achievements. However, the important issue of how to accurately measure corporate innovation waits to be addressed. This problem is challenging for both the academic circles and the industrial field especially under the background of the national innovation-driven development strategy in China. The current mainstream proxy indicators of corporate innovation, such as numbers of patents and research and development (R&D) expenditures, have recently been criticized since they can only reflect some aspects of corporate innovation, while ignoring other vital parts of corporate innovation activities. Wherefore this paper tries to develop a new method to comprehensively and accurately measure corporate innovation based on text analysis using the natural language processing technique and machine learning algorithms.

This research introduces the unsupervised learning method in the field of machine learning and develops a new method of measuring corporate innovation by constructing the Latent Dirichlet Allocation (LDA) topic model based on the text of analyst reports of listed companies. The textual content of analyst reports covers both the objective description and professional evaluation on various aspects of corporate innovation, such as product innovation, process innovation, market innovation, supply source innovation and so on. Besides, it has similar characteristics in terms of text structure and wording, which lays a good foundation for the use of LDA topic modeling method. To start with, Python3.8 is applied to write a program to automatically download all the analyst reports issued for China′s A-share listed companies from 2010 to 2019 from Hexun Finance Website, Sina Finance Website and Wind Financial Terminal. A total of 201 569 analyst reports are obtained. After a series of data cleaning, The study gets 47 563 samples which are used as a corpus to train the LDA topic model, identify the corporate innovation topic, calculate the load intensity of each analyst report on the corporate innovation topic, and extract the corporate innovation topic load intensity as text-based corporate innovation, since the load intensity reflects the extent to which the analyst report describes the corporate with innovation topic reflecting the corporate′s innovation practice. The text-based corporate innovation by the new method is compared with commonly used proxy indicators of corporate innovation.

This study finds that the text-based corporate innovation measurement method is applicable to companies with and without patents as well as R&D expenditures. For firms with patents, text-based corporate innovation is significantly related to patent applications. While for firms without patents, the new measurement method can effectively identify the innovative practices including but not limited to using new technologies and entering new markets. The same goes for firms with and without R&D expenditures. For firms with R&D expenditures, text-based corporate innovation is significantly related to R&D expenditures, while for firms without R&D expenditures, text-based corporate innovation can efficiently capture corporate innovation activities. The time series analysis shows that the text-based corporate innovation effectively reflects the macro trend of corporate innovation during the sample period.

This research is of theoretical and practical significance for it? not only systematically clarifies the traditional incomplete and inaccurate proxy indicators of corporate innovation, but also figures out a new method of measuring corporate innovation based on the text analysis of analyst reports. It further broadens the application of text big data in the field of management and organization studies, and contributes to the application of textual data in the field of management and organization research.

英文關鍵詞Key Words:Latent Dirichlet Allocation Model; Corporate Innovation; Text Analysis; Topic Modeling; Analyst Report

主站蜘蛛池模板: 国产欧美另类| 精品无码专区亚洲| 亚洲Av激情网五月天| 中文字幕 91| 色综合天天娱乐综合网| 另类专区亚洲| 国产区成人精品视频| 四虎永久在线| 国产成年女人特黄特色大片免费| 国产成人无码Av在线播放无广告| 美女无遮挡免费视频网站| 亚洲精品在线91| 高清无码不卡视频| 国产成人福利在线视老湿机| 欧美三级不卡在线观看视频| 综合色亚洲| 亚洲精品视频免费观看| 国产毛片久久国产| 免费高清毛片| 色妞永久免费视频| 丁香五月亚洲综合在线| 91精品免费久久久| 国产精品99r8在线观看| 老司国产精品视频| 鲁鲁鲁爽爽爽在线视频观看| 久操中文在线| 91无码人妻精品一区二区蜜桃 | 亚洲最大福利视频网| 幺女国产一级毛片| 日本五区在线不卡精品| 精品一区二区三区波多野结衣| 国产网站免费看| 国产激情影院| 国产福利拍拍拍| 日韩国产精品无码一区二区三区| 最新日韩AV网址在线观看| 国禁国产you女视频网站| 亚洲精品老司机| 又爽又大又黄a级毛片在线视频| 91精品aⅴ无码中文字字幕蜜桃| 国产老女人精品免费视频| 欧美三级视频网站| 亚洲视频四区| 成年人福利视频| 亚洲中文字幕97久久精品少妇| 中文无码影院| 精品伊人久久大香线蕉网站| 国产欧美综合在线观看第七页| 亚洲Aⅴ无码专区在线观看q| 99视频精品全国免费品| 国产亚洲日韩av在线| 国产一区二区精品福利| 欧美性天天| 就去色综合| 一区二区三区在线不卡免费| 91在线播放免费不卡无毒| 免费毛片全部不收费的| 亚洲无码不卡网| 日韩av在线直播| 欧美一区中文字幕| 欧美日韩福利| 中文字幕资源站| 国产精品美女网站| 亚洲色精品国产一区二区三区| 免费观看亚洲人成网站| 国语少妇高潮| 夜夜拍夜夜爽| 五月天丁香婷婷综合久久| 国产亚洲精品91| av在线人妻熟妇| 成人午夜天| 无码专区在线观看| 亚洲天堂啪啪| 夜精品a一区二区三区| 国产专区综合另类日韩一区| 国产亚洲视频免费播放| 色综合天天娱乐综合网| 97视频免费在线观看| 一本一道波多野结衣一区二区| 午夜视频日本| 国产激情第一页| 第一区免费在线观看|