楊 云,龐 宇,韓 勇
(科學技術部評估中心,北京 100081)
線性回歸方法是實證研究中最簡單、最常用的一種方法。它用于確定自變量和因變量之間的關系,例如,企業銷售收入與研發經費投入、科研人員數量之間的關系。通過已知的數據,按照統計學的規律,采用線性回歸方法求出一個方程,就可以預測出:自變量發生改變時,因變量會有什么樣的改變。
這種方法在科研管理實踐有著廣泛的用途。例如,在政府支持企業R&D項目中選擇目標企業時,我們可以根據企業的歷年數據,考察哪一些企業的R&D投入帶來了更多的產出,從而選擇這些企業作為資助對象。
根據若干組自變量和因變量數據,用數學方法就可以求出線性回歸方程 (具體的方法在本文后面介紹)。例如,
Y=30.6×X+250,R=0.8,n=20
此為一元線性回歸方程。其中,Y是因變量,只有X一個自變量,30.6為回歸系數,R=0.8為相關系數,n=20為樣本數。R和n的數值決定了所得方程是否可靠,n越大,說明觀察的樣本數越多,越容易接近真實情況。R越接近1,說明根據樣本數據描出的坐標點越接近所得方程表示的曲線,換言之,就是方程越接近真實情況。在常見的統計學教科書中,都會給出一個相關系數表,通過查表可以得出,不同樣本數對相關系數有不同的要求。例如,當 n=10時,相關系數 R=0.76460,置信度=0.01(表明有99%的概率方程是準確的);相關系數R=0.63190,置信度=0.05(表明有95%的概率方程是準確的)。通常只要做到置信度不小于0.05就可以了。
在置信度可以接受 (小于0.05)的情況下,回歸系數越大,說明自變量對因變量的影響越大。回歸系數為正數,表明因變量與自變量存在正相關關系。反之,則表明因變量與自變量存在負相關關系。我們通常要做的,是尋找因變量與哪些自變量存在正相關關系,哪個自變量對因變量的影響最大。
大量文獻表明,R&D投入與產出存在正相關關系。以江蘇省1562家高新技術企業的研究樣本為例,研發經費投入力度與技術創新績效產出存在明顯的正相關關系[1]。西安高新區2900家企業研發投入與產出的數據分析也表明,企業研發投入與產出績效之間存在明顯的正相關關系[2]。用1995—2005年中國R&D資本存量與中國高技術產業各個產出指標進行分析,發現它與該行業專利申請受理數量、銷售收入、利潤和新產品銷售收入等指標都存在顯著的正線性相關關系[3]。用1992—2007年全國R&D投入與產出增長的數據分析,也顯示我國企業研發投入與產出增長之間存在著明顯的單向因果關系[4]。
在科研管理實踐中,真正運用實證方法選擇目標企業的實例不多。其原因是,實證方法涉及大量的數學計算,一些人無力為之,一些人不愿為之。
線性回歸是實證研究中最簡單的方法之一,但是對不熟悉數學和計量經濟方法的人來說,還是有些望而生畏。筆者在實際工作中,發現了兩個簡單易行的工具,這里特別介紹給大家:
(1)Microsoft Excel。用Microsoft Excel 2007以上版本可以做一元一次線性回歸分析。在Excel表格中填入自變量和因變量數值,選擇數據,插入“散點圖”。雙擊圖片,在圖表工具欄中下拉選擇圖表類型,選擇帶fx標志的圖表類型,就可以自動得出線性回歸曲線、線性回歸方程和相關系數。
(2)數學集成計算系統Forlab。數學集成計算系統Forlab是一個功能很強大的數理運算軟件系統,能夠解決大部分的數學計算問題。它的功能包括:全屏幕編輯制表、Forcal編程計算、函數作圖、矩陣運算及數據分析、多元分析、數值計算以及建立各種數學模型等。系統界面簡潔,功能實用,易于操作。
Forlab數據區和計算結果是各自獨立的,數據區以表格形式進行分析,計算結果則視情況分別以文本方式或者表格的方式進行顯示。數據區和結果都可以用鼠標進行任意剪切、復制、粘貼等編輯,而且可以與Excel表格進行剪切、復制、粘貼等編輯。Forlab可以免費下載。
最近,我們協助開展了科學儀器重大專項的有關工作,科技管理部門有意在研發方面對一部分企業給予支持。我們的任務是協助選擇有實力、有發展潛力的目標企業。
我們嘗試用實證方法。中國高新企業數據庫積累了大量的企業基本信息和經營數據資料。我們從中選擇儀表行業的企業數據,第一步確定挑選的數據字段包括企業名稱、年份、企業注冊時間、工業總產值、主營業務收入、凈利潤、年末負債合計、年末資產總計、年末資產負債率、研發經費投入合計、全職科研人員數量、年末從業人員數、發明專利授權數。查詢儀表企業的10年經營數據,時間跨度為2001—2010年。經過查詢,找到數據比較完整的企業總共有48家。
如前所述,大量文獻表明R&D投入與產出存在正相關關系。產出主要表現為企業收入、企業利潤、發明專利等。我們希望從儀表行業整體的角度,來看看R&D投入與哪一項產出的相關關系更明顯,以便找出最主要的數據項,作為我們選擇企業的依據。其中,發利專利授權數只有2006到2010年期間的5年數據。為了簡化問題,我們不做多元線性回歸,而是做三次一元線性回歸。以R&D投入 (RD)為自變量,分別以企業收入(Re)、企業利潤 (Pr)和發明專利數 (Pa)為因變量。四組數據均采用48家企業10年總額,以便了解行業的整體狀況。用Microsoft Excel 2007很容易對數據進行匯總,并得出相應的線性回歸方程。見圖1、圖2、圖3,分別得出三個方程如下:
①Re=34.38×RD+25044,R2=0.566(R=0.752),n=48

圖1 研發支出 (RD)與企業收入 (Re)的相關性曲線
②Pr=1.631×RD+18187,R2=0.28(R=0.529),n=48

圖2 研發投入 (RD)與企業利潤 (Pr)的相關性曲線
③Pa=2×10-5×RD+25.73,R2=0.005(R=0.071),n=48

圖3 研發投入 (RD)與發明專利授權數 (Pa)的相關性曲線
查閱相關系數表知道,n=48時,置信度ɑ=0.05對相關系數的要求是R不小于0.28452。由此表明,前兩個回歸方程都是可以置信的。企業收入、企業利潤與研發投入存在正相關關系,其中,企業收入受研發投入的影響最大。發明專利授權數與研發投入的相關性不明顯,大概是因為發明專利授權數只有5年數據,導致數據沒有代表性。
通過以上分析,我們就確定了選擇目標企業的方法:以各家企業10年的企業收入 (Rei)與研發投入 (RDi)數據為切入點,進行48次線性回歸分析,分別求解每一家企業的線性回歸方程。在置信度允許的前提下,選出回歸系數最高的企業作為目標企業。
在企業計算過程中,由于企業在某些年份的研發投入為零,為了減少這些異常情況的干擾,我們將這些數據做剔除處理。因此,不是每家企業都是用10年數據做回歸的。表1中列出n值,代表企業數據所包含的年數。根據數學上的經驗,線性回歸的樣本數一般不宜小于5。
依次對48家企業的數據進行線性回歸分析,得出回歸系數值最大的前5家企業如下表,同時列出線性回歸的相關系數R作為參考。
我們通過案頭研究、企業訪談等方式對選出來的企業進行考察,對實證研究得出的結論給予了佐證。
貴陽新天光電科技有限公司是國家機電行業大型高新技術企業,一直被列為貴陽市、貴州省及國家重點發展的裝備制造企業,在2006年還被國家統計局認定為“自主創新能力行業十強企業”。
浙江佳環電子有限公司是國家重點高新技術企業、中國環境保護產業骨干企業,產品覆蓋全國30個省市自治區及遠銷國外。
吉林市光大電力設備有限責任公司國內電廠化學領域知名企業,是吉林省政府命名的小巨人企業,是國家人事部首批批準設立“國家博士后科研工作分站”的企業。

表1 五家企業研發投入與收入線性回歸的相關系數
北京牡丹聯友環??萍脊煞萦邢薰臼潜本┲嘘P村科技園區的高新技術企業和北京市重點扶持的環保企業。該公司的HP5000煙氣在線監測設備擁有全部自主知識產權和專有技術。已有1100多套HP5000型煙氣在線監測系統在北京、上海、天津等20多個省市投入運行。
愛博精電公司是國際領先的能源管理和智能測量儀表供應商,在擁有自主知識產權的產品,應用于市政、機場、石化、冶金、交通、醫院、大學、數據中心、銀行、國防和電力等領域。
從數據出發選擇企業,然后跟定性觀察相對照,這樣既能做到選出優秀的企業,又能做到公平公正。
以上實踐表明,線性回歸這樣的實證研究方法,簡單、有效,不熟悉計量經濟專門知識的人也可以掌握,在科研管理的實際工作可以廣泛加以應用。希望給為廣大同行提供參考。
[1]胡義東,仲偉?。咝录夹g企業技術創新績效影響因素的實證研究[J].中國科技論壇,2011,(4):80-85.
[2]王育寶,吳淑娥,胡芳肖等.科技園區企業科技投入與產出績效關系的實證分析——以西安高新區為例[J].科技進步與對策,2010,27(7):29 -33.
[3]張小蒂,王中興.中國R&D投入與高技術產業研發產出的相關性分析[J].科學學研究,2008,26(3):526-529.
[4]于成學.我國企業研發投入與產出增長關系的實證研究[J].科技管理研究,2009,29(10):315-317.