胡 莉
(湖北科技學院 學報編輯部,湖北 咸寧 437100)
數據是信息的表達方式,通過符號、文字、數字、視頻、語音等形式表達信息的內涵。科研數據是科技論文的重要組成部分,大量的科學研究需要用數據說話,數據的研究關系到科技的未來。實驗數據不當,影響研究項目的結論流產,數據缺失失真涉嫌抄襲和剽竊,理論數據有誤造成推理混亂,損害作者和期刊的聲譽。比如近年來,國際學術界撤稿事件頻繁發生,引起了社會各界對學術不端行為的廣泛關注,其中數據造假是學術不端行為中比較隱晦的一部分。“目前多數的學術不端檢測技術還只能基于文字進行相似性檢測或完成簡單的數據完整性和一致性檢測”[1]。數據造假因為隱匿性強,不能被自動文獻檢測系統識別,不容易被直觀地發現,但是數據造假具有極大的社會危害性,Springer出版集團總監Tamara Welshot認為學術不端類型最重要的類型就是“編造數據和數據造假”。[2]。因此,國際知名期刊對數據造假提出了相關的政策和建議。2014年《Science》和《Nature》都相繼推出了專門的數據審查流程。[3]
相較國際頂級期刊針對數據審查和數據造假現象采取強有力的措施,我國的科技期刊對數據錯誤的識別和糾正還存在一些不足。筆者從自身所在的期刊出發,結合工作中的案例,例舉數據錯誤尤其是數字錯誤的相關類型,以期提供借鑒和建議。
1.數據輸入內容前后矛盾
數據的正確輸入關系到論文的嚴謹和科學性,數據的輸入不正確影響論文的結論和科學性。有的論文中作者數據輸入不完全,前后內容有出入。如筆者編輯的一篇研究方言語法的文章中,作者在表1[4]中例舉了收集到的吉林方言語法研究總體統計表,其中詞法研究數量為153,句法研究為35,在其后的表2[4]吉林方言語法研究階段統計表中,詞法研究2010年之前和之后的數量分別為51和103,總計154,句法研究2010年之前和之后的數量分別為6和15,總計21,與表1中詞法和句法的研究數量數據不統一。前后數據有誤會讓讀者認為論文不嚴謹,有造假的嫌疑。同時,前后數據不統一,由此推導出的結論也讓人產生懷疑。

表1 吉林方言語法研究總體統計表

表2 吉林方言語法研究階段統計表(以2010年為節點)
筆者認真核對數據后與作者溝通聯系,了解數據前后矛盾是因為輸入錯誤還是統計數據本身有問題。經核對后作者表示是統計中數據輸入錯誤后改正數據。
2.數據計算邏輯錯誤
在作者提供的數據中,有的數據經過計算與作者要求達到的結果不符。比如一些百分數據,將提供的數據相加后得出的數據不是100%。筆者校對的一篇文章以藝術專業和英語專業對比研究大學英語翻譯教學問題的元認知問題。作者為了研究議題分別對兩個專業的相關學生進行問卷調查,得出兩個專業學生英語與職業規劃的關系如下表3[5]。

表3 英語與職業規劃的關系
表3中將兩個專業的職業規劃與英語的關系分為5種關系。筆者經過計算與核對發現,其中,藝術專業的5種關系的數據比例相加后得出的百分比是100.6%,不符合百分比的邏輯,因此斷定是比例數據出現了計算的錯誤,聯系作者重新檢查數據的計算,糾正數據的錯誤。
3.數據缺失
有的作者在記錄數據過程中,文中解釋相關內容可以從表中得出數據,但是實際上表格中沒有對數據作出說明,如筆者編校的一篇文章,見表4[6]。

表4 中國知網與“創客”相關的文獻數量統計
表4列舉了中國知網從2008年至2017年與“創客”相關的各種文獻數量。但是文中文字注明“由表可以看出,2008-2017年(考慮完整年份),篇名中包含“創客”的文獻共6823篇。”[6]從表中,可以看出各年的文獻數量,但是2008-2017年總共的文獻數量表格中并沒有標明,論文數據沒有在表格中表現出來。科技論文應該嚴謹,數據的來源,數據的推算結果都應該有根有據,不能有任何遺漏。
4.數據標注不規范
數據分析要耐心而細致,任何一點失誤,都會產生“蝴蝶效應”。如2020年5月7日,中國醫學科學院醫學實驗動物研究所在nature發表《新冠病毒在hACE2轉基因小鼠中的致病性》,因為圖片誤用,被質疑論文涉嫌一圖多用。科學論文寫作應該嚴謹,任何數據有出入的地方都應該說明,簡單明了。比如筆者曾經校對過的一篇論文中作者插入了柱狀圖形如圖1和圖2,兩圖中的坐標軸尺度標注不一致,表1中的縱軸尺度標注最大是60,表2中的縱軸尺度標注最大是80。咋一看沒有什么錯誤,但是仔細看,就發現兩個不同,左右圖中選擇大部分準確選項的人數比例從圖形上看幾乎差不多高度,但是從數據上看相隔甚遠。所以,作者撰寫論文的時候一定要嚴格遵守學術論文寫作的規范,不能圖省事,必須保持學術的嚴謹。

圖1傳統教學交果評估(%) 圖2PBL教學效果評估(%)
5.數據描述不當
筆者在編校過程中,經常發現有的年輕作者由于對數據和關系表達不當產生的數據錯誤問題。產生的原因多數因為作者寫作經驗不足,對數據的認識不到位。比如,在筆者曾經校對的一篇稿件中,很多作者對于公式中的上標和下標認識不清,經常產生該下標的不標識的現象,作者自己明白,但是給讀者的閱讀造成混亂和誤解。比如筆者遇到一篇論文中作者提供一個模型如下:
因子模型:Xi=aiF1+aiF2+...+aiFm+Ui (i=1,2,......,k,m<=k)
在這個公式中有3個變量X,F,a,其中i,m應該標識為下標,否則閱讀到這個地方容易使讀者產生混亂,到底變量是X,F,a,還是Xi,Fm,ai。經過與作者溝通以后,作者將它們改為下標。
6.篡改數據
有的作者將論文中收集調查的數據擅自取舍或者修改,使之符合預期的試驗結果。研究者在數據分析中,刻意刪除不利于研究結論的數據,只選擇符合研究結論的結果。例如,筆者校對一篇經濟類文章,作者采用PMC指數模型對學前教育政策進行量化評價研究。文章中,作者通過訪問相關官方網站,選取了一定時間內有代表性的學前教育政策若干項建立PMC指數模型,分類一二級變量。確立10項一級變量,在如表5。

表5 10項學前教育政策分析匯總表
筆者經過逐個計算發現,表5的均值除了X1、X8和X10正確外,其余均有錯誤。作者在文后的結論中,得出結論,與真實數據不符,因此懷疑有數據造假的嫌疑。筆者聯系作者,督促其檢查數據的來源,對數據進行嚴格的檢驗然后修正,否則視為數據造假。
數據錯誤量與科技論文的水平息息相關,同時,數據錯誤也是論文編校中的一個容易忽視的模糊地帶。編輯在編校過程中要重視對數據錯誤的發現和糾正,不能掉以輕心,不僅僅要重視論文內容的編校,更要結合內容,統籌全文,從統一的角度來看待論文中出現的數據。為了防止論文中數據錯誤的出現,筆者認為可以從以下幾個方面進行改進:
1.編輯在審稿和校對的過程中要仔細認真,提高數據的審查意識。在編輯加工過程中,時刻做到“心中有數”[7]。除了糾正文字和內容的錯誤之外,對文中相關數據的校對更加要細致,審查入微,使論文的數據精確地反映主題。科技期刊中的數據主要以圖表的形式表示,圖表中的數據是論文觀點的支持。編輯要認真審讀論文數據,梳理論證邏輯,以防數據與論文內容相背離。科研數據必須真實可靠,科研人員必須嚴肅謹慎對待,杜絕數據造假。論文發表前對實驗結果和過程要反復驗證,確保準確無誤。
2.強化作者的科研誠信意識。科學研究為人類服務,其基本的準則就是誠信。近年來,國內外學術界頻頻曝光論文造假事件,多位學術大咖爆出數據造假的丑聞,前有南開大學校長論文被爆數據造假,后有自然等國際著名期刊撤回中國學者稿件,將科研誠信問題揭露在公眾面前。2019年9月25日,科技部、中央宣傳部、最高人民法院等20家單位聯合發布《科研誠信案件調查處理規則(試行)》,是我國首部專門規范科研失信行為調查與處理的規范性法律。為了守住科研誠信的大門,編輯應該幫助作者加深學術規范認識,積極向作者宣傳科研誠信的意義,通過在學報網頁上刊登防止學術不端的告知,鏈接防范科研失信行為的相關規范和準則,強化作者的科研誠信意識,樹立端正的學術研究態度,從源頭上建立科研誠信的壁壘。同時,還可以例舉有關學術不端數據造假的案例,讓作者認識到數據造假學術不端的嚴重性,進一步規避學術論文發表中的舞弊行為。ICMJE表現在給出定義同時查看該作者以往的發表工作。而EASE則表現在通過文獻分析,以醫學研究為例,從基本統計學方法的規范、插圖的質控、對數據的報告規范進行深入探討[8]。
3.將有統計數據內容的論文交由有統計學專業背景的編輯或者外聘統計專業的專家老師對文章進行審核。學術論文當中涉及到大量的數據,用數據說話的最基本的原則是要科學的使用數據。“歐洲科學基金會(ESF)和美國研究誠信辦公室(ORI)于2010年發布的著名的《科研誠信新加坡聲明》第1、2、3、4條及FFP定義的理解,科研數據造假包括:數據產生方法造假、描述和分類失實、測量和計量數據造假、比較對象不當、統計數據造假、數據加工及呈現方法不當等等”[9]。應該嚴格按照《科研誠信新加坡聲明》對數據進行審核。越來越多的作者特別是經濟專業的作者運用SPSS或者Eviews等統計軟件,運用統計學方法將數據引用到科研創作中。統計學的加入給科研論文的科學性和客觀性提供了數據的來源,也給編輯的編校工作帶來了新的挑戰。應該鼓勵在職編輯學習有關數理統計的相關知識,了解統計軟件的運用,可以邀請相關統計學專家來對編輯部對編輯進行統計學知識的普及與培訓,提升期刊編輯的統計學知識。[3]
4.借助相關網絡技術對論文數據進行監督。如湖北科技學院學報2019年加入OSID開放科學計劃,設置開放科學數據與內容專項,方便作者上傳數據,呈現學術研究的過程數據、論文統計圖表的支撐數據以及證明研究過程的內容(高清圖片、視頻等),并簽署版權轉讓協議。對錄取的論文首先進行數據的統計與檢測,讀者不僅可以通過紙質學報瀏覽論文,還可以通過網絡直接獲取論文的相關數據的信息,通過網絡共同監督論文數據的可靠性。國外一個比較著名的網站叫Retraction Watch ,學者們可以通過網絡互相聯系,發現并舉報網絡不端的行為。研究的基礎數據和材料公開可以獲取不僅能夠使同行基于其研究發現取得進一步的研究進展,而且能更好地評估研究成果,從而增加對科學的信任。
5.建立稿件管理懲戒機制。對審校過程中發現數據造假的,應該予以退稿處理,并可以將造假作者納入失信名單,按照情節嚴重規定其在一定時期內不得向本刊投稿,從源頭上有效制約數據造假的行為,對投稿作者失信違約造假產生威懾力。比如COPE定義數據造假表現在給出定義,在核實造假情況后對文章進行拒稿或撤回處理。
科技期刊論文有很強的專業性和理論性,編輯不可能對所發表論文代表的所有專業都了解,除了對常規的文字和格式進行校對外,還要加強對論文數據的審核和校對。編輯要強化責任意識,不能因為工作的繁瑣而對數據的審核掉以輕心,培養職業敏感性,加強自身素質,不斷學習,積累專業知識。用細致、耐心的工作態度,對科技論文進行認真審讀,嚴格把關,及時發現論文中的數據問題,降低數據的差錯率,避免數據造假產生的學術不端的現象,提高期刊的整體學術質量。