劉金婷 韋沁 代曉明



摘 要:為了推進海峽兩岸科技術語的對照和統一工作,文章對《海峽兩岸大氣科學名詞》(第3版)所收錄的兩岸科技術語進行了綜合分析。文章對所收錄術語進行了分類,分為完全一致術語、不完全一致術語和完全不一致術語3類。對于不一致術語,主要從數理統計、字頻統計、詞頻統計并結合可視化分析進行研究,以全面了解海峽兩岸術語差異情況。研究結果表明,海峽兩岸大氣科技術語一致率較高,為72.92%,不一致率為27.08%。海峽兩岸科技術語用字、用詞具有高度一致性,不一致的地方主要體現在對字的內涵理解或使用習慣等方面。
關鍵詞:Gephi;兩岸術語;大氣科學術語;可視化
中圖分類號: H083;P4文獻標識碼: ADOI:10.12339/j.issn.1673-8578.2023.03.005
Abstract: This paper made a comprehensive analysis on the crossstrait scientific terms included in Crossstrait Chinese Terms in Atmospheric Science (3rd Edition), which would help promote the work of crossstrait scientific terms comparison and unification. We classified the related terms into three categories: completely consistent terms, incompletely consistent terms and completely inconsistent terms. For inconsistent terms, we mainly conducted a detailed study from the aspects of mathematical statistics, word frequency statistics, word frequency statistics and visual analysis, so as to fully understood the differences between terms across the Taiwan Strait. Our results show that the consistency rate of atmospheric science terms across the Taiwan Strait is high as to 72.92%, and the inconsistency rate is 27.08%. There is a high degree of consistency in the use of words and expressions of scientific terms across the Taiwan Strait. The differences are mainly reflected in the different understanding of the meaning of words, or the problem of usage habits.
Keywords: Gephi; crossstrait term; atmospheric science term; visualization
收稿日期:2022-09-30修回日期:2023-03-28
基金項目:國家語言文字工作委員會“十三五”科研規劃2019年度委托項目“科技名詞常用詞表”(WT135-60)
1 研究背景
海峽兩岸科技專家對兩岸名詞不一致所造成的交流障礙與混亂有深刻感受,因而在“汪辜會談”中,把“探討科技名詞統一”工作列入共同協議。1999年3月,由全國科學技術名詞審定委員會(下文簡稱“全國科技名詞委”)牽頭組建的大陸大氣科學名詞代表團赴臺參加了“海峽兩岸大氣科學名詞學術研討會”。全國科技名詞委作為大陸牽頭人,于1994年啟動了海峽兩岸名詞對照和統一工作,對促進海峽兩岸科技交流與發展發揮了重要作用。兩岸專家一直本著“積極推進,增進了解;擇優選用,統一為上;求同存異,逐步一致”的精神來開展這項工作。至今海峽兩岸大氣科學界已舉辦十屆大氣科學名詞學術研討會。
多位專家對海峽兩岸科技名詞的對照統一工作做了研究。如周其煥[1]指出海峽兩岸術語的差異在于用字與用詞的不同,并建議“老詞老辦法,新詞新辦法”。周詩健等[2]提出,“科學性是名詞定名要求中最重要的前提;繁簡適度, 逐漸過渡;要關注人名、地名的翻譯問題。”王存忠等[3]將海峽兩岸大氣科學名詞分成7類,如完全一致或比較一致的名詞、分歧比較大的名詞等。代曉明等[4]歸納了海峽兩岸在漢字使用習慣、翻譯分歧、字母詞以及其他方面的分歧,指出這些問題是海峽兩岸科技名詞領域的普遍問題,對其他領域也有參考意義。裴亞軍[5]詳細介紹了海峽兩岸組織科技專家共同編纂《中華科技大辭典》的相關工作,并指出這是我國科技名詞規范化領域取得的一項新成果,拓展的一條新路徑。張曉娜[6]運用語言變異理論,對兩岸科技名詞的變異現象進行了深入研究。
數據可視化是快速認識、深入了解數據集的捷徑,相對于列表,可以更加直觀地展示數據內容,挖掘數據內涵。耿學華等[7]全面總結了網絡可視化的分析研究。何曉萍等[8]對大數據的演進路徑、研究熱點與前沿進行了可視化分析。目前,還沒有專家應用自然語言處理技術和數據可視化等方法對海峽兩岸大氣科學名詞進行綜合分析,本文基于Gephi對兩岸大氣科學名詞進行可視化分析,以更直觀、系統地了解兩岸科技用字、用詞的差異性。
2 研究基礎
本文以2020年全國科技名詞委公布的《海峽兩岸大氣科學名詞》(第3版)(以下簡稱《兩岸大氣科學名詞》)為基礎,利用科學計量學方法對其中收錄的術語進行綜合統計分析。《兩岸大氣科學名詞》包括大氣、大氣探測、大氣物理學、大氣化學、動力氣象學、天氣學、氣候學、應用氣象學等部分,收詞7000余條;分為正篇和副篇,正篇以大陸名拼音排序,副篇以英文名字母排序。
2.1 研究方法
2.1.1 統計方法
應用統計方法綜合分析《兩岸大氣科學名詞》收錄術語的總量、不一致術語的數量及比例等,并統計不同分類下各種數據及數據關系,從學科角度給出定量分析,以全面了解兩岸大氣科學名詞的差異。
2.1.2 自然語言處理方法
術語由字或詞(元組)組成,有的術語就是一個元組,有的術語是多個元組組合。兩岸術語有差異則是組成術語的字或元組有差異,如果元組定名不同,而涉及這個元組的術語很多,則會造成兩岸術語差異性較大,如果對于這些造成一系列術語差異的元組進行逐個統一,那么兩岸科技術語的差異度必將大幅降低。因此,研究這些造成系統性差異的字和元組非常重要。可以應用自然語言處理技術對《兩岸大氣科學名詞》進行字頻和詞頻分析。其中對術語分詞采用基于點式互信息原理,如果字與字總是相伴出現,結合的穩定度高,則判斷它為一個詞。
2.1.3 多工具融合方法
采用Python、Excel、Matlab、Gephi[9]等多種工具進行統計、可視化分析等。其中Python、Excel、Matlab主要用于數據處理、統計分析以及圖表制作,基于復雜網絡的可視化分析軟件Gephi用于可視化圖譜的實現。
2.2 數據處理
以《兩岸大氣科學名詞》正篇部分的術語為數據處理對象。首先對數據進行預處理,利用Python、Excel等軟件進行詞條對比,根據大陸名與臺灣名的相似情況分類,分為完全一致術語、部分一致術語和完全不一致術語,分析這3類術語的數目及所占比例。對于完全一致術語和部分一致術語,只做數據統計工作。對于完全不一致術語,給出其統計指標,利用自然語言處理技術對字頻、詞頻進行深入分析與可視化展示。
3 結果分析
3.1 統計結果分析
將《兩岸大氣科學名詞》正篇部分的術語分為大陸名、臺灣名和英文名3列,這些術語按照大陸名漢語拼音順序排列,共7051條。去除其中的又稱條目191條,得到正式術語6860條。在6860條術語中,不考慮字形差異,大陸名和臺灣名完全一致術語4470條,不一致術語2390條;在不一致術語中,又包含完全不一致術語1858條,部分一致術語532條(見圖1)。
可見,大陸名與臺灣名一致的術語為5002(4470+532) 條,一致率為72.92%,完全一致率為65.16%,部分一致率為7.76%,不一致率為27.08%(見圖2)。
對于部分一致術語,海峽兩岸在今后的科研交流中可以逐漸引導采用一致術語,逐步取得完全一致。對于完全不一致術語,需要詳細研究其不一致之處,了解海峽兩岸定名的特點,逐漸向部分一致發展。1992年朱福康[10]提到海峽兩岸有些術語不統一,會造成一系列術語都不統一,比如大陸名為“尺度”,臺灣名為“幅度”,英文名為scale。經過多年科技交流,海峽兩岸已經將這一術語統一為“尺度”,在《兩岸大氣科學名詞》中收錄了15條相關術語(如表1),其中因“尺度”定名的統一而有13條兩岸術語實現了統一,只有“耗散尺度—消散尺度”“天氣尺度—綜觀尺度”還不統一,這是海峽兩岸專家共同努力的成果。可見,研究這類會造成系統性影響的術語,在下一步兩岸交流中逐漸去統一這些術語,則非常可能統一相關的一系列術語。
3.2 字頻分析
海峽兩岸科技名詞的差異在于用字或用詞不同,或者同一個字、詞在兩岸具有不同的內涵。本節從字頻分析角度結合可視化研究來分析海峽兩岸大氣科學名詞的差異。
3.2.1 綜合分析
經統計,在1858個完全不一致術語中,大陸名(包括53個“又稱”)所包含的漢字總數為8946個,可以得到平均術語長度為4.68(不考慮字母與數字),其中不重復漢字個數為1019個。
列舉其中頻次前20位的漢字(見表2),可以看出頻次最高的3個漢字海峽兩岸均為“氣”“度”“流”,可見海峽兩岸用字是高度一致的;處于第四位的“表”,對應臺灣名的“計”,可見海峽兩岸用字不同但對應一致;頻次第五、第六、第八的漢字也相同。綜合來看,前20位漢字中,大部分漢字相同,但是詳細分析后可發現,大陸名中的表、計、儀,雖然在臺灣名中也包含,但是兩岸的內涵不同。
選取大陸名中前100位漢字形成關鍵字共現圖(圖3),同時選取臺灣名中前100位漢字形成關鍵字共現圖(圖4),可以看出兩個關鍵字共現圖非常接近,但是經過交流分析發現,其中的表、計、儀、送、器等字,海峽兩岸科技專家對其內涵的理解不一致,但經過多年交流雙方已了解各自的內涵,有望在下一步工作中逐步統一。
3.2.2 典型案例分析
我們對“表—計”和“計”“儀”“器”“送”等進行網絡分析。將大陸名中結尾包含“表”的術語選出,共101條,分別建立點文件和邊文件,點文件中包含Id、Type和Label項,邊文件中包含Source、Target、Weight項等信息,輸入Gephi建立網絡,其中共有203個節點、202條邊,圖的類型采用無向圖,邊合并策略為總和,布局采用fruchterman reingold,如圖5。可以看出,大陸名以“表”結尾,對應的臺灣名都是以“計”結尾,通過分析其術語英文名可以發現,大陸名中的“表”,其英文名基本以“meter”結尾(見表3),如果海峽兩岸能夠將“表”與“計”統一,那么將有近百條術語得到統一。
我們進一步分析大陸名中包含“計”“儀”“器”的不一致術語,以及臺灣名中包含“送”的術語,建立同一文件,共得到95條術語,這些術語中“計”“儀”“器”“送”的使用并不統一,比較混亂(見表4)。根據Gephi的要求建立點文件和邊文件,將數據導入Gephi可得圖6,其中共有379個節點、280條邊,圖的類型采用無向圖,邊合并策略為總和,布局采用fruchterman reingold。從圖6可以看出,大陸名中包含“計”“儀”的術語多,包含“器”的少,臺灣名中包含“送”的術語也較少,基本上臺灣名中的“送”對應大陸名中的“儀” 。
3.3 詞頻分析
詞是能夠獨立活動的有意義的語言成分,是自然語言處理系統中重要的知識載體與基本操作單元[11]。共詞分析方法最早是在20世紀70年代中后期由法國文獻計量學家提出的[12]。詞頻統計相關研究很多,如商瀑[13]基于《中華人民共和國國家情報法》做了詞頻統計與分析,文禹衡等[14]運用詞頻統計分析法分析了《中華人民共和國個人信息保護法》文本的主題分布規律,并借助社會網絡分析軟件對核心詞與法條之間的關系進行了可視化分析。詞頻分析法利用能夠揭示或表達核心內容的主題詞出現的頻次來確定它的重要性。
3.3.1 綜合分析
在《兩岸大氣科學名詞》中,很多術語由多個元組組成,元組在稿件中的出現頻次顯示了它的重要性,也提示有可能是兩岸術語不統一的源頭。由于是在科技術語中分詞,所以本文中只考慮兩字詞,得到結果如表5,由位居前100的分詞建立共現圖(如圖7、8)。通過表5和圖7、圖8可見,氣候、溫度、天氣、輻射、大氣等術語,兩岸沒有差異,但是湍流—亂流、急流—噴流、渦動—渦流、輸送—傳送等,兩岸還未統一名稱。下面將以這4組對應術語展開篩選,建立網絡圖(如圖6~8)。
3.3.2 典型案例分析
對湍流—亂流、急流—噴流、渦動—渦流、輸送—傳送進行網絡分析。首先各自建立相關術語表,按照Gephi要求分別建立點文件和邊文件,將數據導入Gephi,可得圖9、10、11和12。其中圖的類型采用無向圖,邊合并策略為總和,圖9和圖10布局采用fruchterman reingold,圖11和圖12布局采用Yifan Hu 比例。
由圖9可以看出,所有術語都圍繞湍流、亂流兩個中心點,模塊化值為0.276,說明這些術語具有一定的穩定性,但是并不高;因為大陸名與臺灣名之間為一一對應,所以它們之間的度為1,整個圖的平均度為1.5,說明中心化程度較高;圖密度為0.041,數值很低,這是由于各個術語之間獨立性強,較少交叉。
由圖10可以看出,所有術語都圍繞急流、噴流兩個中心點,模塊化值為0.236,說明這些術語的穩定性并不高;因為大陸名與臺灣名之間為一一對應,所以它們之間的度為1,整個圖的平均度為3.021,說明中心化程度非常高;圖密度為0.066,說明各個術語之間有交叉。
從圖11可以看出,這些術語有多個中心點,分別是渦動、渦流、渦旋和渦旋,模塊化值為0.52,說明這些術語的穩定性高,模塊化程度高;整個圖的平均度為1.379,說明中心化程度非常低,呈現分散化;圖密度為0.048,說明各個術語之間交叉性不高。
從圖12可以看出,這些術語有3個中心點——輸送、傳輸、傳送,還有兩個邊緣點——傳遞、轉換。模塊化值為0.404,說明這些術語的穩定性較高,模塊化程度較高;整個圖的平均度為1.326,說明中心化程度非常低,呈現分散化;圖密度為0.404,數值較高,說明由于各個術語之間聯系較緊密,有交叉性。
4 結語
本文從定量角度綜合分析了《海峽兩岸大氣科學名詞》中兩岸術語的差異性,并基于復雜網絡的可視化軟件Gephi,對部分不一致術語進行了可視化分析。綜合來看,海峽兩岸大氣科學術語一致率較高,為72.92%,不一致率為27.08%,不一致的術語只占少數。
對于不一致術語,本文主要從數理統計、字頻統計、詞頻統計并結合可視化分析等進行了研究。結果表明,海峽兩岸科技術語用字具有高度一致性,不一致主要體現在對字的內涵理解不同。從字頻分析來看,涉及表、計、儀、器的術語兩岸都有,但是含義有差別,從而造成一系列術語的不統一。從詞頻來看,海峽兩岸用詞也有高度一致性,但是由于隔閡較久、區域習慣問題等用詞會有差異。本文主要研究了湍流—亂流、急流—噴流、渦動—渦流、輸送—傳送等相關術語,并進行了可視化分析。
解決一個基本元組的統一問題,就會系統地解決一批術語的統一問題。因此,下一步海峽兩岸科技術語交流的重點還是放在基本元組的統一方面,對于“老詞”盡量統一,對于“新詞”一定統一。
本文的研究內容對于了解海峽兩岸科技領域用字、用詞具有參考作用。海峽兩岸建立長期穩定的交流渠道,加強溝通交流,對了解科技術語差異、避免差異、消除差異、逐步統一有重要意義。
參考文獻
[1] 周其煥.為促進海峽兩岸科技名詞對照統一而努力[J].科技術語研究,2006,8(1):58-60.
[2] 周詩健,王存忠.大氣科學名詞兩岸交流取長補短[J].科技術語研究,2003,5(1):39-41.
[3] 王存忠,周詩健.海峽兩岸大氣科學名詞比較[J].科技術語研究,1999(4):39-41.
[4] 代曉明,李玉英.海峽兩岸大氣科學名詞交流述評[J].中國科技術語,2009,11(1):49-57.
[5] 裴亞軍.科技名詞工作新的發展和延伸[J].中國科技術語,2020,22(4):1.
[6] 張曉娜. 海峽兩岸科技名詞變異現象研究[D].哈爾濱:黑龍江大學,2017.
[7] 耿學華,傅德勝.可視化數據挖掘技術研究[J].計算機應用與軟件,2006(2):85-87.
[8] 何曉萍,黃龍.大數據領域演進路徑、研究熱點與前沿的可視化分析[J].現代情報,2015,35(4):46-51.
[9] 關迎暉,向勇,陳康.基于Gephi的可視分析方法研究與應用[J].電信科學,2013,29(S1):112-119.
[10] 朱福康.大陸與臺灣大氣科學名詞同異初探[J].氣象,1992(7):54-55,61.
[11] 費洪曉,康松林,朱小娟,等.基于詞頻統計的中文分詞的研究[J].計算機工程與應用,2005(7):67-68,100.
[12] CALLON M,LAW J,RIP A.Mapping the Dynamics of Science and Technology:Sociology of Science in the Real World[M].London:Macmillan,1986.
[13] 商瀑.論國家情報工作的運行機理:基于《中華人民共和國國家情報法》詞頻統計與分析[J].情報雜志,2020,39(2):5-10.
[14] 文禹衡,于琳.我國個人信息法律保護現狀、主要問題及完善路徑:基于《中華人民共和國個人信息保護法》的詞頻統計與分析[J].圖書館理論與實踐,2022(4):12-21,28.
作者簡介:劉金婷(1980—),女,全國科學技術名詞審定委員會事務中心副研究員,主要研究方向為術語學、氣象學。發表文章近10篇,參編《大數據百科術語辭典》。通信方式:liujt@cnterm.cn。
韋沁(1983—),女,科學出版社地質分社策劃編輯。研究方向為地質學專業出版。擔任責編出版圖書超過150種,責編的《自然災害風險地圖集》獲2022年優秀地圖作品裴秀獎(金獎),責編圖書獲得輸出版優秀圖書獎2部、海洋優秀科技圖書獎1部,入選第四屆“三個一百”原創圖書出版工程1部。通信方式:weiqin@cspm.com.cn。
通訊作者:代曉明(1969—),男,編審,中國人民大學圖書館、情報與檔案學專業管理學博士,研究領域為術語管理和信息資源管理。全國科學技術名詞審定委員會事務中心副主任,中國辭書學會理事,全國語言與術語標準化技術委員會第六屆術語學理論與應用分技術委員會(SAC/TC 62/SC 1)主任委員。主編《兩岸中小學生科技詞匯》《常見科技名詞規范使用手冊》,執行主編《兩岸科學技術名詞差異手冊》,參編《兩岸科技常用詞典》。在各類報刊上發表文章50余篇。通信方式:daixm@cnterm.cn。