李夢圓
摘 要 英語詞匯數據分析近年來發展較快,數據采集是詞匯數據分析的基礎工作。介紹利用英語詞匯分析工具專用軟件采集詞匯數據,包括采集范疇、數據類型和相關性質。
關鍵詞 英語詞匯;英語詞匯分析工具;數據采集
中圖分類號:H319.3 文獻標識碼:B
文章編號:1671-489X(2017)08-0027-04
Abstract Recently there has been a fairly great rapid development in
the data analysis for the English vocabulary. The data collection serves as the basis for the vocabulary data analysis. The present paper
will give an introduction to the collection of vocabulary data, inclu-
ding the collection scope, the data kinds and the relative correspon-ding qualities by using the special software An Analysis Tool for the English Vocabulary.
Key words English vocabulary; an analysis tool for the English vocabulary; data collection
1 引言
英語語言研究中詞匯研究占有重要位置。利用維普期刊資源整合服務平臺[1]對國內1989—2016年期刊發表的文獻進行關鍵詞檢索,英語研究類文獻中詞匯研究文獻多達22 600篇。其中英語詞匯數據研究文獻1989—1998年僅為4篇,1999—2008年增至8篇,2009—2016年則達到25篇,顯示出詞匯數據分析研究領域發展很快。隨著新技術不斷地引入和更多研究人員的參與,未來英語詞匯的數據研究必將成為新的熱點,將在語言研究中發揮重要作用。英語詞匯數據研究是基于對詞匯特征數據的分析,往往材料本身詞匯數量龐大、變化形式繁多,手工采集數據極其困難。本文簡單介紹利用“英語詞匯分析工具”軟件采集英語文本中的詞匯數據。
2 軟件概貌
“英語詞匯分析工具”軟件是由南通大學李冬編制[2],軟件可以在各類Windows操作平臺安裝、運行,操作界面簡單友好(見圖1、圖2),幫助文件完整,一般不需專門學習就能操作使用。數據采集操作過程包括導入純文本文件格式的英語文本材料、設置采集目標模式、運行程序完成數據采集和生成對應的數據文件。數據文件存放在指定的文件夾內,采用TXT純文本文件格式,需要標色顯示的數據文件則為HTML文件格式。
3 常用數據采集
英語詞匯的數據研究依研究目標確定與其相關聯的特征數據作為研究基礎,采集數據,然后進行直觀比較、數學分析,獲得科學結論。“英語詞匯分析工具”可以采集文本中下列詞匯特征數據。
1)形符,又稱詞符、總詞匯量,指材料中所有出現過的單詞,包括重復出現的單詞,它是觀察材料篇幅大小的直觀數據。
2)類符,又稱詞型,指材料中不重復出現的單詞(僅字母排列形式不同,如look、looking、looked可看作三個類符),所以可看作不重復的形符,如在教材研究[3]和試卷研究[4]中形符、類符數據的統計。
3)詞匯:以原型詞為區分標準做統計,排除了如名詞的單/復數、動詞的時態、形容詞的比較級等變化形式干擾。
4)詞匯密度:衡量單位文章信息含量的尺度,反映語篇難易程度的數據[5]。計算采用類符/形符比值(英文縮寫為TTR),計算公式:
TTR=(類符數/形符數)×100%
5)詞匯覆蓋率:用詞匯做計數單位,以某個詞匯表作為測量尺度,統計文章中詞匯在詞匯表中數量的占比,依此判斷文章與詞匯表的關系程度。詞匯覆蓋率有兩種算法,其使用目的也不同。
①材料詞匯覆蓋率:用于教材可讀性或難度的評估,即不同教學階段選擇適合的教學詞匯表(如小學詞匯表、初中詞匯表、高中或大學詞匯表)進行教材的詞匯覆蓋率測定,判斷教材的適用性。計算公式:
材料詞匯覆蓋率=(材料中詞匯表所包含詞匯數/材料詞匯數)×100%
②詞表詞匯覆蓋率:用于試卷知識點的評估,即將詞匯表中詞匯作為知識點,測定考試試卷的詞匯知識點覆蓋率。計算公式:
詞匯表詞匯覆蓋率=(材料中詞匯表所包含詞匯數/詞匯表詞匯數)×100%
詞匯覆蓋率測試操作是先將自己的教學詞匯表導入軟件,創建自定義詞匯庫文件(圖3),然后進行材料的詞匯覆蓋率測定。
6)詞頻數據,指某一詞匯在材料中出現的次數(又叫頻數),對材料中的詞匯做詞頻統計、計算重復率并按一定規則列出稱詞頻表(圖4),詞頻表可以方便地觀察詞匯使用狀況。
7)詞匯分級:按詞匯的難度對應教學階段進行詞匯分級,如小學、初中、高中……形成系列分級詞匯。對材料做詞匯分級測定在教材編寫和試卷分析中都有實用價值,可以窺視其詞匯分布的細微變化(見圖2)。
8)詞匯表:把材料中詞匯轉換成原型,按首字母順序列出,稱詞匯表。詞匯表為研究者審核詞匯提供了便利。
4 其他功能
“英語詞匯分析工具”功能非常豐富,如自身知識庫的修改完善、簡易語料庫的建設、聯網交流等。此處僅介紹兩個亦屬于數據采集的功能,即人名地名搜索和新詞匯的收集整理,盡管它們一般不用于數據分析。
人名地名采集 人名地名研究也是英語研究的一個專門領域,關鍵詞搜索統計(1989年以來)國內期刊發表的人名研究方向的文獻有142篇(翻譯研究、語言應用研究和文化宗教研究),地名研究方向的文獻有77篇。在長篇文學作品的研究中,快速人名搜索對研究人物之間的關系、人物行為性格和語言特點均有幫助。人名地名采集用“其它功能”(見圖1),導入小說文本,進入“人名地名搜索工具”,有生成詞匯表或文中標紅顯示兩種處理模式供選擇,圖5是生成詞匯表模式處理結果。
英語新詞收集 新詞的產生是社會發展的必然現象,在全球一體化、信息化發展大背景下,新詞匯(如網絡詞匯、商務新詞、科技新詞等)正以前所未有的速度增加。關鍵詞檢索英語新詞匯研究文獻為520篇,英語新詞匯對辭書編輯、翻譯交流和英語教學都有顯著影響。
在海量的材料中尋找新詞匯非常困難,借助“英語詞匯分析工具”生詞庫操作功能,可以大大方便該項工作。軟件系統自帶5萬余條詞匯的特征庫,在分析識別材料的過程中遇到不包含在其內的詞匯時,自動將其收納入生詞庫中,而生詞庫操作功能是將收集的詞匯進行濾除重復、按首字母排序、生成詞匯表文本文件。因此,可以把生詞庫所收集的詞匯看作疑似新詞的初篩,為英語新詞研究提供幫助。
5 結語
當今世界已進入大數據時代,科學技術飛速發展,信息量空前膨脹,英語數據挖掘和分析作為一種研究手段越來越受到研究者的關注[6-7]。英語詞匯的數據分析離不開數據的采集,本文介紹利用專用計算機工具軟件進行相關數據采集,希望給相關工作帶來幫助。
參考文獻
[1]重慶維普資訊有限公司.維普期刊資源整合服務平臺[DB/OL].[2016-11-08].http://lib.cqvip.com/.
[2]李冬,黃錦茹,陸銀根,等.英語詞匯分析工具軟件的功能設計[J].中國現代教育裝備,2014(15):23-24.
[3]劉瑜,閆磊.海軍英語教材詞匯分布分析[J].亞太教育,2015(11):162.
[4]周加林.大學英語四級考試真題的詞貌特征:基于2006年6月—2013年6月大學英語四級考試真題的統計與分析[J].大學英語教學與研究,2014(3):82-87.
[5]王芳,連天雪.基于語料庫的商務英語與普通英語的詞匯比較研究[J].大連理工大學學報:社會科學版,2013,
34(3):130-133.
[6]ZHU Z. Application of Data Mining Technology in the Infor-mation Technology of College English Teaching[J].Advance Journal of Food Science and Technology,2013(7):969-975.
[7]WANG Y, Tseng M H, LIAO H. Data mining for adaptive learning sequence in English language instruction[J].Expert Systems with Applications,2009(4):7681-7686.