端智項杰 安見才讓
藏文教材詞匯計量統計及分析
端智項杰 安見才讓
本文以小學至高中藏語文教材為語料,利用計算機對教材中藏語詞的頻次,數量等信息做出統計,進而摸索出目前藏語文教材編輯中藏語詞的分布規律,目的在給藏語詞的安排、重要程度等是否科學合理,即是否符合各個年齡段藏族學生對知識的接受狀況,提供重要的指導作用。
藏文教材;詞統計;分布
藏文教材詞匯計量統計中,藏文分詞采用軟件自動切分和人工校對相結合的方法,盡量與藏語語感中的“詞”保持一致,即能獨立運用、使用穩定且具有固定語義的最小單位。
小學藏語文教材詞匯計量統計課文用詞和課文生詞兩部分;初中和高中階段,課后不再列舉生詞,詞匯計量統計課文用詞及“讀和寫”習題詞匯兩部分。
課文用詞指課文正文中出現的所有詞語。課文用詞是構成藏語文教材最基礎的材料之一,學生可以通過課文學習掌握大量的詞匯。藏文有四種形態的動詞:現在時、未來時、過去時、命令式,統計詞種數時按形態不同分別統計。課文用詞統計包括:各體裁詞種數、各冊詞種數、詞次、詞語頻次、出現課文數的統計及高頻詞的統計等。經過統計,藏語文小學教材1—12冊共274篇課文,詞種數9224條,97366詞次,每個詞種平均出現10.56頻次;藏語文初中教材共6冊126篇課文,共有詞種數12920條,191062詞次,每個詞種平均出現14.79次;高中教材共6冊124篇課文,共有詞種數14593條,205072詞次,每個詞種平均出現14.05次。藏語文小學、初、高中共統計詞條18309個,493500詞次。
藏語文小學教材1—12冊詞種數9224條,97366詞次,每個詞種平均出現10.56頻次;藏語文初中教材共有詞種數12920條,191062詞次,每個詞種平均出現14.79次。高中教材共有詞種數14593條,205072詞次,每個詞種平均出現14.05次。
按照詞頻從高到低的順序分別對詞種進行排序,小學階段分為前500詞、501—2500詞、2501—9224三個頻段;初中、高中階段分前1000、1001—5000、>5000這樣三個頻段統計分析,詞頻分布見表4-1。

表3-1各頻段詞種分布表
表3-1顯示小學階段出現頻率最高的前500詞占課文用詞的69.24%,平均詞次為134.83,而其余的8724個詞種僅占全部詞頻的30.76%,平均詞次為3.43。
初中階段出現頻率最高的前1000詞占課文用詞的70.13%,平均詞次為133.995,而其余的11920個詞種僅占全部詞次的29.87%,平均詞次為4.79。
高中階段出現頻率最高的前1000詞占課文用詞的69.13%,平均詞次為141.761,其余的13593個詞種占全部詞次的30.87%,平均詞次為4.66。
表4—1顯示,小學藏語文除第11冊以外,其余各冊詞總數呈線性遞增;除第1冊字母學習以外平均詞次增加相對平穩,平均詞次為4.19。
除高中第六冊,初中和高中階段其他各冊平均每課詞種數、詞次及平均詞次在相對穩定的范圍內呈波浪式變化,屬于典型的分散式教學。高中第六冊課文篇數大幅度減少,在平均詞頻即每個詞種重復出現平均次數與其他各冊基本一致的基礎上,每課平均詞種及詞次卻達到最大,說明第6冊課文跟其他各冊相比,用詞更豐富、詞量更大、篇幅更長。

表4—1各冊詞頻總數分布統計
[1]程曾厚:《計量詞匯學及其他》,江蘇教育出版社1987版.
[2]周毛草:《藏語文政策與實施狀況探討》,《中國藏學》2004年第1期.
[3]宗成慶:《統計自然語言處理》,清華大學出版社2008版.
(作者單位:青海民族大學藏文信息處理與軟件研究所)