彭 杰
英漢口譯語料庫潛在語義分析數據的挖掘探討
彭 杰
當今社會,人們在對英漢口譯語料庫的挖掘時,要在對潛在的語義分析這一理論進行深入的研究與探討,了解其中的真正含義,并結合我國英漢口譯語料庫的特點,提出基于英漢口譯語料庫的特點探索出最為合理的度量方法。筆者將根據以往的經驗,對如何在我國潛在的語義分析這一大環境下對英漢口語料庫進行挖掘研究與探討。
語料庫 知識挖掘 語義分析 英漢口譯 潛在的
對口譯最早開始研究是在1998年,由日本的名古屋大學開始著手的,在經過了由1999年至2003年這四年的研究當中,名古屋的研究學者研究開發出了包含有英語和日語的語料庫,關于這一研究的結論,研究者撰寫出了一本近100萬字的關于同聲傳譯語料庫的書籍。之久在2004年意大利的博洛尼亞大學對這一書籍進行了完善與總結,研發出了一本叫做“歐洲議會口譯語料庫”,這是一個包含英語,西班牙語和意大利語的語料庫,這一語料庫是多語的平行同聲傳譯的語料庫。以上兩個語料庫是全世界最具有代表性的兩個大型語料庫,在這兩個語料庫的基礎上,世界各個國家都開始對自己國家的語言進行研究,得出了一些基于本土文化內涵的口譯語料庫。
我國開始對口譯語料庫的重視是在2007年,可以說,從世界當中的口譯語料庫的發展情況來看,我國的語料庫研究起步較晚,研究成果不是很全面。但目前依據我國的語料庫研究成果來看,我國共有兩個口譯語料庫,一個是在2008年由我國文秋芳教授建立的,名為中國大學生英漢漢英口筆語料庫,這是我國第一個學習者口譯語料庫,但這一語料庫缺少充足全面的備注,而且對于我國文字的研究比較不全面。第二個是在2010年,由上海交通大學的胡開寶教授主導研究的,研究出的語料庫為“漢英會議口譯語料庫”,這一語料庫是基于我國的新聞發布會的漢英平行語料庫,新聞發布會的英語原創語料庫和我國政府的工作報告的漢英平行語料庫。經過多年的積累,我國這一語料庫已經積累了54萬字,這比我國最初的19萬字,是一個巨大的飛躍。
目前,雖然我國的口譯語料庫發展不是很完善,對其進行研究的研究人員也不足,但基于我國漢語的博大精深,我國的口譯語料庫的發展前途還是很有發展前途的。我國要是想對現有的口譯語料庫進行完善與發展,就要基于我國原有的研究成果,從我國的實際出發,來完善我國的口譯語料庫,培養可以完善我國口譯語料庫的研究人員。
利用“口譯語料庫”對我國的發展情況可以緩解口譯發展緩慢的學術壓力,使國家節約對完善我國口譯語料庫的投入成本,避免一些不必要的經濟費用浪費,例如那些購買服務器,購買版權,購買數據和培養研究人員的費用都得到了節約。而且合理利用“口譯語料庫”可以及時獲得最新的信息服務信息和業務運行法案,解決我國的口譯發展進程問題。
傳統的完善口譯語料庫需要培養一些關于口譯研究的人員和完善我國已有的口譯語料庫系統,其中培養研究人員的費用就非常的昂貴,國家需要投入大量的人力,物力,財力來培養這一研究水平極高的研究人員。而“口譯語料庫”的利用可以在提高我國的口譯水平的基礎上,是我國可以充分發揮自身的戰略措施,最大限度地降低國家的研究投入費用,減少政府開支,提高政府的所得研究利潤。
“口譯語料庫”在國家中的利用可以促進我英漢口譯的專業化管理和規模化擴大。我國國家對“口譯語料庫”進行合理利用可以促進我國對新的語義分析的接受程度,滿足國家對英漢口譯語料庫的需求,降低研究人員對于“口譯語料庫”研究的風險與門檻,使企業的英漢口譯語料庫的建設不斷完善,提高研究人員的研究效率。
國家對“口譯語料庫”這一最具有專業技術的學術項目進行合理的研究,意味著國家的英漢口譯語料庫的研究得到了進一步的專業化。“口譯語料庫”是一個集中了全國的人力和精力的最有水準的研究項目。它可以深化國家的語言研究規模,完善國家的人員培養制度,使國家的口譯語料庫管理更加合理,使國家的語義分析更新速度順應時代的需求。關注“口譯語料庫”在我國語義分析中應用的重要性
如今,社會主義市場經濟不斷地發展,物質生活豐富的同時人們更加注重傳統文化的傳承。對傳統文化進行傳承使英漢口譯語料庫必須進行合理的應用。針對這種情況。要明確口譯語料庫在漢英潛在語義中發揮的重要性進行分析,重視口譯語料庫建設。能夠充分地發揮口譯語料庫的作用。隨著人們對語言研究不斷地深入,我國具有高素質的居民人口數量增多,這就導致了國家對英漢口譯語料庫的完善,而“口譯語料庫”中詞匯的需求數量也大大增加,我國就業人口數量居高不下,而中小企業數量在不斷地增多,發展我國的傳統文化可以緩解我國的就業壓力,提高人民的生活水平。而如何提高我國“口譯語料庫”在的利用效果已經非常重要了。目前,由于我國人口的學歷在不斷提高,這就使我國居民的綜合素質的認知水平得到了很大的提高,而從事研究的口譯語料庫的研究人員素質水平有了很大水平的提高,國家也希望通過“口譯語料庫”這一方式,使我國的“口譯語料庫”發展更加完善。而“口譯語料庫”是英漢口譯語料庫管理中最為常見的一種,它在我國的需求量非常大,我國對如何提高“口譯語料庫”的應用非常值得重視,而保障其有效的利用是對英漢口譯語料庫管理的手段。因此可以說我國加強對“口譯語料庫”的管理應用是適應社會發展與時代變遷的需要。
電子存儲文本在信息技術不斷發展的前提下應用越來越廣泛,在推動人們信息傳播的同時也產生了大量的垃圾信息。在眾多文本中獲取到有用的信息成為存儲的重點建設項目。對于中文進行深入性的研究可以通過文本分類器獲取到有用的信息。根據要求提取訓練樣本,在相同特征基礎上構建分類標準,通過文本表現形式驗證語料的性能。在統計基礎上進行的傳統文本分類方式,主要依據的是詞頻,并沒有重視詞序或者詞義的重要性。語義信息能夠使加權階段的特征方式具有指導作用,并且在這基礎上對標簽數據中的訓練將會提升。
語義基礎上的文本分類方式與統計基礎上的分本分類方式相比,在形式上更加具有特征性,能夠深入性的挖掘內在的含義。因為這一方法需要對整個語料庫的詞匯進行確認,還要計算出語料庫中的詞語的出現頻率。通過這方法,研究人員可得出關于矩陣的稀疏成度。在語義基礎上的文本提取將會使文本特征更加的明顯,并且對加權步驟提出相應的指導意見。《同義詞語林》在進行文本特征分類的時候主要采用的就是在語義基礎上對文本進行的處理。抑郁分析的英豪口譯語料庫中材料較少,需要配合《同義詞詞林》共同使用。在這之前還沒有系統的文本處理分類方式。完整的語義分析使對英漢口譯語料庫進行深入性挖掘的重要形式,能夠提升《同義詞語林》的特性,并且消除多義詞,利用同義詞進行轉換使用,自由的進行詞組的搭配使用。對加權方式進行特征改進,在傳統加權方式中沒有明確的指導作用,不能夠根據數據特性進行詳細的分類。這樣就不能夠在根本上反應類別之間的關系。利用加權方式進行特征改善,強化指導作用。這種方式的創新能夠提升傳統加權方式的指導意義。并且充分的考慮整體詞語文本之間的關系。利用加權方式進行特征指導是對文本與整體詞之間的綜合考慮。根據這種特點在經過試驗之后在《同義詞語林》中的應用將會降低文本特征維度,使向量更加的明確,能夠在根本上提升文本分類精度。
英漢口譯語料庫中的英語部分從幾何學的角度可理解為是一種矩陣式結構,即“語料-詞匯”。矩陣中的每一個值都表示檢索詞匯在語料應用中的出現頻率,這一頻率是個比較有規律的。而從語義空間當中來提取的相似的語料詞匯,是一種對上下文語境進行統計信息的綜合體現,這一方法可以有效地計算出語料之間的語義相似度。其具體流程為以下幾點:
(1)“語料-詞匯”這一M矩陣是通過對語料庫進行獲取來得出的。當我國的語料庫具有一定規模之后,這一挖掘方法會特別耗時,因為這一方法需要對整個語料庫的詞匯進行確認,還要計算出語料庫中的詞語的出現頻率。通過這方法,研究人員可得出關于矩陣的稀疏成度。
(2)對“語料-詞匯”這一M矩陣進行奇異值分解這樣可以得出關于語料語義的利用的空間情況和詞匯語義的空間利用情況,通過對語料進行降序排列,可以得出一些非零的奇異數值,通過得出這些數值,可以更加生動形象地了解到我國英漢口譯語料庫中語義詞匯的使用情況。
隨著我國的綜合國力的不斷提高,我國的經濟發展水平和政治改革水平都在不斷地發展與完善。只有強化經濟基礎才能夠促進社會各個方面的發展,我國政治建設在經濟不斷鞏固基礎上水平持續的提升,能夠將更多的關注點放在民生問題上。中小企業的建設是我國民生問題的主要關注對象,如何提高我國的中小企業的發展水平,提高中小企業的競爭力,以解決我國居民的就業難問題,我國要從實際情況出發,實事求是將“口譯語料庫”再中小企業中進行合理的利用,把企業的會計信息化問題進行合理的解決。
我國經濟水平不斷地提升與人們的努力聯系密切,社會的持續進步使人與人之間的交流逐步的擴大。我國中小企業對“口譯語料庫”的需求量不斷增加,如何降低中小企業的財務成本,提高企業的經濟收入,使中小企業的發展適應我國經濟發展水平,社會進步和人們需求。
“口譯語料庫”可以減少中小企業對于會計信息化的投資和利用成本,降低中小企業進入信息化,實現“口譯語料庫”的門檻,提升中小企業的競爭力,我國要結合以往的國情,對中小企業進行合理“口譯語料庫”模式規劃,提高中小企業的信息化水平使我國的企業發展水平與國際水平接軌,提高我國的綜合國力和競爭力,使我國的國際地位進一步提高,世界話語權越來越大。
“口譯語料庫”的應用提高了企業的競爭力,使我國許多中小企業的規模進一步擴大,相應性的增加了就業崗位數量,能夠在一定程度上解決人們的就業問題,緩解生活壓力。對于社會就業水平的解決具有很大的促進作用。社會不斷發展促進了經濟建設水平越來越高,不斷地滿足人們的基本生活需求。而如何中小企業的競爭力,提高居民就業水平,增強綜合國力,使企業的信息化管理順應時代的需求。此外,居民就業水平的提高可以提高居民的經濟收入,提高生活水平。
[1]范守義.評翻譯界五十年之爭(1894- 1948)[J].中國翻譯,1986(1):2~8.
[2]文秋芳,王金栓.中國大學生英漢漢英口筆譯語料庫[M].北京:外語教學與研究出版社,2008.
[3]王巖.記者招待會現場漢英口譯語料庫的研制與應用[J].海外英語,2014(17):164~168.
[4]趙巍,王雷.大規模英漢平行語料庫的開發與使用性探討[J].牡丹江師范學院報:哲學社會科學版,2014(4):116~117.
[5]張威.口譯語料庫的開發與建設:理論與實踐的若干問題[J].中國翻譯,2009(3):56~61,98.
[6]張威.口譯語料庫研究的原則與方法[J].外語電化教學,2013(1):65~70.
(作者單位:紅河學院)
本文系2014年紅河學院科研基金項目(XJ14Y20):模糊數學在翻譯質量評估(TQA)中的參數參照分析作用研究。
彭杰(1980-),男,云南屏邊人,講師,澳大利亞Macuqarie大學MTI碩士,研究方向:英語口筆譯理論與實踐。