穆妮熱?穆合塔爾 玉素甫?艾拜都拉
摘 要
本文解決的核心問題是運用數據庫軟件對維吾爾語句子進行分析與研究、解決文本中對句子進行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點并且對于數據庫以及數據庫的主要的特點進行探討。
【關鍵詞】維吾爾語句子 數據庫 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領域一個重要的基礎性課題、同時也是一個公認的難題、在機器翻譯、文本摘要、信息過濾、自動問答中都有廣泛的應用、該論文通過研究國內外相關句法分析算法與理論、再結合維吾爾語自身的特點對計算語言學中的句子分析進行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規則、發現國內外的經典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。中國維吾爾族在二十一世紀使用的維吾爾文是在晚期察合臺文基礎上形成的以阿拉伯字母為基礎的拼音文字。20世紀30年代以后維吾爾文經過幾次改進、最近的一次是在1983年。現行維吾爾文有32個字母、自右至左橫書。每個字母按出現在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個或者兩個以上的短語相連接構成的、有時候一個詞語也可以表達一定的意義組成一個句子、維吾爾語中句子分為簡單句和復合句兩種。
3 數據庫技術特點
數據庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫、它產生于距今50年前、隨著信息技術和市場的發展、特別是20世紀90年代以后、數據管理不再僅僅是存儲和管理數據、而轉變成用戶所需要的各種數據管理的方式。數據庫有很多種類型、從最簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型數據庫系統都在各個方面得到了廣泛的應用。數據庫主要特點:數據結構化、數據的共享性高、數據獨立性高、數據有DBMS同意管理和控制。
3.1 Access數據庫概述
Microsoft Access是一種關系式數據庫、它是單機版的數據庫管理系統。關系式數據庫由一系列表組成、表又由一系列行和列組成、每一行都是一個記錄、每一列是一個字段。Access數據庫有很多優點比如說存儲方式簡單、易于維護管理、面向對象 Access是一個面向對象的開發工具、利用面向對象的方式將數據庫系統中的各種功能對象化、將數據庫管理的各種功能封裝在各類對象中、界面友好、易操作、集成環境、處理多種數據信息、Access支持ODBC(開發數據庫互連、Open Data Base Connectivity)、利用Access強大的DDE(動態數據交換)和OLE(對象的聯接和嵌入)特性、可以在一個數據表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動態的數據庫報表和窗體等、支持廣泛、易于擴展、彈性較大 能夠將通過鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實例分析
句法分析本身并不解決使內容分析困難的模糊問題、除此以外、還必須考慮上下文的關系。因此、人們都普遍認為要考慮新方法、包括從現存詞表和詞典中抽取的詞定義信息及從反應具體學科語義特性的知識庫中獲取的信息。我們不管是一個一個處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導入Access數據庫中、然后用所使用的計算機語言平臺下進行連接、(就是說正對本文中使用的計算機語言比如C#等跟數據庫進行綁定)這樣可以一下子處理多個文件。圖1是處理維吾爾語句子時運行的文本的處理過程、比如說本文在處理很多文本、然后從中再進一步處理句子整體和構成句子的有些結構、這個過程總共建立了4個數據庫表、就是在文本中查找所需要的詞匯、查找成功的放在一個數據庫表(found word)中、查找未成功的存放在另一個數據庫表(no found word)中、然后提供一個規則數據庫表(sheet1)、還有一個word數據庫表、其作用是要把處理的文本內容以空格為準分裂成單個的詞匯以便處理。為了更好地描述數據庫的作用我還插入了表word。(圖2)
4 總結
綜上述說、目前應用于現代漢語句法分析的語法以短語結構語法、范疇語法和依存語法為代表。所有應用于漢語句法分析的語法當中、短語結構語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運用Access數據庫系統對維吾爾語句子進行了研究和分析、因為現代維吾爾語句法分析是時尚未深入研究的一個難點、在多個文本中處理不管是句子邊界定義問題或者是相似度算法應用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進行處理、在這一過程中數據庫應用的作用是非常大的、就像上述所提講述的一樣、Access數據庫的靈活應用實現了維吾爾語句子在研究中比較快的、有效地方法、當然也可以用傳統語言學的人工識別來處理這些問題也可以解決的。
句法分析的難點之一是歧義問題、同一個句子因為詞的多義性或者句法結構上的歧義性可能存在不同的句法分析結果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數據庫的主鍵、外鍵功能可以減少歧義問題的出現率、維吾爾語的32字母構成相同詞匯的可能性比較大、在多個文本中抽取詞匯中為了避免相同的詞匯的再次出現使系統再次運行、降低系統的運行速度、可以借助數據庫主鍵的無重復性特點來達到維吾爾語詞匯的重復性的歧義。通過主外鍵、非空、限制、唯一索引等保證數據的健壯、提高數據的查詢效率、通過合理表結構、安排物理存儲分區、增加索引等方式、提高數據的讀取速度、提高查詢效率。
參考文獻
[1]謝新洲,陳睿.文本自動分析中句法分析應用述評[J].情報理論與實踐 , 1992(3).
[2]張峰嶺. 數據庫應用的需求分析研究[J]. 計算機工程與應用,2002(18).
[3]張磊,杜小勇,王珊. 文本數據庫中的擴展短語挖掘[J]. 計算機科學,2001(8).
[4]張磊,杜小勇,王珊. 文本數據庫中的擴展短語挖掘[J]. 計算機科學,2001(8).
[5]馮秋香. 基于數據庫語義學的古漢語句法語義分析研究[J]. 計算機科學,2011(11).
作者簡介
穆妮熱·穆合塔爾(1989-),女,現為新疆師范大學碩士研究生。研究方向為計算語言學。
導師簡介
玉素甫·艾白都拉,男,現為新疆師范大學教授,主要從事計算語言學、自然語言處理。
作者單位
新疆師范大學 新疆維吾爾自治區烏魯木齊市 830054endprint
摘 要
本文解決的核心問題是運用數據庫軟件對維吾爾語句子進行分析與研究、解決文本中對句子進行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點并且對于數據庫以及數據庫的主要的特點進行探討。
【關鍵詞】維吾爾語句子 數據庫 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領域一個重要的基礎性課題、同時也是一個公認的難題、在機器翻譯、文本摘要、信息過濾、自動問答中都有廣泛的應用、該論文通過研究國內外相關句法分析算法與理論、再結合維吾爾語自身的特點對計算語言學中的句子分析進行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規則、發現國內外的經典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。中國維吾爾族在二十一世紀使用的維吾爾文是在晚期察合臺文基礎上形成的以阿拉伯字母為基礎的拼音文字。20世紀30年代以后維吾爾文經過幾次改進、最近的一次是在1983年。現行維吾爾文有32個字母、自右至左橫書。每個字母按出現在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個或者兩個以上的短語相連接構成的、有時候一個詞語也可以表達一定的意義組成一個句子、維吾爾語中句子分為簡單句和復合句兩種。
3 數據庫技術特點
數據庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫、它產生于距今50年前、隨著信息技術和市場的發展、特別是20世紀90年代以后、數據管理不再僅僅是存儲和管理數據、而轉變成用戶所需要的各種數據管理的方式。數據庫有很多種類型、從最簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型數據庫系統都在各個方面得到了廣泛的應用。數據庫主要特點:數據結構化、數據的共享性高、數據獨立性高、數據有DBMS同意管理和控制。
3.1 Access數據庫概述
Microsoft Access是一種關系式數據庫、它是單機版的數據庫管理系統。關系式數據庫由一系列表組成、表又由一系列行和列組成、每一行都是一個記錄、每一列是一個字段。Access數據庫有很多優點比如說存儲方式簡單、易于維護管理、面向對象 Access是一個面向對象的開發工具、利用面向對象的方式將數據庫系統中的各種功能對象化、將數據庫管理的各種功能封裝在各類對象中、界面友好、易操作、集成環境、處理多種數據信息、Access支持ODBC(開發數據庫互連、Open Data Base Connectivity)、利用Access強大的DDE(動態數據交換)和OLE(對象的聯接和嵌入)特性、可以在一個數據表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動態的數據庫報表和窗體等、支持廣泛、易于擴展、彈性較大 能夠將通過鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實例分析
句法分析本身并不解決使內容分析困難的模糊問題、除此以外、還必須考慮上下文的關系。因此、人們都普遍認為要考慮新方法、包括從現存詞表和詞典中抽取的詞定義信息及從反應具體學科語義特性的知識庫中獲取的信息。我們不管是一個一個處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導入Access數據庫中、然后用所使用的計算機語言平臺下進行連接、(就是說正對本文中使用的計算機語言比如C#等跟數據庫進行綁定)這樣可以一下子處理多個文件。圖1是處理維吾爾語句子時運行的文本的處理過程、比如說本文在處理很多文本、然后從中再進一步處理句子整體和構成句子的有些結構、這個過程總共建立了4個數據庫表、就是在文本中查找所需要的詞匯、查找成功的放在一個數據庫表(found word)中、查找未成功的存放在另一個數據庫表(no found word)中、然后提供一個規則數據庫表(sheet1)、還有一個word數據庫表、其作用是要把處理的文本內容以空格為準分裂成單個的詞匯以便處理。為了更好地描述數據庫的作用我還插入了表word。(圖2)
4 總結
綜上述說、目前應用于現代漢語句法分析的語法以短語結構語法、范疇語法和依存語法為代表。所有應用于漢語句法分析的語法當中、短語結構語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運用Access數據庫系統對維吾爾語句子進行了研究和分析、因為現代維吾爾語句法分析是時尚未深入研究的一個難點、在多個文本中處理不管是句子邊界定義問題或者是相似度算法應用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進行處理、在這一過程中數據庫應用的作用是非常大的、就像上述所提講述的一樣、Access數據庫的靈活應用實現了維吾爾語句子在研究中比較快的、有效地方法、當然也可以用傳統語言學的人工識別來處理這些問題也可以解決的。
句法分析的難點之一是歧義問題、同一個句子因為詞的多義性或者句法結構上的歧義性可能存在不同的句法分析結果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數據庫的主鍵、外鍵功能可以減少歧義問題的出現率、維吾爾語的32字母構成相同詞匯的可能性比較大、在多個文本中抽取詞匯中為了避免相同的詞匯的再次出現使系統再次運行、降低系統的運行速度、可以借助數據庫主鍵的無重復性特點來達到維吾爾語詞匯的重復性的歧義。通過主外鍵、非空、限制、唯一索引等保證數據的健壯、提高數據的查詢效率、通過合理表結構、安排物理存儲分區、增加索引等方式、提高數據的讀取速度、提高查詢效率。
參考文獻
[1]謝新洲,陳睿.文本自動分析中句法分析應用述評[J].情報理論與實踐 , 1992(3).
[2]張峰嶺. 數據庫應用的需求分析研究[J]. 計算機工程與應用,2002(18).
[3]張磊,杜小勇,王珊. 文本數據庫中的擴展短語挖掘[J]. 計算機科學,2001(8).
[4]張磊,杜小勇,王珊. 文本數據庫中的擴展短語挖掘[J]. 計算機科學,2001(8).
[5]馮秋香. 基于數據庫語義學的古漢語句法語義分析研究[J]. 計算機科學,2011(11).
作者簡介
穆妮熱·穆合塔爾(1989-),女,現為新疆師范大學碩士研究生。研究方向為計算語言學。
導師簡介
玉素甫·艾白都拉,男,現為新疆師范大學教授,主要從事計算語言學、自然語言處理。
作者單位
新疆師范大學 新疆維吾爾自治區烏魯木齊市 830054endprint
摘 要
本文解決的核心問題是運用數據庫軟件對維吾爾語句子進行分析與研究、解決文本中對句子進行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點并且對于數據庫以及數據庫的主要的特點進行探討。
【關鍵詞】維吾爾語句子 數據庫 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領域一個重要的基礎性課題、同時也是一個公認的難題、在機器翻譯、文本摘要、信息過濾、自動問答中都有廣泛的應用、該論文通過研究國內外相關句法分析算法與理論、再結合維吾爾語自身的特點對計算語言學中的句子分析進行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規則、發現國內外的經典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。中國維吾爾族在二十一世紀使用的維吾爾文是在晚期察合臺文基礎上形成的以阿拉伯字母為基礎的拼音文字。20世紀30年代以后維吾爾文經過幾次改進、最近的一次是在1983年。現行維吾爾文有32個字母、自右至左橫書。每個字母按出現在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個或者兩個以上的短語相連接構成的、有時候一個詞語也可以表達一定的意義組成一個句子、維吾爾語中句子分為簡單句和復合句兩種。
3 數據庫技術特點
數據庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫、它產生于距今50年前、隨著信息技術和市場的發展、特別是20世紀90年代以后、數據管理不再僅僅是存儲和管理數據、而轉變成用戶所需要的各種數據管理的方式。數據庫有很多種類型、從最簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型數據庫系統都在各個方面得到了廣泛的應用。數據庫主要特點:數據結構化、數據的共享性高、數據獨立性高、數據有DBMS同意管理和控制。
3.1 Access數據庫概述
Microsoft Access是一種關系式數據庫、它是單機版的數據庫管理系統。關系式數據庫由一系列表組成、表又由一系列行和列組成、每一行都是一個記錄、每一列是一個字段。Access數據庫有很多優點比如說存儲方式簡單、易于維護管理、面向對象 Access是一個面向對象的開發工具、利用面向對象的方式將數據庫系統中的各種功能對象化、將數據庫管理的各種功能封裝在各類對象中、界面友好、易操作、集成環境、處理多種數據信息、Access支持ODBC(開發數據庫互連、Open Data Base Connectivity)、利用Access強大的DDE(動態數據交換)和OLE(對象的聯接和嵌入)特性、可以在一個數據表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動態的數據庫報表和窗體等、支持廣泛、易于擴展、彈性較大 能夠將通過鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實例分析
句法分析本身并不解決使內容分析困難的模糊問題、除此以外、還必須考慮上下文的關系。因此、人們都普遍認為要考慮新方法、包括從現存詞表和詞典中抽取的詞定義信息及從反應具體學科語義特性的知識庫中獲取的信息。我們不管是一個一個處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導入Access數據庫中、然后用所使用的計算機語言平臺下進行連接、(就是說正對本文中使用的計算機語言比如C#等跟數據庫進行綁定)這樣可以一下子處理多個文件。圖1是處理維吾爾語句子時運行的文本的處理過程、比如說本文在處理很多文本、然后從中再進一步處理句子整體和構成句子的有些結構、這個過程總共建立了4個數據庫表、就是在文本中查找所需要的詞匯、查找成功的放在一個數據庫表(found word)中、查找未成功的存放在另一個數據庫表(no found word)中、然后提供一個規則數據庫表(sheet1)、還有一個word數據庫表、其作用是要把處理的文本內容以空格為準分裂成單個的詞匯以便處理。為了更好地描述數據庫的作用我還插入了表word。(圖2)
4 總結
綜上述說、目前應用于現代漢語句法分析的語法以短語結構語法、范疇語法和依存語法為代表。所有應用于漢語句法分析的語法當中、短語結構語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運用Access數據庫系統對維吾爾語句子進行了研究和分析、因為現代維吾爾語句法分析是時尚未深入研究的一個難點、在多個文本中處理不管是句子邊界定義問題或者是相似度算法應用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進行處理、在這一過程中數據庫應用的作用是非常大的、就像上述所提講述的一樣、Access數據庫的靈活應用實現了維吾爾語句子在研究中比較快的、有效地方法、當然也可以用傳統語言學的人工識別來處理這些問題也可以解決的。
句法分析的難點之一是歧義問題、同一個句子因為詞的多義性或者句法結構上的歧義性可能存在不同的句法分析結果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數據庫的主鍵、外鍵功能可以減少歧義問題的出現率、維吾爾語的32字母構成相同詞匯的可能性比較大、在多個文本中抽取詞匯中為了避免相同的詞匯的再次出現使系統再次運行、降低系統的運行速度、可以借助數據庫主鍵的無重復性特點來達到維吾爾語詞匯的重復性的歧義。通過主外鍵、非空、限制、唯一索引等保證數據的健壯、提高數據的查詢效率、通過合理表結構、安排物理存儲分區、增加索引等方式、提高數據的讀取速度、提高查詢效率。
參考文獻
[1]謝新洲,陳睿.文本自動分析中句法分析應用述評[J].情報理論與實踐 , 1992(3).
[2]張峰嶺. 數據庫應用的需求分析研究[J]. 計算機工程與應用,2002(18).
[3]張磊,杜小勇,王珊. 文本數據庫中的擴展短語挖掘[J]. 計算機科學,2001(8).
[4]張磊,杜小勇,王珊. 文本數據庫中的擴展短語挖掘[J]. 計算機科學,2001(8).
[5]馮秋香. 基于數據庫語義學的古漢語句法語義分析研究[J]. 計算機科學,2011(11).
作者簡介
穆妮熱·穆合塔爾(1989-),女,現為新疆師范大學碩士研究生。研究方向為計算語言學。
導師簡介
玉素甫·艾白都拉,男,現為新疆師范大學教授,主要從事計算語言學、自然語言處理。
作者單位
新疆師范大學 新疆維吾爾自治區烏魯木齊市 830054endprint