基于改進AHP 和模糊理論的小型語料庫評測研究

2023-11-20 11:00:06賀娜娜朱紅磊

科學技術創新 2023年25期

賀娜娜，朱紅磊，李蘋

（河南中醫藥大學，河南鄭州）

在20 世紀50 年代后期，作為一種新興的學科和新的研究方法，語料庫語言學逐漸發展起來，將計算機快速大量準確檢索和統計語料的功能與語言學的各項研究相結合[1]。隨著計算機存儲數據設備的成本下降，研究者針對研究所需開始建立多種小型語料庫[2]。但是，到目前為止，語料庫建庫的標準及規范尚未得到統一，導致不同語料庫的設計和構建出現很大差異。因此，建立合理的評測指標體系并選取有效的方法來評測小型語料庫的可用性是目前亟需解決的問題。

1 基本理論

1.1 改進AHP

AHP[3-5]法由美國匹茲堡大學教授Saaty 提出，是一種多屬性層次權重決策分析方法，主要通過運用網絡系統理論和多目標綜合評價對定性問題進行定量分析。目前，針對AHP 法的研究，主要從以下7 個方面展開[6]：

（1）一致性的檢驗與改進；（2）標度選擇；（3）不確定性問題；（4）排序方法；（5）判斷矩陣的靈敏度分析；（6）與其它決策方法的結合；（7）群組決策的研究。

AHP 要求比較某兩個指標之間的重要性，建立兩兩比較判斷矩陣，然而傳統的九標度存在2 個問題[7]：

（1）“重要性”的概念較為模糊，特別是在1 至9中給出相對重要性的定量判斷是很困難的；（2）在評價指標較多的情況下，一致性（consistency index，CI）很難保證，如果存在嚴重不一致時，需要重新構建判斷矩陣。針對上述問題，有關學者[8]提出了0，1，2 三標度法,其有利于制表以及收集專家信息，易被決策者接受；在評價制表較多時，能有效提高一致性，且評價結果也比較接近復雜判斷的結果。基于此，我們運用這種標度來代替傳統的九標度判別。假設有指標xi與xj，hij為兩個指標重要性比較的取值，那么三標度判別指標重要性如表1 所示。

表1 三標度判別指標重要性比較

本文中小型語料庫評測指標權重的計算步驟如下：

步驟1，原始判斷矩陣的構建

將各元素相對準則層K 的重要性進行比較。根據表1 的方法，進行兩兩比較，最后獲得判斷矩陣A。

步驟2，處理判斷矩陣

對A 的相對重要性權值ri進行比較，

式（2）中：ri是A 的第i 行向量各分量的和。基于此，采用差值法處理A，假設進行處理后，矩陣為A'，包含的元素為aij'，

式（3）中：rj是矩陣A 的第j 行向量的各分量的和。

步驟3，小型語料庫指標的層次單排序和權重計算

針對小型語料庫可用性，指標層中的元素的意思是影響指標，上面一層是準則層，影響指標對應準則層權重的計算是層次單排序，我們運用方根法來計算：在加工過的A'中，每行元素進行相乘，然后開n 次方，同時進行歸一化得到權重Wi，

步驟4，檢驗評價指標一致性

層次單排序情況下，為確保小型語料庫指標的辨別在整體上具有傳遞性和合理性，需檢驗判斷矩陣的一致性。假設一致性指標是CI，

當CR<1 時，那么判斷矩陣的一致性可以接受。式（7），RI 是和矩陣階數有關的隨機一致性的指標，Saaty得出了RI 的值，見表2。

表2 RI 取值

1.2 模糊綜合評價模型

模糊綜合評價法[9]，即應用評價因素模糊關系合成機理，依據各個評價因素對被評價對象的隸屬度進行綜合性評判的一種方法。構建單因素Bi的評判矩陣r 和單因素權重集A，用Bi的評判矩陣乘以A，可以獲得Bi的評判集；評判集歸一化后，將其視為上一級指標的R 的行，從而構建上一級指標的R；依據構造單因素評判方法構建每一級的評判集，從而得出整體評價結果。

2 實例分析

2.1 小型語料庫評測的指標體系設計

小型語料庫評測的基礎是評測指標體系的構建，指標體系的構建要遵循科學性原則、可行性原則、全面性原則及系統和層次原則，具體含義見表3。

表3 小型語料庫評測指標體系構建原則

小型語料庫的構建，過程繁雜，影響其可用性的因素有許多，因此，搜集整理與可用性有關的信息是最關鍵的一步。對語料庫的可用性進行評測，我們要考慮多個方面。首先，語料庫設計。語料庫質量的好壞與語料庫設計有直接聯系，其設計必須按照建庫目的和用戶需求來進行。其次，語料庫實現。在研究語料庫實現方面，關鍵因素主要有：語料采集程序、存儲結構、管理程序、檢索程序等。再次，語料庫標注。語料的加工規范、程序、結果是探究語料庫標注的關鍵因素。最后，語料庫維護。可維護性和維護程序可作為研究語料庫維護的兩個方面。

2.2 評價對象因素的確定

根據表4 中建立的小型語料庫可用性評測指標體系，可維護性的評測指標有5 種，分別為平衡比例、語料更新、邏輯結構、存儲結構和重新標注，則該小型語料庫的可用性因素集為 U={u,u,u,u,u}，將各指標分為5 個等級，于是得出可維護性的各影響因素等級（見表4），各因素等級的隸屬度（見表5）。

表4 小型語料庫可維護性各影響因素等級

表5 各因素等級的隸屬度

在一致性原則的基礎上，采用歸一化，得到因素等級隸屬度矩陣R 為：

2.3 確定評語集

建立小型語料庫評測的評語集。根據小型語料庫指標體系的特征，在前人制訂評語集的經驗基礎上，定義評語集為V=（很小，較小，中等，較大，很大）=（Ⅰ，Ⅱ，Ⅲ，Ⅳ，Ⅴ）。

2.4 指標權重的確定

2.4.1 Delphi 調查

采用Delphi 法征集15 名專家的意見，以三標度為準，將表4 中的準則層的5 個方面（平衡比例、語料更新、邏輯結構、存儲結構和重新標注）重要程度進行相互比較、對各指標的重要程度進行相互比較。

設二級指標可維護性的5 個三級兩兩比較后得到的判斷矩陣為：

由式（5）、式（6）及式（7），結合表4，經計算上述判斷矩陣的最大特征根λmax=7.6684，一致性指標CI=0.1114。從一致性檢測判別式可得CR=0.083<0.1，即：該兩兩因素的判斷表可通過一致性檢驗，上面的計算有效。

2.4.2 二級指標可維護性下的5 個三級指標的指標權重

依據前面給出的算法的步驟，處理和計算判斷矩陣C12的權重：

由式（4）可知，三級指標中對于大規模語料庫可用性評測的影響權重分別是0.103、0.214、0.312、0.228 和0.143，向量形式為WB12=[0.103 0.214 0.312 0.228 0.143]T，這說明邏輯結構對于大規模語料評測的影響最大，其次是存儲結構和語料更新，最后是重新標注和平衡比例。

據此，對三級指標相對的目標層的影響權重進行計算，可得到如下的向量：

2.5 三級模糊綜合評價

以二級指標可維護性下的5 個三級指標為例進行三級模糊綜合評價，計算結果如下：

2.6 二級模糊綜合評價

二級模糊綜合評價的結果依據三級模糊綜合評價結果來計算得出：

2.7 一級模糊綜合評價

依據二級模糊綜合評價的計算，結合表4 中確定的一級指標權重，經計算可得一級模糊綜合評價結果，如下：

依據最大隸屬度原則：判斷出小型語料庫的可用性等級為一般，因此需要對該小型語料庫進行進一步的修改和完善。

3 結論

（1）針對AHP（層次分析法）的不足，提出了AHP的改進方法，確定了小型語料庫評測指標體系的權重，結合模糊綜合評價模型，建立了基于改進AHP 和三級模糊綜合評價模型的小型語料庫的評測模型。

（2）為了驗證基于改進AHP 和三級模糊綜合評價模型的有效性，以課題組構建的小型語料為實例進行分析。結果表明：該小型語料庫的評測等級為中等，與實際情況相符合，需要進一步對該小型語料庫進行完善。