[摘要]近年來(lái),在教育技術(shù)領(lǐng)域陸續(xù)開(kāi)展了多項(xiàng)元研究工作,這些研究的一個(gè)共同特點(diǎn)就是人工建立一個(gè)分類體系,然后將研究樣本納入這些分類體系,這其實(shí)就是一個(gè)文本分類過(guò)程。目前,自然語(yǔ)言處理領(lǐng)域已有較為成熟的文本自動(dòng)分類技術(shù),但是已有的研究中卻沒(méi)有采用該技術(shù)。這與當(dāng)前缺乏教育技術(shù)領(lǐng)域術(shù)語(yǔ)詞典也有關(guān)系。文章以遠(yuǎn)程教育領(lǐng)域?yàn)槔浴堕_(kāi)放教育研究》雜志2002年至2006年五年的題錄信息為樣本,在總結(jié)教育技術(shù)領(lǐng)域部分術(shù)語(yǔ)構(gòu)成規(guī)則的基礎(chǔ)上,研制出一種規(guī)則和統(tǒng)計(jì)相結(jié)合的算法來(lái)提取術(shù)語(yǔ)。測(cè)試結(jié)果表明,本算法術(shù)語(yǔ)識(shí)別的準(zhǔn)確率為66.7%,召回率為76.7%,與現(xiàn)有的一些術(shù)語(yǔ)提取算法結(jié)果相近,可以較好的幫助研究者完成術(shù)語(yǔ)提取工作,并為及時(shí)發(fā)現(xiàn)教育技術(shù)領(lǐng)域的新術(shù)語(yǔ)帶來(lái)可能。
[關(guān)鍵詞]術(shù)語(yǔ)提取;遠(yuǎn)程教育;自然語(yǔ)言處理:知識(shí)工程
[中圖分類號(hào)]G434 [文獻(xiàn)標(biāo)識(shí)碼]B [論文編號(hào)]1009-8097(2008)05-0060-06
一 問(wèn)題的提出
術(shù)語(yǔ)是專業(yè)領(lǐng)域中概念的語(yǔ)言指稱。(中國(guó)標(biāo)準(zhǔn)研究院,1999)術(shù)語(yǔ)是定義明確的專業(yè)名詞,是領(lǐng)域?qū)<矣脕?lái)刻畫(huà)、描寫(xiě)領(lǐng)域知識(shí)的基本信息承載單元,是信息檢索和信息提取的重要單元,是知識(shí)庫(kù)中的核心成員,也是本體構(gòu)成的基本單元。同時(shí),一個(gè)學(xué)科的術(shù)語(yǔ)表對(duì)于該學(xué)科文獻(xiàn)的表示、自動(dòng)分類和學(xué)科研究熱點(diǎn)發(fā)現(xiàn)也有著非常重要的意義。有關(guān)知識(shí)庫(kù)建立和文本自動(dòng)分類等技術(shù)恰恰屬于當(dāng)前在教育技術(shù)領(lǐng)域悄然興起的知識(shí)工程學(xué)的范疇。
當(dāng)前,知識(shí)工程學(xué)正成為教育技術(shù)領(lǐng)域的一個(gè)重要研究領(lǐng)域。它包括軟計(jì)算、Agent、自然語(yǔ)言理解、邏輯與推理、形象思維研究、基于事例的推理、機(jī)器學(xué)習(xí)、知識(shí)本體論等領(lǐng)域的研究。(黃榮懷等,2004)李爽(2005)還就知識(shí)工程有關(guān)領(lǐng)域(如基于知識(shí)庫(kù)的知識(shí)發(fā)現(xiàn)、自然語(yǔ)言理解、基于事例的推理等)在支持未來(lái)遠(yuǎn)程學(xué)習(xí)支持相關(guān)技術(shù)的研究和開(kāi)發(fā)方面的潛力進(jìn)行了探討。另外,楊開(kāi)城等人(2006)利用了知識(shí)工程中的自然語(yǔ)言理解技術(shù)來(lái)建立教育技術(shù)學(xué)理論研究中的話語(yǔ)詞匯體系,探究教育技術(shù)理論研究的話語(yǔ)邏輯,這屬于教育技術(shù)研究中的元研究范疇,采用的是內(nèi)容分析方法(話語(yǔ)分析方法)。近年來(lái),在教育技術(shù)領(lǐng)域(包括遠(yuǎn)程教育領(lǐng)域)陸續(xù)開(kāi)展了多項(xiàng)元研究工作(周彩霞等,2006;周彩霞等,2005;項(xiàng)國(guó)雄等,2005;張靜等,2004;祝智庭等,2002:張偉遠(yuǎn)。1999:殷丙山等,2005:張秀梅,2005a;楊開(kāi)城等,2006),這些研究的一個(gè)共同特點(diǎn)就是采用了內(nèi)容分析方法,它的一般過(guò)程是先建立一個(gè)分類體系,然后將研究樣本按照這個(gè)分類體系進(jìn)行分類,最后得出研究樣本的分布特點(diǎn),這其實(shí)就是一個(gè)文本分類過(guò)程。目前,自然語(yǔ)言理解領(lǐng)域已有較為成熟的文本自動(dòng)分類技術(shù),但是已有的研究中卻沒(méi)有提及采用了該技術(shù)。張秀梅(2005b)曾撰文介紹國(guó)外遠(yuǎn)程教育研究中六項(xiàng)有代表性的采用文獻(xiàn)內(nèi)容分析法的研究,然而也未提及這些研究是否用到了文本自動(dòng)分類技術(shù)。這里我們假定研究者沒(méi)有采用文本自動(dòng)分類技術(shù),而是人工對(duì)研究樣本進(jìn)行分類,可以想見(jiàn),隨著研究論文的不斷增多(通過(guò)“中國(guó)學(xué)術(shù)期刊網(wǎng)”的查詢,從1999年到2006年大陸教育技術(shù)領(lǐng)域六個(gè)CSSCI引文來(lái)源期刊共刊發(fā)論文11370篇),要對(duì)這幾千篇上萬(wàn)篇的文章進(jìn)行分類工作量是巨大的。所以,我們必須將文本自動(dòng)分類技術(shù)及其他自然語(yǔ)言處理技術(shù)引入文獻(xiàn)內(nèi)容分析方法中,使這一研究方法更為高效。
我們知道,文本自動(dòng)分類的前提是文本表示,文本表示的基礎(chǔ)是對(duì)文本進(jìn)行分詞。由于現(xiàn)有的分詞工具只包含通用詞匯,所以在進(jìn)行分詞時(shí)會(huì)產(chǎn)生大量的錯(cuò)誤分詞,從而無(wú)法正確完成文本表示,也就給文本自動(dòng)分類帶來(lái)不準(zhǔn)確性。所以,當(dāng)前的問(wèn)題就是建立教育技術(shù)領(lǐng)域術(shù)語(yǔ)詞匯表,為利用自然語(yǔ)言理解技術(shù)開(kāi)展教育技術(shù)領(lǐng)域元研究打下基礎(chǔ)。本研究將試圖研制一個(gè)針對(duì)教育技術(shù)領(lǐng)域(包括遠(yuǎn)程教育領(lǐng)域)的術(shù)語(yǔ)提取算法,并建立一份術(shù)語(yǔ)表,以期能為其他研究者開(kāi)展文獻(xiàn)內(nèi)容分析研究提供方便。
二 文越研究
我們將先通過(guò)文獻(xiàn)研究,總結(jié)前人在術(shù)語(yǔ)提取方面的工作,從而為建立自己的算法打下基礎(chǔ)。另外,分詞是術(shù)語(yǔ)提取的基礎(chǔ),我們有必要了解分詞技術(shù)以及已有的分詞工具。
1 中文分詞技術(shù)及工具
中文分詞是中文信息處理領(lǐng)域中的一項(xiàng)基礎(chǔ)技術(shù)。一些比較簡(jiǎn)單的分詞算法有最大匹配法、最大概率法等。由于開(kāi)發(fā)分詞工具需要建立大型詞庫(kù)和語(yǔ)法知識(shí)庫(kù),費(fèi)時(shí)費(fèi)力,也非筆者能力所及。所幸的是,中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢語(yǔ)詞法分析系統(tǒng)ICrCLAS(Institute 0f Computing Technology,Chinese Lexical Analysis System)(中科院計(jì)算技術(shù)研究所,2002),并在網(wǎng)上公布了源碼。該系統(tǒng)功能有中文分詞和詞性標(biāo)注,分詞正確率高達(dá)97.58%。于是在本研究中我們采用了該分詞工具。下表給出ICTCLAS分詞工具對(duì)文本進(jìn)行分詞和詞性標(biāo)注處理后的一個(gè)片斷。

2 術(shù)語(yǔ)提取算法
術(shù)語(yǔ)一般分為單詞術(shù)語(yǔ)和多詞術(shù)語(yǔ)兩類。單詞術(shù)語(yǔ)提取一般采用語(yǔ)料庫(kù)比較方法。多詞術(shù)語(yǔ)提取往往多考慮詞與詞的結(jié)合緊密度,在領(lǐng)域度計(jì)算上,通常依賴于統(tǒng)計(jì)方法進(jìn)行局部特征的提取。(何燕等,2006)
吳云芳等人(2005)曾對(duì)單詞術(shù)語(yǔ)和多詞術(shù)語(yǔ)的比重進(jìn)行過(guò)統(tǒng)計(jì),發(fā)現(xiàn)多詞術(shù)語(yǔ)遠(yuǎn)遠(yuǎn)多于單詞術(shù)語(yǔ),并且新生的術(shù)語(yǔ)大部分還是多詞術(shù)語(yǔ)。因此,本研究的重點(diǎn)將首先放在多詞術(shù)語(yǔ)的提取上。
關(guān)于統(tǒng)計(jì)方法發(fā)現(xiàn)多詞術(shù)語(yǔ),梁剛(2005)曾給出了詳細(xì)的算法,整個(gè)程序的實(shí)現(xiàn)過(guò)程如下:
(1)從數(shù)據(jù)庫(kù)中讀取文獻(xiàn)內(nèi)容
(2)將文獻(xiàn)根據(jù)標(biāo)點(diǎn)符號(hào)等標(biāo)志劃分成子句;
(3)利用分詞工具對(duì)子句進(jìn)行切分,得出分詞碎片;
(4)將分詞碎片按照組合規(guī)律進(jìn)行組合,形成候選術(shù)語(yǔ);例如某個(gè)字句經(jīng)過(guò)切分得到w1、w2、w3等三個(gè)詞語(yǔ),按照組合規(guī)律,存在的候選術(shù)語(yǔ)有w1w2w3、w1w2、w2w3。
(5)在文獻(xiàn)中對(duì)候選術(shù)語(yǔ)進(jìn)行出現(xiàn)頻率統(tǒng)計(jì)分析,將頻率超過(guò)兩次的候選術(shù)語(yǔ)存儲(chǔ)到新術(shù)語(yǔ)表中;
(6)判斷文獻(xiàn)集合是否全部處理完成,如果完成轉(zhuǎn)⑦,否則轉(zhuǎn)①:
(7)結(jié)束
由于一些虛詞如“的”、“了”在文章中出現(xiàn)頻率很高,所以上述算法得到的候選術(shù)語(yǔ)中往往包含大量的含有“的”、“了”等詞的無(wú)效術(shù)語(yǔ)。這就大大影響了術(shù)語(yǔ)提取的準(zhǔn)確率。針對(duì)這一問(wèn)題,吳云芳等人(2005)提出了一種結(jié)合術(shù)語(yǔ)部件庫(kù)的術(shù)語(yǔ)提取方法,他們先對(duì)已有術(shù)語(yǔ)進(jìn)行了詞法分析,得到了術(shù)語(yǔ)詞性結(jié)構(gòu)的統(tǒng)計(jì)數(shù)據(jù),如他們發(fā)現(xiàn)雙詞術(shù)語(yǔ)的語(yǔ)法模板包括:n+vn,vn+n,a+n,b+n,a+vn,b+vn,n+Ng,Vn+Ng,v+Ng,V+V,v+n,n+v。他們還發(fā)現(xiàn)了計(jì)算機(jī)領(lǐng)域術(shù)語(yǔ)中不可能包含的動(dòng)詞如“到、是、可以、完成、使用、包含、有利于”等等。有了這些規(guī)則,就可以對(duì)統(tǒng)計(jì)方法中得到的候選術(shù)語(yǔ)進(jìn)行篩選,從而提高術(shù)語(yǔ)提取的準(zhǔn)確率。
本研究將綜合上述兩種術(shù)語(yǔ)提取方法,在分析已有教育技術(shù)領(lǐng)域術(shù)語(yǔ)結(jié)構(gòu)的基礎(chǔ)上總結(jié)出術(shù)語(yǔ)規(guī)則,并改進(jìn)現(xiàn)有的統(tǒng)計(jì)算法,以求取得較好的術(shù)語(yǔ)提取效果。
三 研究過(guò)程
整個(gè)研究過(guò)程包括收集期刊題錄信息、初步歸納教育技術(shù)領(lǐng)域術(shù)語(yǔ)規(guī)則、基于統(tǒng)計(jì)方法的術(shù)語(yǔ)提取算法的實(shí)現(xiàn)、第一次術(shù)語(yǔ)提取并校對(duì)提取結(jié)果、歸納遠(yuǎn)程教育領(lǐng)域術(shù)語(yǔ)規(guī)則、改進(jìn)術(shù)語(yǔ)提取程序并處理題錄信息、校對(duì)第二次術(shù)語(yǔ)提取結(jié)果并評(píng)價(jià)術(shù)語(yǔ)提取算法等過(guò)程。研究中,術(shù)語(yǔ)提取算法不是一次完成的,而需要根據(jù)提取結(jié)果不斷總結(jié)規(guī)則來(lái)改進(jìn),是一個(gè)反復(fù)進(jìn)行、螺旋上升的過(guò)程。
1 從期刊網(wǎng)下載題錄信息
學(xué)術(shù)期刊反映了某領(lǐng)域研究的最新進(jìn)展,新的術(shù)語(yǔ)往往在學(xué)術(shù)期刊上最先出現(xiàn)。期刊論文的題錄信息如標(biāo)題、摘要、關(guān)鍵詞則包含了大量的術(shù)語(yǔ),可以成為我們提取術(shù)語(yǔ)的理想語(yǔ)料。我們通過(guò)登錄“中國(guó)學(xué)術(shù)期刊網(wǎng)”,搜索某個(gè)刊物名稱如“開(kāi)放教育研究”,將得到該雜志在“中國(guó)學(xué)術(shù)期刊網(wǎng)”中的全部題錄信息。然后將這些題錄信息包括標(biāo)題、作者、年份、期次、摘要、關(guān)鍵詞等下載下來(lái)存儲(chǔ)到文本文件中。得到的文本文件的一個(gè)片斷如表2所示。


2 將期刊題錄信息導(dǎo)入數(shù)據(jù)庫(kù)
我們知道,原始的文獻(xiàn)題錄信息如表2所示,各種信息混同在一起。這里我們要用到文本信息提取技術(shù),通過(guò)總結(jié)每類信息的呈現(xiàn)規(guī)則,如文獻(xiàn)標(biāo)題以“題名”開(kāi)始、關(guān)鍵詞信息以“中文關(guān)鍵詞”開(kāi)始等,并用正則表達(dá)式將這些規(guī)則表達(dá)出來(lái),以便計(jì)算機(jī)程序能夠理解這些規(guī)則。然后按照規(guī)則編寫(xiě)計(jì)算機(jī)程序來(lái)批量處理這些題錄信息,將各種信息分項(xiàng)存儲(chǔ)到數(shù)據(jù)表中。
3 基于統(tǒng)計(jì)的術(shù)語(yǔ)提取算法的設(shè)計(jì)與實(shí)現(xiàn)
該算法將以梁剛(2005)提出的算法為基礎(chǔ),在分詞環(huán)節(jié)采用ICTCLAS分詞工具,以便增加對(duì)詞語(yǔ)的詞性標(biāo)注,為后面改進(jìn)算法提供方便;并采用正向逆向兩趟分詞碎片重組方法,以減少候選術(shù)語(yǔ)的數(shù)量。整個(gè)程序的實(shí)現(xiàn)過(guò)程如下:
(1)從數(shù)據(jù)庫(kù)中讀取一篇文獻(xiàn)的題錄信息包括標(biāo)題、摘要和關(guān)鍵詞。
(2)將文獻(xiàn)題錄信息根據(jù)標(biāo)點(diǎn)符號(hào)等標(biāo)志劃分成子句。
(3)利用分詞工具對(duì)子句進(jìn)行切分,得出分詞碎片。將分詞碎片進(jìn)行正向最大組合和逆向最大組合,形成兩個(gè)候選術(shù)語(yǔ)集合,最后取這兩個(gè)候選術(shù)語(yǔ)集合的交集作為候選提取得到的術(shù)語(yǔ)。具體過(guò)程如圖1所示。這里詳細(xì)描述了正向最大組合算法,逆向最大組合算法與它類似,僅在取出子串時(shí)的方向上有所區(qū)別,正向最大組合算法從待重組詞串左邊開(kāi)始取詞,而逆向最大組合算法從待重組詞串右邊開(kāi)始取詞。
(4)判斷文獻(xiàn)集合是否全部處理完成,如果完成轉(zhuǎn)⑤,否則轉(zhuǎn)①。
(5)結(jié)束
利用這個(gè)算法我們進(jìn)行了第一次術(shù)語(yǔ)提取實(shí)驗(yàn)。實(shí)驗(yàn)表明,采用該算法去處理題錄信息,將得到大量帶有“的”、“了”的術(shù)語(yǔ),如“了電化教育”、“了概念地圖的”、“e-learntag的”等,這是因?yàn)橐恍┨撛~如助詞、語(yǔ)氣詞的使用頻率很高,在重組詞串時(shí)往往和術(shù)語(yǔ)結(jié)合在一起,這就大大影響了術(shù)語(yǔ)提取的準(zhǔn)確程度。這就需要引入術(shù)語(yǔ)規(guī)則,對(duì)不可能構(gòu)成術(shù)語(yǔ)的詞性進(jìn)行歸納總結(jié),并改進(jìn)算法,提高術(shù)語(yǔ)提取準(zhǔn)確度。

4 初步歸納術(shù)語(yǔ)規(guī)則
對(duì)不可能構(gòu)成術(shù)語(yǔ)的詞語(yǔ)的詞性進(jìn)行歸納必須建立在對(duì)已有術(shù)語(yǔ)的統(tǒng)計(jì)基礎(chǔ)上。前文已經(jīng)提到,楊開(kāi)城等人(2006)已經(jīng)通過(guò)人工方式提取了471條教育技術(shù)領(lǐng)域的術(shù)語(yǔ)。通過(guò)與楊開(kāi)城老師聯(lián)系,我們得到了這些術(shù)語(yǔ)。我們用ICTCLAS來(lái)對(duì)這些術(shù)語(yǔ)進(jìn)行分詞和詞性標(biāo)注操作,以期發(fā)現(xiàn)組成術(shù)語(yǔ)的詞語(yǔ)的詞性特征。ICTCLAS提供三種詞性標(biāo)注標(biāo)準(zhǔn),這里我們采用北大計(jì)算所制定的詞性標(biāo)注規(guī)范(北京大學(xué)計(jì)算語(yǔ)言研究所,2007)。

我們將得到的術(shù)語(yǔ)分詞和詞性標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)組成術(shù)語(yǔ)的通用詞匯中,不可能的詞性有嘆詞、擬聲詞、助詞、語(yǔ)氣詞、成語(yǔ)、非語(yǔ)素字、標(biāo)點(diǎn)符號(hào)。這個(gè)規(guī)則將成為我們?cè)诮M合候選詞串時(shí)判斷從詞串S1中取出的詞是否合法,將不合法詞作為術(shù)語(yǔ)與非術(shù)語(yǔ)之間的邊界,從而減少虛詞對(duì)術(shù)語(yǔ)提取的影響。引入規(guī)則后我們得到改進(jìn)的算法如圖2所示。
5 完善術(shù)語(yǔ)規(guī)則
利用改進(jìn)后的規(guī)則與統(tǒng)計(jì)相結(jié)合的算法我們進(jìn)行了第二次術(shù)語(yǔ)提取實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,一些虛詞的影響得到了有效的控制,但是還有一些虛詞如連詞、介詞帶來(lái)了大量的非術(shù)語(yǔ)詞串,如“情感和實(shí)踐”、“調(diào)查與分析”、“在多媒體”、“在網(wǎng)絡(luò)教育”。雖然個(gè)別術(shù)語(yǔ)包含有連詞,如“信息技術(shù)與課程整合”,個(gè)別術(shù)語(yǔ)包含介詞,如“以學(xué)為主的教學(xué)設(shè)計(jì)”,“以教為主的教學(xué)設(shè)計(jì)”。但是這畢竟是極少數(shù),目前只發(fā)現(xiàn)了前面提到的三個(gè)術(shù)語(yǔ)。所以我們將在不可能詞性中增加介詞、連詞這兩個(gè)詞性。
另外,我們還得到了大量的專用名詞包括人名和機(jī)構(gòu)名,如凱勒教授、張祖忻教授、英國(guó)開(kāi)放大學(xué)、上海電視大學(xué)等。這些專用名詞也將通過(guò)不可能詞性的方式排除,因?yàn)镮CTCLAS分詞工具對(duì)專用名詞的詞性有特殊的標(biāo)記,不同于普通名詞,如人名的詞性標(biāo)記是nr,地名的詞性標(biāo)記是ns,機(jī)構(gòu)團(tuán)體名的詞性標(biāo)記是nt,而普通名詞的標(biāo)記是n。這樣一來(lái),我們就可以區(qū)分專用名詞和普通名詞,而把包含專用名詞的詞串排除在術(shù)語(yǔ)范圍之外。
完善術(shù)語(yǔ)規(guī)則后,我們進(jìn)一步改進(jìn)算法,并進(jìn)行了第三次提取術(shù)語(yǔ)實(shí)驗(yàn),結(jié)果比較令人滿意,得到的結(jié)果大部分都是術(shù)語(yǔ)。
至此,整個(gè)算法的研制工作基本完成,下面開(kāi)始我們的測(cè)試環(huán)節(jié)。
四 對(duì)研究結(jié)果的檢驗(yàn)
1 樣本的選取
我們選取《開(kāi)放教育研究》雜志作為測(cè)試對(duì)象。我們從“中國(guó)學(xué)術(shù)期刊網(wǎng)”下載“開(kāi)放教育研究”從2002年到2006年的全部論文的題錄信息。因?yàn)?001年以前的論文題錄信息不夠完整,常常缺少摘要、關(guān)鍵詞等信息。由于該雜志還發(fā)表一些英文文章以及一些簡(jiǎn)訊、評(píng)論。這些都通過(guò)一定的規(guī)則篩選過(guò)濾,最終得到491篇論文的題錄信息記錄。

2 術(shù)語(yǔ)提取
我們用術(shù)語(yǔ)提取程序處理這491條題錄信息,得到4544個(gè)術(shù)語(yǔ)。
3 術(shù)語(yǔ)校對(duì)
為了檢驗(yàn)術(shù)語(yǔ)提取算法的準(zhǔn)確性,我們委托三名教育技術(shù)專業(yè)的研究生(兩名博士研究生和一名碩士研究生)進(jìn)行術(shù)語(yǔ)校對(duì)。校對(duì)表如下所示:
該表由三部分組成:“候選術(shù)語(yǔ)”、“術(shù)語(yǔ)語(yǔ)境”、“判斷”“術(shù)語(yǔ)語(yǔ)境”表示抽取出該“候選術(shù)語(yǔ)”的句子或關(guān)鍵詞,其中“候選術(shù)語(yǔ)”在該語(yǔ)境通過(guò)符號(hào)“[]”凸顯出來(lái);“判斷”一欄有兩個(gè)值,“0”表示是術(shù)語(yǔ),“1”表示不是術(shù)語(yǔ)。最后將三個(gè)人的校對(duì)結(jié)果匯總并取校對(duì)結(jié)果的交集,最終我們得到3034個(gè)術(shù)語(yǔ)。這3034個(gè)術(shù)語(yǔ)包含重復(fù)的術(shù)語(yǔ),因?yàn)橐恍┬g(shù)語(yǔ)在文中會(huì)多次出現(xiàn)。我們對(duì)這3034個(gè)術(shù)語(yǔ)進(jìn)行歸并處理,得到590個(gè)術(shù)語(yǔ),這也是我們需要的術(shù)語(yǔ)表。
4 術(shù)語(yǔ)提取算法的準(zhǔn)確率
術(shù)語(yǔ)提取的準(zhǔn)確率定義為:
準(zhǔn)確率=正確識(shí)別的術(shù)語(yǔ)個(gè)數(shù)/識(shí)別的術(shù)語(yǔ)個(gè)數(shù)
根據(jù)前面的術(shù)語(yǔ)提取結(jié)果和校對(duì)結(jié)果,我們的術(shù)語(yǔ)提取算法的準(zhǔn)確率計(jì)算如下:
準(zhǔn)確率=3034/4544=66.7%
5 術(shù)語(yǔ)提取算法的召回率
術(shù)語(yǔ)提取的召回率可定義為:
召回率=正確識(shí)別的術(shù)語(yǔ)個(gè)數(shù)/實(shí)際術(shù)語(yǔ)個(gè)數(shù)
“實(shí)際術(shù)語(yǔ)個(gè)數(shù)”指的是文本中包含的所有術(shù)語(yǔ)個(gè)數(shù),需要通過(guò)人工提取術(shù)語(yǔ)的方式去獲得。由于我們選取的樣本有491篇,全部進(jìn)行人工術(shù)語(yǔ)提取工作量較大,于是我們從中選出50篇論文的題錄信息,仍然委托前面提及的三個(gè)研究生進(jìn)行術(shù)語(yǔ)提取。然后將得到的提取結(jié)果倒入數(shù)據(jù)庫(kù)求交集,共得到365個(gè)術(shù)語(yǔ)。而通過(guò)術(shù)語(yǔ)提取程序處理這50篇論文的題錄信息,返回的結(jié)果是435個(gè)術(shù)語(yǔ)。其中符合人工提取結(jié)果的有280個(gè)術(shù)語(yǔ)。那么該算法的召回率計(jì)算如下:
召回率=280/365=76.7%
五 研究結(jié)論
本研究針對(duì)目前存在于教育技術(shù)領(lǐng)域元研究中的方法提出了質(zhì)疑,并提出采用文本自動(dòng)分類技術(shù)的設(shè)想。按照這一設(shè)想,我們開(kāi)展了術(shù)語(yǔ)提取算法研制和教育技術(shù)領(lǐng)域術(shù)語(yǔ)表制定這一基礎(chǔ)性的工作。最終,我們通過(guò)參照已有的基于統(tǒng)計(jì)的術(shù)語(yǔ)提取方法,并歸納了教育技術(shù)領(lǐng)域術(shù)語(yǔ)的構(gòu)成規(guī)則,研制了一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語(yǔ)提取方法。實(shí)驗(yàn)表明,該算法的準(zhǔn)確率為66.7%,召回率為76.7%,與已有的研究成果比較接近(何燕等,2006;秦浩偉等,2004)。并且從5年的《開(kāi)放教育研究》題錄信息中提取出了590個(gè)術(shù)語(yǔ),這一術(shù)語(yǔ)表將為有意于對(duì)遠(yuǎn)程教育領(lǐng)域內(nèi)的學(xué)術(shù)論文進(jìn)行內(nèi)容分析的研究者提供方便。在后續(xù)的研究中,我們將繼續(xù)處理其他教育技術(shù)刊物的題錄信息,發(fā)現(xiàn)更多的術(shù)語(yǔ),并通過(guò)統(tǒng)計(jì)方法分析構(gòu)成術(shù)語(yǔ)的部件,進(jìn)一步歸納術(shù)語(yǔ)規(guī)則,改進(jìn)算法。然后利用得到的術(shù)語(yǔ)開(kāi)展一系列的期刊論文分析研究,如觀察術(shù)語(yǔ)的時(shí)間,出現(xiàn)頻率特征以及多個(gè)術(shù)語(yǔ)的共現(xiàn)情況。