摘 要:本文提出了一種基于模糊聚類分析中傳遞閉包法的漢語(yǔ)學(xué)習(xí)者興趣分組算法,從日志整理出特征,得出聚類結(jié)果,為漢語(yǔ)教學(xué)個(gè)性化、風(fēng)格化提供了依據(jù)。
關(guān)鍵詞:國(guó)際漢語(yǔ)言文化傳播;聚類分析;傳遞閉包
中圖分類號(hào):TP391.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2012) 12-0169-01
一、引言
對(duì)外漢語(yǔ)網(wǎng)絡(luò)教學(xué)是國(guó)際漢語(yǔ)言文化傳播的有效手段之一。教育個(gè)性化理論認(rèn)為每個(gè)學(xué)習(xí)者的行為特征都不一樣,因此,學(xué)習(xí)需求和語(yǔ)言接受能力對(duì)于每個(gè)漢語(yǔ)學(xué)習(xí)者也就不盡相同。在漢語(yǔ)網(wǎng)絡(luò)教學(xué)中對(duì)學(xué)習(xí)者進(jìn)行科學(xué)的有針對(duì)性的分析與設(shè)計(jì),將使得學(xué)習(xí)更具個(gè)性化、風(fēng)格化,學(xué)習(xí)效果更好。
二、基于傳遞閉包興趣分組
聚類分析是指將物理或抽象對(duì)象的集合分組成由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。
(一)傳遞閉包法
傳遞閉包法是將經(jīng)典集合理論中的等價(jià)關(guān)系應(yīng)用到模糊集合中,產(chǎn)生新的模糊等價(jià)關(guān)系。該模糊聚類分析方法是按照傳遞閉包不同截集λ(0≤λ≤1)來(lái)進(jìn)行分類。首先要得到模糊相似矩陣R,然后求出矩陣R的傳遞閉包T(R),即包含R的最小模糊傳遞矩陣,最后通過(guò)T(R)進(jìn)行聚類,即將模糊關(guān)系矩陣足傳遞性,所以要對(duì)模糊相似關(guān)系進(jìn)行處理,可以通過(guò)求傳遞閉包來(lái)滿足傳遞性,形成模糊等價(jià)關(guān)系,只要設(shè)定閥值就能將這種關(guān)系直接用于聚類,得到聚類分析的結(jié)果。
(二)興趣分組聚類算法
定義1:設(shè)學(xué)習(xí)者的興趣集I={I1,…Ii,…In},則學(xué)習(xí)者第i個(gè)興趣為Ii,可表示為Ii=(Ki,Qi),Ki為Ii的名稱,Qi為Ii在興趣集I中的重要程度。
定義2:第i個(gè)興趣的日志挖掘信息表示為L(zhǎng)i={Li0,Li1,Li2,Li3,Li4}。
式中,Li0為興趣i的初值,Li1為學(xué)習(xí)者訪問興趣i的資源節(jié)點(diǎn)數(shù),Li2為學(xué)習(xí)者收藏興趣i的數(shù)量,Li3為評(píng)論興趣i的數(shù)量,Li4為訪問興趣i頁(yè)面花費(fèi)的總時(shí)間。
通常,學(xué)習(xí)者對(duì)某種興趣的喜好度可以用Li1到Li3這幾種行為表示。考慮到學(xué)習(xí)者對(duì)興趣喜好度高的資源上花時(shí)更長(zhǎng),故加入Li4并對(duì)其進(jìn)行預(yù)處理。設(shè)通過(guò)日志獲取訪問開始到結(jié)束的本次訪問時(shí)間t,t1表示最小閱讀時(shí)間限制,t2表示是最大閱讀時(shí)間限制。當(dāng)t≤t1時(shí),認(rèn)為學(xué)習(xí)者沒有訪問該頁(yè)面;當(dāng)t≥t2時(shí),認(rèn)為學(xué)習(xí)者并不一定特別關(guān)注該資源。
學(xué)習(xí)者興趣的計(jì)算:
式中,α和β是可以由相關(guān)教育專家根據(jù)統(tǒng)計(jì)結(jié)果作出改變的參數(shù),Ii0為更新后的值。
通過(guò)以上計(jì)算能得出學(xué)習(xí)者每種興趣的權(quán)值,這里分兩種情況:若考慮學(xué)習(xí)者只有一種興趣,就以權(quán)值最大的的興趣來(lái)進(jìn)行分組;若認(rèn)為學(xué)習(xí)者有多種興趣,則可以采用以下模糊聚類傳遞閉包方法進(jìn)行分組:
首先,用向量相似度法計(jì)算兩個(gè)學(xué)習(xí)者間的相似度,將每個(gè)學(xué)習(xí)者的興趣看作一個(gè)由多關(guān)鍵字組成的向量,用向量的夾角余弦表示相似度,計(jì)算公式如下:
式中,Qi為學(xué)習(xí)者每種興趣的權(quán)值。
Au1*u2越接近1,則表示兩個(gè)學(xué)習(xí)者的興趣越接近,若Au1*u2=1,則表示兩個(gè)學(xué)習(xí)者的興趣完全相似。
然后,以學(xué)習(xí)者為行、列構(gòu)造相似度滿足對(duì)稱性和自反性矩陣S。S中的元素表示學(xué)習(xí)者間的相似度。一般S不具傳遞性,要將S轉(zhuǎn)換模糊等價(jià)關(guān)系,求S的包含關(guān)系其最小的傳遞性矩陣T,然后設(shè)置截集λ(0≤λ≤1,取值越大分類精度越高)的大小進(jìn)行聚類。
以下是總結(jié)興趣分組聚類算法:
1.預(yù)處理輸入值Web日志信息,得到如瀏覽數(shù)、評(píng)論數(shù)、收藏?cái)?shù)、瀏覽時(shí)長(zhǎng)等所需要的信息;
2.利用上一步的結(jié)果,通過(guò)公式2和公式3得到學(xué)習(xí)者每種興趣的權(quán)值Qi;
3.通過(guò)公式3得到學(xué)習(xí)者間的興趣相似度Au1*u2,構(gòu)建相似度矩陣S;
4.通過(guò)S計(jì)算出傳遞閉包T;
5.確定λ值,輸出值=學(xué)習(xí)者的聚類模式。
三、算法評(píng)估
本文的系統(tǒng)評(píng)估模型={個(gè)人滿意度,學(xué)習(xí)效果},主要從個(gè)人滿意度和學(xué)習(xí)效果兩個(gè)指標(biāo)來(lái)進(jìn)行評(píng)估。滿意度通過(guò)調(diào)查問卷的形式采集,學(xué)習(xí)效果通過(guò)學(xué)完后測(cè)試來(lái)完成。
根據(jù)智力活動(dòng)復(fù)雜程度和國(guó)外學(xué)習(xí)者實(shí)際情況,將認(rèn)知能力目標(biāo)分成三個(gè)層次:識(shí)記、理解、應(yīng)用,每層次可給出1-5分。設(shè)D'={D1',D2',D3'},D1'、Ds'、D3'分別表示教育專家決定的三層次學(xué)習(xí)效果分量隸屬度,且D1'+D2'+D3'=1。設(shè)F={F1,F(xiàn)2,F(xiàn)3},F(xiàn)1、F2、F3分別表示各層次的分?jǐn)?shù),則學(xué)習(xí)者的學(xué)習(xí)效果最終評(píng)估結(jié)果R=F1D1'+F2D2'+F3D3'。若R>3,表明學(xué)習(xí)效果達(dá)到及格目標(biāo)。
最終系統(tǒng)評(píng)估的結(jié)果為:R總=λ1R滿意度+λ2R學(xué)習(xí)效果。其中,λ1和λ2為參數(shù)(λ1+λ2=1)。參數(shù)一般取值為λ1=0.5、λ2=0.5,若學(xué)習(xí)者沒有完成滿意度調(diào)查,參數(shù)取值為λ1=0、λ2=1。若R總≥3,則表明通過(guò)評(píng)估。
四、實(shí)驗(yàn)結(jié)果
將有一定間隔時(shí)間的5083條控制日志信息輸送到目的控制臺(tái)或文件中,識(shí)別出282條會(huì)話。給出公式1中參數(shù)α、β和截集λ的不同值,實(shí)驗(yàn)結(jié)果R(λ)如表1所示。
從表1結(jié)果可看出,當(dāng)α=0.4、β=0.6、λ=0.7時(shí)R(λ)最大,聚類結(jié)果最佳。在以上基礎(chǔ)上,提交調(diào)查反饋結(jié)果共100人,問卷平均分為3.84,說(shuō)明通過(guò)評(píng)估。
五、結(jié)束語(yǔ)
本文介紹了模糊聚類分析中傳遞閉包法應(yīng)用于對(duì)外漢語(yǔ)教學(xué)平臺(tái)的個(gè)性化服務(wù),由于目前參與測(cè)試的不多,今后還需要更多的測(cè)試者參與評(píng)估核實(shí)。
參考文獻(xiàn):
[1]韓家煒,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京,2007
[2]許海玲,吳瀟,李曉東.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,29(6):1590-1593
[基金項(xiàng)目]湖南大眾傳媒職業(yè)技術(shù)學(xué)院科研課題《基于學(xué)習(xí)風(fēng)格的漢語(yǔ)學(xué)習(xí)平臺(tái)個(gè)性化服務(wù)研究》(項(xiàng)目編號(hào):11YJ15)