[摘要]標(biāo)簽作為一種大眾標(biāo)引的形式,它既可以用于構(gòu)建詞表,也可以表示用戶的個性化特征。隨著網(wǎng)絡(luò)用戶對于個性化信息服務(wù)需求的加劇,個性化成為目前研究的熱點。利用本體構(gòu)建用戶模型逐漸成為一種主流趨勢。本文重點討論如何利用用戶標(biāo)簽,結(jié)合網(wǎng)絡(luò)詞表WordNet來構(gòu)建用戶的個人本體,從而為個性化服務(wù)的發(fā)展提供一種新的實施方案。
〔關(guān)鍵詞〕標(biāo)簽;本體;個性化;模型構(gòu)建;WordNet
DOI:10.3969/j.issn.1008-0821.2011.07.009
〔中圖分類號〕G254.29 〔文獻標(biāo)識碼〕B 〔文章編號〕1008-0821(2011)07-0042-05
Research on the Model of Building Personal Ontology Based on Taggers TagDing Wanying
(Department of Information Management,Peking University,Beijing 100871,China)
〔Abstract〕Tag,as a form of Folksonomy,can not only be used as a tool to build a controlled vocabulary but also represent the taggers personality.With the intensifying demands of personalized service called by Web users,personalization has been the hot spot of nowadays research.And building user profile with ontology has been the main method in the certain field.This paper has concentrated on making use of taggers tag to build a personal ontology with the help of WordNet,which is a Web controlled vocabulary.And the purpose of this paper was to propose a new method for personalized service in the Web.
〔Keywords〕tag;ontology;personalization;model building;WordNet
1 標(biāo)簽及標(biāo)簽的研究現(xiàn)狀
標(biāo)簽作為Web2.0的核心技術(shù)之一,它是用戶為自己感興趣的文章、圖片、音頻、視頻等一系列文件定義的一個或者多個描述[1]。以Del.icio.us[2],F(xiàn)lickr[3]等為代表的標(biāo)簽平臺在互聯(lián)網(wǎng)上得到了廣泛的應(yīng)用。而隨著標(biāo)簽的廣泛應(yīng)用,學(xué)術(shù)界也開始注意到標(biāo)簽的內(nèi)在價值,展開了大量對于標(biāo)簽的研究。
目前對于標(biāo)簽的研究主要可以歸結(jié)到如下3個方面:
1.1 對于標(biāo)簽自身價值的研究
主要包括對標(biāo)簽分類的研究[4]、標(biāo)簽對于被標(biāo)引資源的內(nèi)容揭示程度研究[5]、用戶標(biāo)引行為的研究[6]以及標(biāo)簽與其他標(biāo)引之間的關(guān)系[7]等等。
1.2 利用標(biāo)簽構(gòu)建網(wǎng)絡(luò)詞表
這方面的大部分研究集中在構(gòu)建標(biāo)簽結(jié)構(gòu)。研究思路又主要分成兩部分,一部分是利用例如自動分類[8]、數(shù)據(jù)挖掘[9]以及浮動語義[10]等方法直接來構(gòu)建標(biāo)簽詞之間的語義關(guān)系。另一部分主要是利用已有的例如WordNet[11]、Wikipedia[12]以及Swoogle[13]這樣的資源來輔助構(gòu)建標(biāo)簽結(jié)構(gòu)。
1.3 利用標(biāo)簽為用戶提供個性化服務(wù)
這部分應(yīng)用主要是用戶個性化檢索[14]和個性化推薦[15]兩個方面。主要是利用用戶標(biāo)簽來構(gòu)建簡單的用戶模型,通過用戶模型來進行個性化服務(wù)。但是對于這方面的研究一直比較零散,沒有形成規(guī)模。
其中利用標(biāo)簽構(gòu)建網(wǎng)絡(luò)詞表是現(xiàn)在標(biāo)簽研究的最為主要的組成部分。但是目前研究的都是針對于普適性詞表的構(gòu)建,即通過對標(biāo)簽的優(yōu)化和標(biāo)簽詞間的關(guān)系的構(gòu)建來制定一個在網(wǎng)絡(luò)范圍內(nèi)替代傳統(tǒng)詞表的,具有成本低、靈活性大、便于更新等優(yōu)勢的詞表。但是標(biāo)簽除了是一種標(biāo)引詞外,它區(qū)別于傳統(tǒng)詞表的另一個特點是它能夠反映標(biāo)引用戶的特性和興趣。這也是利用標(biāo)簽為用戶提供個性化服務(wù)研究得以存在的原因。
但是目前對于利用標(biāo)簽構(gòu)建詞表和利用標(biāo)簽提供個性化服務(wù)的研究之間相互比較獨立,很少有將兩者結(jié)合起來探討的研究成果。但是隨著網(wǎng)絡(luò)個性化的發(fā)展,將兩者聯(lián)合起來研究有著非常重要的意義。
2 基于標(biāo)簽的個人本體的意義和具體應(yīng)用
隨著互聯(lián)網(wǎng)的發(fā)展,用戶開始訴求于個性化的信息服務(wù)。在個性化服務(wù)中,用戶模型是最為重要的一個環(huán)節(jié)。目前用于構(gòu)建用戶模型的方法很多,例如基于規(guī)則方法[16]、基于協(xié)同的方法[17],基于用戶歷史行為[18]的方法等等。但是這些方法都存在很多不足,因此很多專家開始將本體應(yīng)用到個人性服務(wù)的領(lǐng)域,但是很多研究僅僅是將領(lǐng)域本體直接應(yīng)用到個性化服務(wù)中來[19],或者從用戶瀏覽過的資源角度間接地構(gòu)建用戶本體[18]。這些方法都難以直接體現(xiàn)用戶的個性。
在另一個方面,用戶標(biāo)簽在構(gòu)建詞表和進行個性化的服務(wù)方面的能力都已經(jīng)被大量證實。因此可以講這兩個方面相結(jié)合來構(gòu)建基于用戶標(biāo)簽的個人本體,從而來支持現(xiàn)在網(wǎng)絡(luò)上所倡導(dǎo)的個性化服務(wù)。
基于標(biāo)簽所構(gòu)建出的個人本體可以被應(yīng)用到許多的網(wǎng)絡(luò)服務(wù)領(lǐng)域,例如個性化檢索、個性化信息推送、個性化智能導(dǎo)航等等。隨著Web2.0向Web3.0[20]的發(fā)展,Web2.0平臺的整合將是一個大的發(fā)展趨勢,因此必然會產(chǎn)生對Web2.0平臺進行整合的中介服務(wù)商,由它們收集用戶的標(biāo)簽并為用戶構(gòu)建個人本體。而其他網(wǎng)絡(luò)信息服務(wù)商在經(jīng)過用戶許可之后,可獲得用戶個人本體,再根據(jù)自身服務(wù)特點進行小幅度修改,就可以實現(xiàn)用戶個人本體的復(fù)用,為用戶提供個性化的信息服務(wù)。
因此本文的研究重點是構(gòu)建一套流程來使用用戶標(biāo)簽構(gòu)建用戶的個人本體,為個性化信息服務(wù)提供一種可參考的用戶模型實施方案。
2011年7月第31卷第7期基于用戶標(biāo)簽的個人本體的構(gòu)建模型研究July,3 用戶標(biāo)簽和個人本體
標(biāo)簽作為一種新型的標(biāo)引形式,擁有著簡單易用、靈活地多維揭示、立即可見的收益、使用用戶語言、更新速度快等傳統(tǒng)受控標(biāo)引語言難以匹敵的優(yōu)勢[21]。但是標(biāo)簽的語法混亂、語義模糊、關(guān)系不明確等問題是在標(biāo)簽要作為一種完善的標(biāo)引語言所必須解決的問題。
本體是一種形式化的,對于共享概念體系的明確而又詳細的說明[22]。本體是現(xiàn)在最為先進的知識表示方式。本體一般由類、關(guān)系、函數(shù)、公理和實例5大元素構(gòu)成[23]。個人本體是根據(jù)個人特征、興趣構(gòu)建服務(wù)于一個人的本體結(jié)構(gòu),該本體可以針對用戶的個性特征進行推理,便于提供更符合用戶的需求的信息服務(wù)。
因此要將標(biāo)簽這種極度不規(guī)范化的標(biāo)引語言轉(zhuǎn)化成個人本體這種極度規(guī)范化的知識表表示系統(tǒng),需要完成以下幾個工作:
(1)詞語的規(guī)范化:用戶標(biāo)簽用的用詞是隨意的,但本體中的類是嚴格規(guī)范的。
(2)關(guān)系的明朗化:用戶的標(biāo)簽詞之間是沒有明確關(guān)系的,但是在本體中需要詞與詞直接明確的關(guān)系。
(3)構(gòu)建本體函數(shù):便于本體的推理,需要構(gòu)建相應(yīng)的函數(shù)。
(4)建立公理:因為本體是一個可以實時更新的主體,因此需要給本體建立公理作為其更新和修正時的準則。
(5)建立實例:即建立某一特殊領(lǐng)域內(nèi)的特定對象。
4 基本操作流程
由于現(xiàn)在網(wǎng)絡(luò)上存在有大量結(jié)構(gòu)良好的詞表,因此沒有必要花費大量的人力物力來重新規(guī)范標(biāo)簽的詞語和關(guān)系??梢砸袁F(xiàn)存的網(wǎng)絡(luò)詞表為中間媒介來實現(xiàn)利用標(biāo)簽來構(gòu)建個人本體的目的。
本文在將用戶標(biāo)簽轉(zhuǎn)化成個人本體的過程中,引入輔助單元——WordNet作為轉(zhuǎn)換的參照依據(jù)。選擇WordNet是因為它對于概念與概念之間的關(guān)系都有著比較清楚的定義。在目前通用本體匱乏的情況下,很多研究者也常將WordNet作為一種輕量本體來使用[24]。
圖1 操作流程示意圖
在構(gòu)建個人本體工作之前,需要對用戶標(biāo)簽進行收集,并將它們放在統(tǒng)一的個人標(biāo)簽庫中。個人標(biāo)簽庫的功能有以下幾點:
(1)定時收集用戶在各個平臺上所使用的標(biāo)簽。
(2)記錄下用戶對每個標(biāo)簽的使用次數(shù)。這個次數(shù)值是一個只增不減的數(shù)值。
(3)記錄哪些標(biāo)簽詞已經(jīng)被收錄入個人本體,哪些還沒有。
然后利用WordNet作為構(gòu)建的輔助主體,對標(biāo)簽詞進行詞匯處理、詞間關(guān)系處理等,并撰寫本體中的公理、函數(shù)等等。最終可以得到用戶個人本體,與用戶主體相關(guān)聯(lián)。在構(gòu)建的過程中,對于一些機器難以準確處理的問題,還需要用戶的參與。
5 詞匯處理
5.1 詞匯語法處理
在構(gòu)建本體的時候,要將標(biāo)簽中不規(guī)范的詞匯變成本體中規(guī)范化的概念。因此要對個人標(biāo)簽庫中的標(biāo)簽做如下的處理:
5.1.1 詞頻統(tǒng)計
在用戶標(biāo)簽中,很多詞用戶使用的頻率非常低,應(yīng)該對這些低頻詞進行剔除處理。雖然根據(jù)齊普夫定律[25],高頻詞也應(yīng)該被剔除。但是在用戶標(biāo)簽中,詞的頻率越高越能夠代表用戶的興趣程度。因此在操作的過程中保留高頻詞。
設(shè)定閥值a,對所有的標(biāo)簽詞進行詞頻統(tǒng)計,凡是詞頻低于a的標(biāo)簽詞匯給予剔除處理。
5.1.2 詞性處理
個人本體中的概念詞匯應(yīng)該都是名詞,因此刪除類似于“happy”這樣的形容詞和動詞,僅保留名詞和名詞性詞語。
在詞性處理的過程中,對于單個詞匯可以利用標(biāo)注軟件對各個詞匯的詞性進行標(biāo)注。例如哈工大的LTP自然語言處理軟件[26]。在詞性標(biāo)注完成之后,剔除標(biāo)注詞性不是“/n”的詞匯。但是對于詞組,首先采用保留的態(tài)度,在下續(xù)工作中進行進一步處理。
5.1.3 詞性規(guī)范
用戶在標(biāo)引的時候可能會存在一些語法不規(guī)范的現(xiàn)象??赡艽嬖诘恼Z法不規(guī)范現(xiàn)象有:單復(fù)數(shù)不統(tǒng)一,例如bacterium與bacteria。時態(tài)不統(tǒng)一,例如takes與taking。還有一些詞匯是使用縮寫形式,例如go to do寫作gtd。為了方便后續(xù)處理,應(yīng)該將這些語法不規(guī)范的現(xiàn)象進行清除和統(tǒng)一。
統(tǒng)一單復(fù)數(shù)與時態(tài)問題,可是使用詞根抽取算法,將詞根作為單詞的標(biāo)準型。而對于縮寫形式,可以采用詞典匹配的方法,還原縮寫詞的標(biāo)準型。
5.2 詞匯句法分析
在詞匯處理的時候,雖然剔除了非名詞性單詞,但是沒有對詞組做任何處理。句法分析要重點對用戶標(biāo)引詞中的詞組進行處理。對詞組的處理形式只有兩種:保留原有詞組形式和將詞組拆分。在具體過程中遵循以下步驟:
(1)訪問WordNet,如果是WordNet中出現(xiàn)的詞組,說明該詞組是常用詞組,保留原詞組形式。否則進行第(2)步
(2)給定相關(guān)閥值b,如果詞組的頻率高于閥值b,說明該詞組是用戶的慣用詞,保留原詞組形式。否則進行第(3)步
(3)詞組成分相似相判斷。設(shè)定相似相閥值s,利用Jacaard公式進行相似性判斷:
S=A∩BA+B-A∩B(1)
其中S表示相似度,X表示集合X中的元素的個數(shù)。
如果是形容詞+名詞短語,考察該詞組的共現(xiàn)詞匯集與該名詞單獨出現(xiàn)的共現(xiàn)詞匯集的相似性。如果相似性高于s則進行詞組拆分,否則不拆。
如果是名詞+名詞詞語,分別考查兩個名詞的共現(xiàn)詞集合和詞組共現(xiàn)詞集合和相似性。如果相似性均低于s,則保留原有詞組。否則保留相似程度高的那個名詞作為標(biāo)簽詞。
(4)如果是介詞和連詞詞語,進行拆分處理。
(5)不屬于以上任何一種情況,在用戶界面上向用戶進行詢問,由用戶來選擇拆詞還是保留原有詞組。
5.3 詞匯語義分析
詞匯語義分析主要是來解決同義詞和一詞多義的問題。
由于每個用戶都有其自身的用詞習(xí)慣,很少用戶會習(xí)慣在多個同義詞之間換來換去地使用。而且同義詞已經(jīng)在WordNet中有良好的定義,可以直接利用WordNet中的同義詞關(guān)系來解決用戶標(biāo)簽的同義詞問題。因此同義詞在個人本體中的影響不大。
一詞多義會對個人本體有著極大的影響。比如“Apple”一詞,IT工作人員會理解為計算機,而務(wù)農(nóng)人員會理解為一種水果。在解決這個問題時,本文提出一個假設(shè),即一個用戶對于某個詞的某個意義的偏好程度在一定的時間范圍內(nèi)是相對穩(wěn)定的。基于這個假設(shè),本文提出了如下解決一詞多義的方法:
(1)在WordNet中對用戶的每一條標(biāo)簽進行搜索,找到該詞的所有意思鏈接。
(2)對每一種意思的解釋文本進行分詞處理,提取實義詞,以向量的形式存儲。記為:
Ts{S1,S2,……Sn}(2)
其中Sn表示的是詞Ts的第n個意思的向量表示形式。
(3)將標(biāo)簽詞的共現(xiàn)相關(guān)詞用向量的形式存儲。記為To。
(4)利用空間向量的方法將Sn與To進行相關(guān)度匹配,并記錄下相關(guān)度。
(5)存儲下每個用戶標(biāo)簽在該詞每個意思上的相關(guān)度,用作為用戶在該標(biāo)簽詞上對該意思的權(quán)重。
Tc{C1,C2,……Cn,(Cn+1)}(3)
其中Cn的數(shù)據(jù)結(jié)構(gòu)如下
Cn{Sn,相似度權(quán)重}(4)
(6)由于WordNet的更新也存在滯后性,因此有的詞在WordNet中匹配不到正確的意思,例如“geilivable”這樣最新在互聯(lián)網(wǎng)上出現(xiàn)的詞。因此在操作的過程中,要為每個權(quán)重賦予一個閥值c,當(dāng)一個標(biāo)簽詞在WordNet中與每個意思匹配的相似度均小于c時。默認其是一個新的意思,并在Tc中擴展一個存儲空間,用以存儲Cn+1
Cn+1[Sn+1共現(xiàn)相關(guān)詞向量],1-Σ(Cn的相似度權(quán)重)(5)
這樣就可以分析出一個用戶對于每個詞的各種意思的偏好程度。在為用戶提供個性化服務(wù)的時候可以根據(jù)用戶對每個意思的偏好程度服務(wù)。例如在個性化檢索時,用戶輸入“Doctor”,而根據(jù)用戶的個人本體發(fā)現(xiàn),用戶在“Doctor”這個意思上更偏重于“PHD”領(lǐng)域的意思,因此可以推薦其有關(guān)于PHD的信息。
5.4 詞匯存儲
在個人本體中,每一個詞的存儲形式如下:
T{詞號,詞語標(biāo)準形,用戶使用形,用戶使用次數(shù),Tc}(6)
這些形式規(guī)范化的標(biāo)簽詞作為本體的類目。
6 詞間關(guān)系處理
標(biāo)簽最大的問題就是沒有嚴格的詞間關(guān)系。在構(gòu)建個人本體的時候最大的障礙就是確定標(biāo)簽詞間的關(guān)系。而WordNet已經(jīng)提供了非常嚴格和良好的詞語的關(guān)系構(gòu)架,因此,可以借助于WordNet來進行標(biāo)簽詞間關(guān)系的構(gòu)建。
對于關(guān)系的處理分為以下兩種情況:
6.1 基于共現(xiàn)方法的關(guān)系確認
將每兩個共現(xiàn)過的詞對在WordNet中尋找關(guān)系。如果是WordNet中存在的關(guān)系,則使用WordNet關(guān)系。否則返回用戶,由用戶確定關(guān)系。而詞間的關(guān)系權(quán)重通過詞對的共現(xiàn)次數(shù)來確定。
6.2 基于聚類方法的關(guān)系確認
根據(jù)標(biāo)簽詞之間的共現(xiàn)關(guān)系,構(gòu)建共現(xiàn)矩陣,并對矩陣進行聚類分析。經(jīng)過聚類分析之后,就可以得到許多的詞簇。分析詞簇中沒有共現(xiàn)關(guān)系的詞,并將它們兩兩構(gòu)成詞對。放入WordNet中尋找關(guān)系。如果WordNet中存在關(guān)系,使用WordNet關(guān)系。否則返回用戶,由用戶確定關(guān)系。
如果詞A與詞B共現(xiàn)了n次,而詞B與詞C共現(xiàn)了m次,選取d=min{m,n}作為詞A與C的關(guān)系權(quán)重確定的標(biāo)準。
詞間關(guān)系的存儲:
R{詞號,相關(guān)詞詞號,關(guān)系權(quán)重}(7)
7 函數(shù)的撰寫
在個人本體中需要撰寫函數(shù)以支持本體的推理。具體函數(shù)的撰寫應(yīng)該根據(jù)具體的需要而設(shè)定。本文提供一些基本函數(shù)一共參考。FunTY(T):該函數(shù)用于返回與標(biāo)簽T有等同意義的詞。
FunSUN(T):該函數(shù)用于返回標(biāo)簽T的下位詞。
FUNFAT(T):該函數(shù)用于返回標(biāo)簽T的上位詞。FUNLEV(T):該函數(shù)用以返回用戶在標(biāo)簽T各個意思上的理解程度,即返回Tc。
網(wǎng)絡(luò)信息服務(wù)提供商應(yīng)該根據(jù)自身服務(wù)提供的特點來撰寫相關(guān)的函數(shù),以便為用戶提供更為有效的服務(wù)。
8 公理和實例的構(gòu)建
公理是本體領(lǐng)域的一些常識性的描述,用以約束本體中的概念、關(guān)系和屬性。在上述的詞語處理,關(guān)系處理的過程中的各種約束都因該在公理中闡述。由于前面已經(jīng)詳細介紹過,這里便不再贅述,僅舉兩個例子闡明公理的形式:
取詞公理:標(biāo)簽的使用次數(shù)必須超過閥值a。
選詞公理:個人本體中的詞必須都是名詞。
實例是本體中低層的對象??梢越梃b于Wiki以及WordNet對概念的解釋文本來構(gòu)建類的實例。
9 本體的更新和維護
由于用戶的個性特征是個動態(tài)變化的過程,而用戶的標(biāo)引行為也是一個不斷發(fā)展和變化的過程。因此用戶的個人本體應(yīng)該進行不斷的更新和維護,適應(yīng)用戶的個性特征變化。本文采用如下的方法對本體進行更新和維護:
(1)收集用戶自前一次本體更新以來所有的標(biāo)引標(biāo)簽,并對標(biāo)簽進行詞匯處理和關(guān)系處理。
(2)在原有的Tc的基礎(chǔ)上重新計算用戶對每個標(biāo)簽詞每個意思的偏好權(quán)重。
(3)對于原來本體中不存在的詞匯和關(guān)系,采用添加方式處理。
(4)對于本體中存在的關(guān)系,采用獎勵算法,即加重關(guān)系權(quán)值。
(5)對于這次更新中沒有出現(xiàn)的關(guān)系,采用懲罰算法,即以一定的比例降低關(guān)系權(quán)值。
10 小 結(jié)
本文根據(jù)現(xiàn)階段網(wǎng)絡(luò)服務(wù)對于個性化的需求,結(jié)合現(xiàn)階段對于個性化服務(wù)研究的不足之處,綜合考慮用戶標(biāo)簽在構(gòu)建受控詞表和提供個性化服務(wù)方面的優(yōu)勢,提出了一種基于用戶標(biāo)簽的個人本體構(gòu)建的流程。在模型中,針對用戶標(biāo)簽在詞匯、詞間關(guān)系中可能存在的問題進行了規(guī)范化處理,使其可以符合本體標(biāo)準,能夠應(yīng)用于實際操作。
但是仍有許多工作需要本體進一步研究,例如如何跨平臺收集標(biāo)簽,用戶隱私的保護問題以及中文數(shù)據(jù)處理問題等等。也歡迎感興趣的各位專家參與到相關(guān)研究中來。
參考文獻
[1]張立彬,趙麟,吳一平,等.基于Tag的個性化服務(wù)新方式[J].情報科學(xué),2008,10(26):1494-1501.
[2]Del.icio.us[EB/OL].http:∥del.icio.us,2011-01-05.
[3]Flickr[EB/OL].http:∥www.flickr.com,2011-01-05.
[4]Scott Golder,Bermardo Huberman.The Structure of Collaborative Tagging Systems[J].Journal of Information Science,2006,32:198-208.
[5]George Macgregor,Emma McCulloch.Collaborative tagging as a knowledge organization and resource discovery tool[J].Library Review,2006,55(5):291-300.
[6]C Cattuto,V Loreto,L Pietronero.Collaborative Tagging and Semiotic Dynamics[DB/OL].arxiv.http:∥arxiv.org/abs/cs/0605015,2010-12-20.
[7]MEI Kipp.Exploring the context of user,creator and intermediary tagging[A].Proceedings of the 7th Information Architecture Summit[C].Vancouver,Canada,2006.
[8]Paul Heymann,Hector Garcia-Molina.Collaborative Creation of Communal Hierachical Taxonomies in Social Tagging System[DB/OL].Stanford InfoLab Publication Server.http:∥ilpubs.stanford.edu:8090/775,2011-01-05.
[9]Patrick Schmitz.Inducing Ontology form Flickr Tags[A].Proceeding of Collaborative Web Tagging Workshop.The 15th International World Wide Web Conference(www 2006)[C].Edinburgh UK,2006.
[10]Lei Zhang,Xian Wu,Yong Yu.Emergent Semantics from Folksonomies:A Quantitiative Study[J].Journal on Data Semantics,2006,4090(6):168-186.
[11]WordNet[EB/OL].Princeton University.http:∥wordnet.princeton.edu,2011-01-05.
[12]Wikipedia[EB/OL].http:∥en.wikipedia.org/wiki/Wiki,2011-01-05.
[13]Swoogle[EB/OL].UMBC.http:∥swoogle.umbc.edu,2011-01-05.
[14]陳琛.基于社會化標(biāo)簽的個性化搜索研究[D].江蘇:揚州大學(xué)計算機應(yīng)用技術(shù)專業(yè),2008.
[15]張有志.協(xié)同標(biāo)簽系統(tǒng)推薦機制研究[D].北京:北京大學(xué)信息管理系,2009.
[16]馮興杰.基于關(guān)聯(lián)規(guī)則挖掘的個性化網(wǎng)站設(shè)計與實現(xiàn)[D].天津:中國民航大學(xué)計算機應(yīng)用技術(shù)專業(yè),2007.
[17]丁超.個性推薦系統(tǒng)中協(xié)同過濾技術(shù)的優(yōu)化及應(yīng)用[J].科技信息,2010,(4):217-218.
[18]盧林蘭,李明.用戶Ontology的構(gòu)建及其在個性化檢索中的應(yīng)用[J].計算機應(yīng)用,2006,26(11):2635-2638.
[19]林潔.基于本體的個性化檢索技術(shù)研究[J].貴州科學(xué),2009,27(4):50-52.
[20]熊回香,王學(xué)東.面向Web3.0的分眾分類研究[J].圖書情報工作.2010,54(3):104-107.
[21]王一丁.社會協(xié)同標(biāo)簽系統(tǒng)研究[D].北京:北京大學(xué)信息管理系,2008.
[22]本體.維基百科[EB/OL].http:∥zh.wikipedia.org/zh/%E6%9C%AC%E4%BD%93(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6)#note-0,2011-01-05.
[23]翁暢平,沈娟.基于Ontology的個性化語義檢索系統(tǒng)研究[J].圖書館理論與實踐,2009,(10):77-80.
[24]羅志成,馬費城,吳曉東,等.從維基分類系統(tǒng)構(gòu)建中文語義詞典研究[J].信息系統(tǒng)學(xué)報,2008,2(2):68-77.
[25]齊普夫定律.百度百科[EB/OL].http:∥baike.baidu.com/view/40606.htm,2011-01-05.
[26]哈爾濱工業(yè)大學(xué)信息檢索研究中心.語言技術(shù)平臺LTP[EB/OL].http:∥ir.hit.edu.cn/demo/ltp,2011-01-05.
注:“本文中所涉及到的圖表、公式、注解等請以PDF格式閱讀”