999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于獨立分量分析的圖書館個性化及時服務

2007-01-01 00:00:00劉啟和楊國緯
計算機應用研究 2007年3期

摘 要:針對讀者個性化服務質量的問題,提出了基于獨立分量分析的圖書館個性化及時服務系統;簡要給出了系統總體和個性化服務關鍵子系統的體系結構;重點討論了利用獨立分量分析方法改善系統個性化服務質量的問題。實驗結果顯示,利用此方法進行圖書分類和讀者群體聚類的效果較理想;讀者群體和圖書類別之間可產生隨讀者個性或圖書主題變化而變化的動態映射關系,這種映射關系可以改善個性化服務質量。

關鍵詞: 獨立分量分析; 文本分類; 數字圖書館; 個性化服務; 及時服務

中圖分類號:TP391.12文獻標志碼:A

文章編號:1001—3695(2007)03—0187—04

0 引言

近十年來,數字圖書館的發展思路逐漸從以圖書館為中心轉向以讀者為中心,提供滿足讀者個性化需求的信息服務。大部分圖書館個性化信息服務系統需要讀者隨時在線通過Web或E—mail明確定制個性化信息,因而獲取讀者個性化信息很不方便;反之,讀者獲取圖書館的最新圖書信息(如所需書刊、雜志、論文等資料的借閱、期限、續借、新書等信息)也不及時。因此需要一種智能的圖書館個性化及時服務方式,即在讀者沒有明確表達其信息需求時,也可由個性化信息服務系統根據一定規則與算法自動捕捉用戶的個性變化,并利用短信方式使讀者不受地域、時間和計算機條件的限制,及時方便地獲取所需圖書信息。北京理工大學圖書館進行了信息短信推送的應用嘗試[1]。

在實際應用中,個性化服務質量隨個性化信息獲取思路和處理算法的不同有較大差異。例如很多圖書所屬學科為邊緣性學科,其主題比較模糊,讀者往往得到并不需要的圖書信息,因此圖書主題需要確定。對于新書,如果系統不能自動判斷其主題信息是否為讀者需要、哪些讀者需要,而將此信息短信群發給所有讀者,則達不到個性化服務的質量要求,甚至使讀者有垃圾短信的感覺。

本文提出利用獨立分量分析(Independent Component Analy ̄sis, ICA)[2]來改善個性化及時服務系統的服務質量。之所以利用ICA方法是基于如下假設:圖書信息是不同主題的混合結果;讀者通過Web訪問的圖書信息和實際借閱情況是不同個性特征的組合體現。由此假設,通過ICA算法獲得的獨立分量可以表示圖書主題和讀者的個性特征,可以按獨立分量方向自動進行圖書和讀者群體的分類。

圖書分類可以按主題把具有相似內容或屬于相似研究領域的圖書分到同一類中,新書也可以被自動劃分到某一類中。如果將讀者個性特征也視為相應的圖書主題信息,那么利用ICA學習算法得到的分類器就可以將讀者按個性特征分類到相應的圖書類別中。此類中的圖書信息就是讀者需要的信息。同時,凡屬于此類別的讀者可聚類成具有相似個性化圖書信息需求的群體,利用短信群發可以將相關圖書信息發送給同一類中的所有讀者。

如圖1,將“讀者子圖”中讀者1和讀者m的個性特征假設為圖書主題信息,它們被ICA算法動態分類到“圖書分類子圖”中的“分類2”(圖書分類2也利用ICA算法獲得,以六角形表示),那么“分類2”中的所有圖書信息就成為讀者1和讀者m需要的信息;同時可以把屬于“分類2”的讀者1和讀者m聚類成“讀者聚類子圖”中具有相似個性化圖書信息需求的“群體2”(以圓表示)。圖1中其余部分類似解釋。圖中箭頭方向表示映射方向。一個映射是將讀者個性特征映射到某個圖書分類中。另一個為雙向映射,即將屬于某類的讀者映射到同一讀者群體中,形成讀者聚類;或同一讀者群體有相似的圖書信息分類需求。

實驗結果顯示,所有映射都可以通過ICA無監督學習能力動態得到;所進行的圖書信息分類和讀者群體聚類效果較為理想。這種在ICA空間中得到的映射關系可以改善個性化服務質量。

1 系統體系結構

本文利用現有的Internet網絡和無線GSM網絡外部環境,設計并實現了一個圖書館個性化及時服務系統,并準備將此系統接入到圖書館內部服務系統上,為讀者提供移動、及時的個性化圖書信息服務。圖書館個性化及時服務的體系結構如圖2所示。

圖2中的個性化短信系統是整個系統的核心部分。這里不介紹傳輸層和平臺層的功能及實現。業務層(圖書館個性化服務子系統)的一個重要功能是負責與圖書館內部檢索系統進行交互、負責讀者個性化特征和需求信息的自動生成、保障個性化及時服務的質量。這里簡要介紹業務層子系統結構,如圖3所示。

圖書館個性化服務子系統對其中模塊的智能化處理要求較高。系統應能對讀者的個性、專業、研究興趣等特征進行智能收集和分析,從而主動向讀者提供其可能需要的圖書信息。其中,檢索代理模塊完成對讀者Web歷史訪問的查詢工作,收集讀者可能的個性化需求;個性化自動調度模塊按照一定機制定期訪問圖書館圖書數據庫,獲得相關圖書的主題或借閱信息。

個性化分析處理模塊負責圖書主題信息和讀者個性化特征的提取,建立如圖1所示的圖書分類和讀者聚類的動態映射關系。此模塊是個性化服務系統實現的重點和難點。由于篇幅原因,這里不討論讀者個性化收集生成過程。本文在假定已獲得讀者個性化需求的基礎上,討論利用獨立分量分析方法來解決個性化及時服務質量的問題。

2 獨立分量分析與文本分類聚類

近年來,獨立分量分析(ICA)方法已成功應用在語音[3]、圖像[4]和生物醫學[5]等信號的盲源分離及特征提取方面。作為標準PCA的高階擴展,ICA能在無正交限制條件下抽取信號的統計獨立分量[2]。

令人感興趣的是ICA在文本分類、聚類方面也有應用[6—8]。文檔主題常常作為獨立隱藏的隨機變量存在于文檔之中。假設文本集由許多不同文檔主題信息線性混合生成,那么借助ICA有望獲取文本中更有效的高階統計特征。這些高階統計特征能確定作為文檔隱含主題的隨機變量,從而提取出文檔的主題結構。由ICA算法獲得的獨立分量可以定義文檔的獨立類別,因此可按照文檔的主題進行分類[6]。

針對文本分類、聚類問題,ICA的數學描述為

其中,x=[x1, x2, …, xD]為D個可觀測的文檔主題混合信息構成的向量。根據向量空間模型[9],每個文檔xi,i=1—D可由T維文檔特征詞權重向量wi來表示。那么包含D個文檔和T個特征詞的可觀測文檔集x可以表示成T×D的特征詞—文檔矩陣:

式(1)中的A是D×N維混合矩陣;N為表示文檔主題的獨立分量個數;s=[s1, s2,…,sN]T為D個文檔的N個主題信息構成的向量,表示成矩陣形式,就是N×D的文檔主題信息矩陣:

其中,每個獨立分量sn,n=1—N,定義了具有相同文檔主題的一個分類,同時也反映了具有相似個性化需求的讀者的一個聚類。因此,文檔集或讀者群體可分為N個類別。

利用s各個分量間的統計獨立性假設和可觀測的混合向量x,借助源信號概率分布的某些先驗知識估計混合矩陣A,可以估計文檔的主題信息s。一般記A的估計為W,即通過一個線性分離矩陣W,使得y=A-1x=Wx,與s對應。只要ICA能夠使向量y的各個分量盡可能統計獨立(分量間互信息盡可能小),就可以獲得可觀測文檔主題混合信息x的盲源分離,即獲得文檔本來的主題信息。利用FastICA算法(http://www.cis.hut.fi/projects/ica/fastica/)可得到分離矩陣W。分離矩陣和反映主題信息的獨立分量一起構成基于ICA的文本分類器。這種文本分類器盡可能最大限度地利用文本數據的獨立分量,文本分類的效果較好。

FastICA是一種基于固定點迭代的高效神經網絡算法,其收斂速度快于大多數神經網絡算法[10]。FastICA可以對ICA的對比函數進行優化,通過尋找一個分離矩陣W來最小化分量互信息。這個過程近似等同尋找于一個負熵最大化方向。可如式(4)采用最大熵原理近似負熵,且近似精度較傳統基于累計量的近似方法高。

其中,w為D維權向量且滿足條件E{(wTx)2}=1。至此,文檔主題信息s的估計轉換為如下優化問題:

每一個使式(6)最大化的wi,i=1—D都成為分離矩陣W的一個行向量。經過若干迭代后可以確定整個分離矩陣W,從而由s=y=A-1x=Wx獲得文檔本來的主題信息s。

如引言部分所述,如果將圖書文檔信息或讀者訪問的圖書信息、借閱情況看成是不同圖書主題或不同讀者個性特征的線性混合結果,那么利用獨立分量分析技術獲得的獨立分量可以表示圖書的主題和讀者的個性特征。因此可以按獨立分量方向自動進行圖書和讀者群體的分類。在圖書類別和讀者個性化需求明確的情況下,才能減少錯誤的服務情況,從而提高圖書館個性化及時服務的質量。

其具體處理如下:將圖書館的書刊、期刊、論文等圖書題目、關鍵詞、摘要等信息組成一個大的圖書信息語料庫,利用統計自然語言處理方法,使用關鍵詞上下文或同現信息對圖書信息進行預處理。因為將ICA應用到上下文相關信息的數據上,能夠得到反映語義范疇的典型特征[11]。ICA利用這些特征,可以把具有相似內容或屬于相似研究領域的圖書分到同一主題類中;并且新書也可通過分離矩陣W將其文檔向量映射到ICA空間中;比較新書的獨立分量與學習得到的文本分類器中的獨立分量動態地將其劃分到某一主題類中。

如果將讀者個性特征視為相應的圖書主題信息,那么利用ICA學習算法得到的文本分類器,與新書分類的處理方法相同。可以將讀者按其個性特征分類到已有的圖書主題類別中,形成相似個性需求的讀者群體。此類別中的圖書信息就是讀者群體需要的信息,利用短信群發將圖書信息發送給同一群體的所有讀者。

3 實驗

為測試獨立分量分析方法在圖書館個性化及時服務系統的應用,實驗隨機選取了六大類圖書,即經濟、電子工程、數學、語言、計算機、自動化,每類包含200本圖書,共1200本圖書信息。為了使圖像清晰顯示,實驗只隨機選擇了20位讀者個性化信息進行測試。

3.1 訓練集的預處理

實驗隨機選取經濟、電子工程、數學、語言四類各180本圖書作為訓練集。將每本圖書的題目、摘要和關鍵詞合并,構成每本圖書的文檔信息,所有圖書文檔信息構成圖書文檔集。對于讀者,實驗將其經常查詢的圖書信息、借閱圖書的相關圖書信息、所學專業信息等合并,構成其個性化信息(因讀者個性化信息生成算法并非本文闡述內容,故略去其詳細描述)。將圖書文檔集和讀者個性化信息集均表示成如式(2)所示的特征詞—文檔矩陣并對其進行數據預處理。

首先經過中文分詞,去掉停用詞和功能詞,然后利用tf×idf[9]式(7)計算文檔中剩余詞的權重。取最大權重值的前十個詞作為文檔特征詞。這樣就將每個圖書文檔信息和讀者個性化信息表征為10維可觀測向量,即

其中,tfij表示特征詞i在文檔j中出現的次數;lj為文檔j的長度。xij為零則表示特征詞i在文檔j中的出現次數為零。采用取對數的方法減少特征詞詞頻對計算的影響,并考慮權重因子的標準化。

潛在語義分析方法[12]能發現圖書潛在主題和讀者潛在的個性化需求。實驗先采用此方法對特征詞—文檔進行奇異值分解,對數據進行白化和維數消減處理。此步操作可簡化ICA問題[6]。

3.2 訓練文本分類器

利用FastICA算法對訓練集中四類720篇經過預處理的圖書文檔信息進行訓練,所得文本分類器用來確定圖書的主題類別或具有相似個性化需求的讀者所屬類別(訓練文本分類器的MATLAB代碼為[icasig,A,W]=fastica(X,′approach′,′symm′,′g′,′tanh′,′numOfIC′,4,′epsilon′,0.000 1);矩陣X是由潛在語義分析方法處理過的特征詞—文檔矩陣)。

3.3 測試

測試集也表示成如式(2)的特征詞—文檔矩陣。選擇經濟、電子工程、數學、語言四類各20本圖書信息作為與訓練集相同主題的測試集,下文稱為測試集一;選擇計算機、自動化各200本圖書信息作為與訓練集不同主題的測試集,下文稱為測試集二。這兩種測試集又可作為新書分類的測試集。

圖4(a)顯示了測試集一的分類測試效果。經濟類圖書有4本、電子工程類圖書有1本被誤分在了數學類中(由于經濟類的運籌學、計量經濟學圖書主題信息特征數學色彩很濃),語言類分類則完全正確。將圖4(b)中的曲線定義為圖書主題狀態曲線,它由同一類中每個圖書主題文檔的獨立分量均值繪出。其中實線表示訓練集中的圖書主題狀態曲線;虛線表示測試集二的主題狀態曲線。虛線和實線表示的圖書主題狀態曲線明顯不同,說明通過ICA算法得到的文本分類器能夠拒絕與訓練集不同主題類別的文檔,避免了不正確的分類。多次實驗顯示,平均正確分類率大于90%,達到了實用的要求。

由于只對語言、數學、經濟和電子工程類圖書信息進行了訓練,而且訓練得到的文本分類器能夠拒絕與訓練集不同主題類別的文檔,也可拒絕與訓練集中圖書類別不同的讀者個性化需求。這里只選擇了與訓練集主題類別相似的20位讀者(每類5位讀者)的個性化信息。如果將讀者個性特征視為相應的圖書主題信息,20位讀者的個性化信息同樣表示成特征詞—文檔矩陣,那么具有相似個性化需求的讀者群體聚類測試與上述圖書主題分類測試處理方法相同。

圖5顯示了20位讀者相似個性化需求的結果。虛線包絡中的讀者具有相似的個性化需求,分別有5、3、6、6位讀者個性特征被分在了語言類、數學類、經濟類和電子工程類中。這些讀者很自然地被聚成了四類,每個類中的圖書信息也正是各類讀者所需要的,通過短信方式可將這些信息群發給相應讀者群體。經過多次實驗測試,讀者聚類平均正確率也接近90%。

測試顯示,利用ICA進行的圖書主題分類效果較好,也能將讀者按其個性需求先映射到某個圖書分類中,然后很自然地形成讀者群體。通過ICA無監督的學習能力,動態得到了讀者群體與圖書主題類之間產生的一種雙向映射關系。

4 結束語

本文提出一種基于獨立分量分析的圖書館個性化及時服務系統,給出了系統總體體系結構和最為關鍵的圖書館個性化服務子系統的體系結構,重點討論了利用ICA來改善系統個性化服務質量。

個性化系統在實際使用中,由于圖書主題信息可能是模糊的,相似個性化需求的讀者群體也不是很好區分,經常會出現錯誤的讀者群體得到不需要的圖書信息,個性化服務質量不能使讀者滿意。本文將圖書信息看成是不同主題的混合結果,讀者訪問的圖書信息和借閱情況視為不同個性特征的組合體現,并將個性組合特征也視為相應的圖書主題信息,利用ICA學習算法得到的文本分類器,就可以對圖書信息和讀者進行分類。相似主題信息的圖書被分在同一類中,屬于同一類的讀者被看成是具有相似個性化圖書信息需求的群體,利用短信群發可以將相關圖書信息發送給同一類中的所有讀者。

實驗結果顯示,利用ICA無監督的學習能力,配合可發現讀者潛在個性需求的潛在語義分析方法,所進行的圖書信息分類和讀者群體聚類的效果較為理想,并且新書的出現和讀者個性化需求的變動都能得到動態的分析,以滿足讀者需求。讀者群體和圖書類別之間可以產生隨讀者個性變化或隨圖書主題信息變化而變化的動態映射關系,這種映射關系可以改善個性化服務質量。

總之,ICA可以改善數字圖書館個性化及時服務系統服務質量,并且,基于ICA的圖書館個性化及時服務的處理方法還可以擴展到其他個性化智能處理領域。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 直接黄91麻豆网站| 午夜人性色福利无码视频在线观看| 色老头综合网| 亚洲侵犯无码网址在线观看| 国产成人精品在线| 伊人久久福利中文字幕| 亚洲最黄视频| 亚洲A∨无码精品午夜在线观看| 三上悠亚精品二区在线观看| swag国产精品| 91福利在线看| 99热这里只有精品在线观看| 男女男免费视频网站国产| 特级欧美视频aaaaaa| 亚洲中文精品久久久久久不卡| 国产凹凸视频在线观看| 91美女视频在线观看| 久久精品无码一区二区国产区 | 国产精品视频3p| 久久综合色88| 在线观看国产精品日本不卡网| 久久免费视频6| 天天综合网站| 激情综合网激情综合| 这里只有精品在线播放| 伊人蕉久影院| 亚洲综合片| 伊人91在线| 亚洲性色永久网址| 亚洲精品动漫| 凹凸国产分类在线观看| 国产一国产一有一级毛片视频| 国产后式a一视频| 国产裸舞福利在线视频合集| 91免费观看视频| 亚洲日韩Av中文字幕无码| 久草网视频在线| 亚洲精品视频免费观看| 中文字幕一区二区人妻电影| 色婷婷在线播放| 亚洲人成网站色7777| 香蕉蕉亚亚洲aav综合| 国产男人天堂| 99国产在线视频| 国产网友愉拍精品视频| 国产亚洲精品91| 91精品视频网站| 亚洲一区二区三区中文字幕5566| 亚洲天堂.com| 在线亚洲精品自拍| 国产自在线播放| 全部免费毛片免费播放| 国产乱人伦精品一区二区| 丝袜国产一区| 久久亚洲中文字幕精品一区| 亚洲无码视频一区二区三区| 精品国产aⅴ一区二区三区| 第一区免费在线观看| 国产真实乱子伦精品视手机观看| 人妻熟妇日韩AV在线播放| 91麻豆国产在线| 国产综合色在线视频播放线视| 91久久偷偷做嫩草影院免费看| 热久久这里是精品6免费观看| 久久精品人妻中文视频| 欧美成人精品一级在线观看| 18禁黄无遮挡免费动漫网站| 亚洲国产综合自在线另类| 在线日韩一区二区| 国产香蕉97碰碰视频VA碰碰看| 综合色区亚洲熟妇在线| 亚洲A∨无码精品午夜在线观看| 国产97公开成人免费视频| 狠狠色综合网| 午夜福利视频一区| 国产精品香蕉在线| 中文国产成人精品久久一| 中文字幕在线观看日本| 欧美国产日韩在线播放| 国产一区在线视频观看| 被公侵犯人妻少妇一区二区三区 | 亚洲三级成人|