999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶瀏覽行為的文獻鏈接分析

2009-04-29 00:00:00
現代情報 2009年4期

〔摘 要〕文獻鏈接分析以文獻間的“同瀏覽”現象為研究對象,在3個基本假設的基礎上展開,充分借鑒引文分析的思想和方法,挖掘文獻間的客觀關聯,具有適用面廣、簡單易用的特點。分析結果受瀏覽動機、信息能力和信息環境等多種因素影響,其可信度主要取決于來源數據的積累量。同時,分析過程中采用的文獻聚類技術也十分關鍵。只有采用合適的數理統計手段對足夠多的數據進行處理分析,才能有效縮小誤差,得出有意義的結論。

〔關鍵詞〕文獻鏈接分析;用戶瀏覽行為;引文分析;聚類

〔中圖分類號〕G203 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)04-0150-03

Analysis of the Literature Links Based on Users Browsing BehaviorsWang Li

(Institute of Scientific Technical Information of China,Beijing 100038,China)

〔Abstract〕Taking the literatures co-browsing phenomenon as the research object,analysis of literature links gives three basic assumptions,andtries to dig the objective relationship among literatures by using for reference from citation analysis.Analysis of literature links can be used widely and simply.Influenced by browse motivation,information ability and information environment,the credibility of analysis results depends on the accumulation of source data.Clustering technology used in analysis processes is very important.Only by adopting the appropriate means of mathematical statistics and analyzing a large amount of data,can we reduce errors effectively,and come to meaningful conclusions.

〔Key words〕analysis of the literature links;users browsing behaviors;citation analysis;clustering

人們在日常生活中經常根據朋友同事的推薦做出選擇,這一思想運用到信息推薦中產生了協同過濾技術。協同過濾技術一經出現即在推薦系統中得到廣泛應用,雖然面臨若干不足,但其算法不斷改進,迄今為止仍然是最成功的信息過濾技術之一。筆者認為這種成功主要源于協同過濾技術的基礎思想,即人們在獲取信息的過程中,人際關系可能是一個比數據庫或其他信息資源更為重要的渠道。甚至有研究顯示,“人們傾向于向朋友或同事求助的程度,比向其它信息資源如數據庫或文件資料求助的程度要多出5倍。[1]”

從信息傳播的角度看,協同過濾利用的是社會網絡現象,然而人與人之間的這種行為上的相似性折射出信息之間的相似性。能否將社會網絡轉化為信息網絡,進而研究信息之間的關系?基于這一想法,本文提出利用用戶瀏覽行為建立文獻鏈接網絡,以文獻間的“同瀏覽”現象為研究對象,借鑒引文分析的思想和方法,采用數理統計的手段挖掘文獻之間的隱性關系。

1 基于用戶瀏覽行為的文獻鏈接網絡

用戶查找文獻的過程代表用戶一次比較完整的瀏覽行為,是由一組復雜而有序的操作構成的,本文借用計算機網絡技術里的會話概念,稱之為一個會話單元。對于一個典型的B/S結構的文獻服務系統來說,一個會話單元產生的基本數據包括鼠標點擊、鍵盤輸入、頁面停留時間、網頁跳轉等等,數量龐大,且雜亂無章。去繁就簡,將文獻作為最低層的數據節點,用戶在多篇文獻之間的瀏覽跳躍行為可以用網狀圖表示,如圖1所示。

其中,每一個節點表示1篇文獻,簡單的連線則表示因“同瀏覽”而建立的文獻鏈接關系,忽略了瀏覽過程中的先后順序。

圖1 一次用戶瀏覽行為反映的文獻鏈接關系表

每一個會話并不是孤立的,圖1僅僅描述了一個會話單元。搜集多個會話數據,對若干個鏈接關系圖進行疊加處理,可以形成一個復雜的文獻鏈接網絡,如圖2所示。

圖2展示了3個會話單元疊加形成的文獻鏈接網絡,直線上標注的數字表示2篇文獻之間建立鏈接的次數,如文獻D1與文獻D2之間的連線標注“2”,表示2篇文獻之間有2次因“同瀏覽”建立起來的聯系。顯然,該數字越大表示文獻間的聯系越密切。隨著用戶行為不斷發生,這個文獻鏈接網絡將逐漸收斂,揭示利用率高的核心文獻,并呈現出若干相對穩定的文獻群落。 圖2 文獻鏈接網絡 2009年4月第29卷第4期現?代?情?報Journal of Modern InformationApr.,2009Vol.29 No.42009年4月第29卷第4期基于用戶瀏覽行為的文獻鏈接分析Apr.,2009Vol.29 No.42 文獻鏈接分析

文獻鏈接分析受協同過濾技術的啟發,認為“人與人行為上的相似性折射出信息之間的相似性”,并且這種相似性在足夠多的數據支持下將逐漸逼近文獻間的客觀關聯。以此為基本思想,文獻鏈接分析以文獻間的“同瀏覽”現象為研究對象,希望利用數學及統計學的手段揭示文獻間的內在規律。

基于用戶瀏覽行為建立的文獻鏈接網絡與引文的鏈狀結構極其相似,因而文獻鏈接分析可以直接借鑒引文分析的理論和方法[2-4]。

2.1 文獻鏈接分析的基本假設

將用戶瀏覽文獻的行為采用簡單的“有/無”來描述,可以構造出一個m×n階的關于用戶——文獻瀏覽情況的矩陣R(見圖3)。R=r11r12…r1n

r21r22…r2n



rm1rm2…rmn圖3 用戶——文獻瀏覽情況矩陣

其中,m行表示m個會話單元,n列表示n篇文獻,矩陣中的每個元素rij表示在第i次會話中用戶是否瀏覽了第j篇文獻,取值為0或1。注意,這里采用“會話”的概念將同一用戶的若干次瀏覽行為區分開,以一個會話單元為觀察周期,只有在同一個觀察周期內發生的瀏覽行為才稱作“同瀏覽”。

基本假設一:文獻之間的“同瀏覽”關系反映了文獻內容上的相關性。

在圖3所示的用戶——文獻瀏覽情況矩陣R中,行可以用文獻集合D={d1,d2,…,dn}來表示,在某個具體會話單元中包含的文獻集合 則是D的子集,對于該集合中的任意一篇文獻j(j∈Ds),rsj=1。這時,可以用函數fs(i,j)表示集合Ds中任意2篇文獻(i,j∈Ds)在內容上的相關性。

基本假設二:將每一次“同瀏覽”行為揭示出的文獻耦合程度視為一樣,并記為一個計量單位。

根據基本假設一,在某個具體會話單元中文獻i和j之間的相關性用fs(i,j)表示。如果兩篇文獻在同一次會話單元中被用戶瀏覽,則認為它們之間有一個由于有共同瀏覽者而存在的文獻耦合聯系,fs(i,j)=1;反之,fs(i,j)=0表示不存在同時瀏覽這2篇文獻的用戶。

基本假設三:文獻之間的耦合度具有簡單的可加性。

在圖3所示的用戶——文獻瀏覽情況矩陣R中,列可以用會話集合S={s1,s2,…,sn}來表示。定義文獻i的瀏覽集合為Si,則Si是S的子集,rki=1(k∈Si)。同理,定義文獻j的瀏覽集合為Sj,如果Si、Sj集合間存在N個相同元素,則表示在N次會話單元中用戶同時瀏覽了文獻i和文獻j,根據可加性,得到兩篇文獻的聯系為N個單位。

如果將文獻i和文獻j之間的聯系記為Cij,則Cij=∑ms=1fs(i,j)(s∈S)。經過簡單加合得到的絕對數量結果可用來度量文獻間的耦合強度。

通過3個基本假設,圖3所示的用戶——文獻瀏覽情況矩陣R可以轉化為表示文獻關聯的n階方陣C(見圖4)。C=c11c12…c1n

c21c22…c2n



cn1cn2…cnn圖4 文獻關聯矩陣

其中,行與列都表示文獻,矩陣中的每個元素Cij表示文獻i和j之間的耦合強度,通過對用戶瀏覽行為的匯總統計得到。

2.2 聚 類

通過“同瀏覽”關系建立的文獻耦合強度可以反映文獻間的親疏關系,這是文獻聚類的基礎。然而圖4中展示的Cij是經過簡單加合得到的絕對數量結果,是不穩定的,將隨著用戶行為的不斷發生而變化,筆者采用歐氏距離算法對其進行處理。

首先,可以將給定的文獻集合{d1,d2,…,dn}表示為n維空間,文獻i和k間的耦合強度Cik可以看作文獻i在第k維的坐標,同樣,Cik也可以轉化為文獻j在第k維的坐標。利用歐氏算法公式,可以用∑nk=1(Cik-Cjk)2得到文獻i和j之間的距離,記為sim(i,j)。如果sim(i,j)越小,那么文獻i和j之間的相關度越高。

通過文獻間的相關度計算,可以將給定文獻集合進一步劃分為若干個文獻群,這是一個聚類的過程,相關算法很多[5-8],本文不再贅述。聚類的結果可以采用可視化方式展示出來,直觀描述各個文獻群的分布情況,以及文獻間的親疏關系。

3 文獻鏈接分析的特點

文獻鏈接分析具有適用面廣、簡單易用的特點。

適用面廣主要體現于統計素材的易獲取性。文獻鏈接分析觀察用戶瀏覽行為,研究“同瀏覽”這種普遍存在的現象。對于圖書情報單位的傳統文獻服務來說,統計數據(如:讀者借閱歷史)主要來源于流通工作;對于一個典型的文獻服務系統來說,用戶查找文獻的過程則詳細記錄在系統日志中,可以借用相關工具軟件篩選出有用數據。可見,只要存在文獻服務,就會記錄下用戶的瀏覽行為,進而展開文獻鏈接分析。

文獻鏈接分析借用了引文分析的研究方法,通過簡單易懂的統計手段和比較成熟的聚類技術挖掘文獻間隱含的客觀關聯,分析方法簡單。通過文獻鏈接分析發現的文獻群不是根據圖書情報人員對文獻特征的判斷來發現的,而是在使用過程中自然形成的,可直接應用于實際工作。分析結果通過統計數據的積累可能無限逼近文獻的客觀聯系,同時也帶有用戶查找文獻過程中的普遍特征,在資推薦源、優化搜索引擎、輔助知識挖掘等應用場合中具有較高的參考價值。

4 文獻鏈接分析的局限

用戶瀏覽行為是特定信息環境下用戶自由心智的體現,由用戶主觀驅動,直接受當時的信息環境以及用戶信息能力的制約。基于瀏覽行為建立的文獻鏈接網絡受這些因素的影響,必然難以完全準確的反應文獻之間的客觀聯系。概括起來,影響分析結果準確度的主要因素包括瀏覽動機、信息能力,以及行為發生時所處的信息環境。

用戶瀏覽動機復雜多樣,當他抱有明確目的發起一次檢索活動時,該過程中涉及的文獻具有極強的內容相關性;如果用戶只是漫無目的的瀏覽,在瀏覽過程中就很容易轉換注意力,那么基于該過程建立的文獻鏈接可能是虛假的,即在當前的瀏覽文獻集合中,某篇文獻被瀏覽的行為不一定反映著該文獻與其他“同瀏覽”文獻內容相關。文獻瀏覽過程中存在的這種隨機現象直接影響文獻鏈接分析方法的應用和效果。

用戶信息能力的差異表現為獲取文獻在質和量上能否滿足需求。簡單的說,即使2個用戶有完全相同的信息需求,他們在查找文獻的過程中,在判斷哪些文獻與需求相關時,也可能產生極大的差異。

同樣,信息環境的差異直接影響著用戶查找文獻的效率。檢索系統是信息環境中最重要的部分之一。顯然,面對同樣的文獻集合,發出同樣的查詢指令,不同性能的檢索系統可能帶給用戶不同的搜索結果。

5 結 語

本文提出的文獻鏈接分析以文獻間的“同瀏覽”現象為研究對象,在3個基本假設的基礎上展開,充分借鑒了引文分析法的思想和方法,希望利用數學及統計學的手段揭示文獻間的內在規律,應用于信息服務的實際工作中。

需要注意的是,該分析方法對用戶瀏覽過程中的隨機現象不加區分,認為所有“同瀏覽”行為都是等價的,因而只是簡單的賦予了一個相關度計量單位。這種單純的計量方式雖然有效的簡化了分析過程,但是在用戶瀏覽動機、使用環境等多種因素的影響下,很難有效發掘文獻之間的客觀聯系,一定程度上降低了分析結果的準確度。因此,文獻鏈接分析結果的可信度主要取決于來源數據的積累量。同時,分析過程中采用的文獻聚類技術也十分重要。只有采用合適的數理統計手段對足夠多的數據進行處理分析,才能有效縮小誤差,從而得出有意義的結論。

參考文獻

[1]Rob Cross,Andrew Parker,Steve Borgatti.用社會網絡分析(Social Network Analysis;SNA)改進知識的創新與共享[EB/OL].http:∥www-900.ibm.com/cn/services/strategy/estrategy/socialnetwork.html#analysis(Accessed Sep.25,2008)

[2]丁學東.文獻計量學基礎[M].北京:北京大學出版社,1993.

[3]陳光華,江玉婷,莊雅蓁,等.引文分析研究發展現況[EB/OL].http:∥www.lis.ntu.edu.tw/~khchen/writtings/pdf/bookshelf1997.pdf(Accessed Sep.25,2008)

[4]洪光宗.從引文分析看網絡結構挖掘[J].圖書館學研究,2006,(12):45-47,49.

[5]王劍輝,姜龍濱,楊姝.網頁文獻的快速模糊聚類[J].長安大學學報:自然科學版,2007,27(2):107-110.

[6]鐘偉金,李佳,楊興菊.共詞分析法研究(三)——共詞聚類分析法的原理與特點[J].情報雜志,2008,(7):118-120.

[7]李慧,劉東蘇,任志純.文獻聚類技術及其評價函數[J].情報雜志,2004,(7):17-18.

[8]夏詠梅.基于文本挖掘的分類與聚類技術[J].情報探索,2005,(3):65-67.

主站蜘蛛池模板: 国产美女免费| 国产在线视频导航| 91久久精品国产| 亚洲国产无码有码| 在线观看91香蕉国产免费| 久久人人97超碰人人澡爱香蕉 | 国产精品亚洲综合久久小说| 在线观看精品国产入口| 国产成人AV男人的天堂| 亚洲欧美色中文字幕| 国产精品无码影视久久久久久久| 精品夜恋影院亚洲欧洲| 国产亚洲精品自在线| 九色91在线视频| 有专无码视频| 这里只有精品国产| 国产精品久久久精品三级| 多人乱p欧美在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ| a毛片在线播放| 国产一区二区精品高清在线观看| 久久久久青草大香线综合精品 | 国产人前露出系列视频| 一本大道东京热无码av| 美女无遮挡被啪啪到高潮免费| 色呦呦手机在线精品| 久久免费精品琪琪| 国产人成乱码视频免费观看| 久久国产乱子| 精品91在线| 欧洲亚洲欧美国产日本高清| 亚洲欧美日本国产综合在线| 亚洲精品大秀视频| 在线观看亚洲精品福利片| 亚洲a级毛片| 91福利片| 一级毛片高清| AV不卡无码免费一区二区三区| 全裸无码专区| 亚洲区第一页| 国产精品漂亮美女在线观看| 亚洲天堂.com| 日本亚洲国产一区二区三区| 国产精品自在线拍国产电影| 亚洲国产91人成在线| 国产黄色免费看| 天堂成人在线视频| 日韩美一区二区| 2021天堂在线亚洲精品专区| 亚洲码一区二区三区| 一级毛片免费观看不卡视频| 亚洲福利视频网址| 真实国产精品vr专区| 无码福利日韩神码福利片| 欧美视频在线播放观看免费福利资源| 成人中文在线| 91国内在线观看| 国产在线自乱拍播放| 国产精品网址你懂的| 大学生久久香蕉国产线观看 | 亚洲欧美另类久久久精品播放的| 99re在线观看视频| 国产浮力第一页永久地址| 亚洲成人动漫在线| 在线视频97| 高清无码一本到东京热| 成人a免费α片在线视频网站| 69综合网| 啪啪啪亚洲无码| 9久久伊人精品综合| 国产免费人成视频网| 亚洲色中色| 四虎永久在线| 国产精品香蕉在线观看不卡| 亚洲精品综合一二三区在线| 久久久久亚洲精品成人网| 欧美综合成人| 国产精品嫩草影院视频| 亚欧美国产综合| 精品国产一区二区三区在线观看| 成人亚洲天堂| 亚洲va在线∨a天堂va欧美va|