999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于移動圖書館平臺的訪問數據分析

2018-06-08 01:45:42孔慶祝
泰州職業技術學院學報 2018年2期
關鍵詞:數據挖掘圖書館用戶

孔慶祝

(泰州職業技術學院,江蘇 泰州 225300)

移動圖書館平臺給圖書館數據分析和知識挖掘帶來了便利,館員可以很方便地利用平臺進行訪問數據收集和知識挖掘,充分掌握整個圖書館工作現狀,形成相應用戶訪問報告,供領導開展圖書館工作決策時做參考。

1 移動圖書館面臨的大數據環境

現代大數據環境中,信息數據挖掘環境條件都有了很多變化,這就使得數據挖掘解決具體問題時總會碰到這樣那樣的難點和挑戰。

1.1 數據量激增

大數據時代的信息量的基本處理單位是GB、TB、PB等,這是以前的數據量遠遠不能比的,并且整個數據量仍然不斷地爆發式增長。根據Win?terCorp的統計數據,目前全球最大的數據倉庫其數據量正以兩年三倍的速度增加[1],這樣的速度已經超出以前小數據時代人們的想象,在小數據時代人們為了達到最少的數據獲得最多的信息,往往通過隨機采樣來處理大規模數據,其弊端是顯而易見的。在不可收集和挖掘全部數據的情況下,這種數據挖掘的準確性是隨著隨機性增加而增加的,與樣本數量并沒有多大關系。為了獲得準確的結果,就必須盡可能地增加數據采樣的隨機性,但事實上僅憑隨機性數據采樣并不能捕捉到隱性藏匿海量數據之中數據價值,這也導致數據挖掘最終結果不夠完整準確。大數據挖掘與隨機挖掘有所不同,它不采用隨機挖掘處理所有數據,當然“大”也只是相對而言的;同時,數據量大數據價值卻未必大,在大量數據下面包涵著很多數據噪音,這就要求在數據挖掘之前首先去除掉存留數據中的雜質,但是巨量篩選清洗等去噪工作給機器硬件以及算法增加了很大的負擔。目前采用解決方法是在數據挖掘建模的基礎上對特征空間矩陣進行分割,依據一定規程將其切分形成大量的子矩陣,然后對子矩陣文件重整將他們劃分到數個服務器節點上,同時進行并行分布式改造數據挖掘算法與之配套。這就導致每次迭代運算都分為兩個步驟,首先為取得子矩陣的局部結果必須在每個計算節點上對子矩陣進行運算;其次在得出子矩陣的運算結果的基礎上,匯總各子矩陣的運算結果從而得出整個對象—屬性矩陣的全局結果,然后不斷迭代直到得出最終有效的應用模型。Google的MapReduce模型就是通過以上方法來實現分布式算法的典型代表。

1.2 特征維度多元

知識挖掘中通過不同的特征屬性來定義不同的樣本,大數據環境的多樣性使得描述數據特征維度大大增加了,這就使得日常表達對象的所含信息內容大為增加。為了適應這種情況,多維數據模型與計算方法也變得愈加復雜。不過由于大數據特征空間中,對象—屬性矩陣的屬性數量和對象數量都很巨大,超出目前常用算法特征維度級別,在成千上萬的屬性特征的對象面前,多維數據模型與計算方法很容易遭遇“溢出”災難。Web網頁中的微博數據,就屬于屬性特征維度極多的大數據,這種數據往往有高達數萬內容的關鍵詞屬性,而大數據中微博的數量也是百萬或千萬級,甚至上億,如此巨量的高維數據處理難度可想而知。一般而言,這些超高維數據稀疏性很強,其部分屬性子集中往往能夠體現象簇和類別的表達,用傳統的特征空間方法建模挖掘并不能得到理想結果。

1.3 數據關系復雜

數據挖掘方法一般都是平面的,整個數據挖掘過程中數據關系簡單,數據之間關聯也少。社區數據挖掘就是這種簡單數據關系的處理,首先數據挖掘環境固化為單一網絡關系環境,在這種環境下得出的挖掘結果肯定與用戶信息需求大相徑庭。而現實世界是由多重多層次的關系構成整個社會網絡或異構社會網絡的,對象之間關系極其復雜,如用戶考評、個人征信檢測數據計算都涉及多種數據關系。現實中對象數據關系復雜,大數據的多源性多樣性與這種的復雜關系構建相契合,通過對復雜關系分解成一個個簡單關系,然后通過多關系的簡單鏈鏈接起所有關系,這個鏈接關系的綜合體就是體現了復雜關系對象特征屬性,但由于這樣鏈接本身過于簡單機械,分解和鏈接過程容易形成“泛關系”(包括所有屬性),反而不能體現數據的隱匿價值,最終影響知識挖掘的效果[2]。這就對多關系知識挖掘提出了更高的要求,我們在處理這種多關系知識挖掘時,在構造聚分類模型上,要更重視對關系提取、選擇、組合,充分運用關系判斷函數,將不同關系中的相互關聯模式盡可能提取出來,這樣在后期知識挖掘處理時,才能將分散于不同的數據源之中的信息與知識挖掘出來,這是知識遷移過程中的主要工作。

1.4 算法性能高效

在多數人印象中,大數據的數據處理效果顯然是優于小數據時代的,但讓人意外的是,這種優勢并不是算法上更加高級、智能化程度更高帶來的,這是基于大數據的基礎——海量數據的成果,從某種程度上說數據量比算法系統的智能更重要也不為過。Google翻譯就體現了這一點,它在算法上并沒有采取復雜的計算機語言規則,最終翻譯結果卻更準確、精干,這依賴于Google花費巨力建立了數十億Web訓練數據。這種數據量上的優勢決定了大數據時代數據處理算法性能。然而,凡事都有利弊,在大數據海量數據、紛繁的種類、龐雜的特征類型影響下,全面掌握整個數據的分布特點幾乎是不可能的,最終必然會使得我們對數據挖掘結果和過程考核難以采用明確的指標去衡量。因此,選擇大數據挖掘算法時,必須從數據挖掘全局多方面加以考量,尤其應注重以下幾點:(1)擴展性。大數據處理很多都是在云計算框架內完成的,現用的很多算法并不能很好地適應云計算的框架,這時就必須對這部分算法進行擴展,最終在云計算框架內進行,這種擴展性其實是對算法的優化和創新,這是與大數據環境融合的必然結果;(2)實時性。大數據對時間和效率的要求比以往任何時代都高,因此很多時候數據挖掘評價最重要的指標不是算法的準確率,而是能夠及時處理數據,這時候實時性反而有時會更重要些,實際應用中如智能推薦、審批事務中的在線數據流挖掘就是這樣,這時候我們就需要綜合考量,在實時性和準確率之間取得一個平衡;(3)伸縮性。海量數據是大數據的基礎,只是在數據量不斷增長的情況下,在少量數據情況下運行得最好的算法有時就會面對一個極限,它們對數據處理會困難重重,比如統計學中的邦弗朗尼原理。大數據中數據種類繁多、特征類型龐雜,傳統的單一知識挖掘模型很難滿足應用的精度要求,多模型的集成挖掘的方法應運而生,這些分類組合模型通過復合多個分類器的計算結果,最終整個挖掘結果的準確程度大大提升,裝袋和提升都是這樣的有效分類組合模型。

1.5 語義理解清楚

常見知識挖掘任務如文本聚類、文本分類、自動摘要、信息檢索等等,由于缺乏對同義詞、近義詞以及詞語間的語義關聯進行有效識別手段,因而都帶有明顯語義特征稀疏問題,在處理微博等短文本時尤為嚴重,往往為了得到較優的結果不得不進行人工干預,這種半自動化的處理方法在大數據的沖擊下無疑存在很大的缺憾。這主要是由于目前計算機在人工智能方面還有所不足,不具備人一樣的語義知識,對自然語言理解能力往往不是很到位。這也是制約知識挖掘效果的瓶頸,我們應該加大這方面的研發力度,不斷利用語義知識提高計算機的自然語言理解能力,只有這樣才能提高知識挖掘的性能,適應大數據時代的知識挖掘的需求。

1.6 數據解釋明晰

我們花費的大量的人力物力時間挖掘的結果,如果沒有采用適當的解釋方法或形式,對缺乏專業背景的普通用戶是很難理解的,從某種程度上說,用戶理解是數據挖掘價值之所在。為了增強用戶對挖掘結果數據的理解,某些知識挖掘系統通過提供多種可視化視圖來揭示信息,只是可視化視圖更多的是一種挖掘結果的呈現,對知識挖掘方法、挖掘結果的局限性或者有效性用戶仍然是茫然的,對挖掘結果乃至更多相關信息上的缺失,會讓用戶對整個知識挖掘產生疑慮,大大影響了知識挖掘的應用效能,有時甚至會造成用戶對各種結果的誤判。

1.7 數據隱私安全

眾所周知,數據分析越頻繁、數據分析能力越強,數據隱私安全就會受到越來越多的威脅。為了加強對數據隱私的數據挖掘進行保護,我們一般采用安全多方計算(Secure Multiparty Compu?tation)與數據模糊(Data Obscuration)兩種方法。安全多方計算可以保證任何一方無法知道另一方的數據真實值,這在數據量有限和小數據時代數據挖掘中是可行的,大數據的海量數據和繁雜關系使得安全多方計算不可能窮盡所有數據關系,也就談不上數據隱私保密;數據模糊方法則是通過對原始數據增加干擾項,但在進行數值聚集處理或者加入隨機噪聲失真后惡意攻擊的難點也增加了。實際數據挖掘過程中,數據挖掘者對數據的真實值并不了解,而在原始數據值上利用失真數據集重構算法,就能在進行數據挖掘的同時最大限度地保護數據隱私。

2 基于移動圖書館平臺的數據分析

2.1 移動圖書館數據選取

我館的移動圖書館是去年下半年開始啟用的,一年來,針對移動圖書館這一新生事物,圍繞數據驅動決策這一大前提,我們在多個方面做了探索和嘗試。我館數據分析首先確定分析主題和對象,選定好適合的分析工具,采用科學的分析方法和嚴密的組織架構來保證執行的效果。在數據分析時主要從以下幾點進行考量:一是數據源選擇。數據源是數據最初的來源是最能反映數據本身情況的指標,在全面掌握數據來源情況后,便可以深入數據內核進行數據挖掘,它也是判斷未定數據趨勢的重要參考。二是單一數據特質。單一數據是構成整體數據的基礎,單一數據的組合形成整體數據的效果,只有認識單一數據最基本特質后,才能對數據各因素間具體作用過程和結果有所了解。三是數據的環境。指數據存在的時空環境,離開相應的環境數據就可能有所變化。四是數據的前瞻性。數據分析主要是挖掘數據特質,分析未來的走勢提供決策支撐,數據必須要有提供預見性分析的可能。

2.2 移動圖書館數據分析指標體系

一般而言,移動圖書館數據分析指標可分為兩類,一是移動圖書館本身建設質量評估指標;二是用戶訪問移動圖書館行為體驗指標。我館根據實際館情結合可操作性,主要制定了以下指標。第一類指標中有界面友好性、資源涵蓋率、易獲取率、用戶嘗試率、下載傳遞速度、業內知名度等;第二類指標內容較多,涉及用戶訪問行為的方方面面,主要是移動圖書館訪問信息內容指標,包括(1)訪問內容、訪問者的身份、使用搜索引擎、訪問時間等訪問信息(2)用戶訪問計量分析指標,包括獨立訪問者統計、用戶行為分析、頁面停留時間、訪問時長、訪問頻率、關鍵字檢索分析等用戶訪問指標,這些指標能使我們實時了解移動圖書館平臺的運營狀況,掌握有效覆蓋人群的規模、頁面和頻道的熱點。(3)用戶對移動圖書館網站資源的使用指標,指的是用戶對集成到移動圖書館各種資源使用情況,如考試資源、音樂資源、課件資源等。(4)用戶忠誠度指標,指的是長期使用移動圖書館用戶數。(5)用戶對移動圖書館推介活動的參與度指標[3],這里參與度是通過移動圖書館宣傳推介各種活動參與人數統計。依據以上這些指標,我們充分了解了我館移動圖書館服務水平和現狀,當數據發生變化時,我們會及時調整資源配置、提升服務水平、拓展用戶感興趣的服務內容,為廣大用戶服務。

2.3 移動圖書館數據分析流程

(1)數據收集。這是移動圖書館數據分析的第一步。目前移動圖書館數據收集一般有三種來源,分別是服務器的日志、Webtrends或類似的第三方共享軟件收集信息、自建信息收集插件收集。服務器日志記錄除了反映服務器的運行狀況,發現和排除錯誤原因、了解客戶訪問分布等,還能了解什么搜索引擎、什么時間、抓取了哪些頁面,可以知道是主搜索蜘蛛還是從搜索蜘蛛抓取了圖書館的網站等的信息,但日志分析只能提供初淺的數據,并不能收集用戶行為數據,在對用戶訪問興趣轉換和歷史跟蹤上就無能為力。Webtrends或類似的第三方共享軟件是基于網站日志記錄進行分析的網站分析工具,可以進行客戶端分析、流量分析、可用性分析等,其分析項目多而細,生成的分析報告比較直觀,結論清晰,可多角度反映問題,但其統計運算復雜,運算過程中會伴隨一些無效的干擾操作,這就造成結論的偏差。自建信息收集插件種類繁多,各具功能,但多數流程都是手續用戶注冊賬號信息,在用戶登錄帳號時設計一個連接對話框,該對話框與保存著登錄的IP、訪問的頁面相關信息相連,當讀者退出網站時把對話框內含信息寫入跟蹤庫;數據挖掘模塊通過IP與服務器的日志文件關聯,提取出數據進行分析,最終得出結論供決策支持系統使用。以上三種方法都各有利弊,實際操作都是混合使用,對比分析讓數據收集更為真實可靠。

(2)數據整理。數據整理首先要明確目標,對數據進行有效性篩選,在此過程中對用戶行為加以區分,依據龐大用戶群積累的數據使得數據的誤差減小到最低,最終對用戶進行分門別類后,將各種數據歸到相應類目中,這是一個繁瑣需要極大耐心的工作。

(3)習慣分析。習慣分析是對用戶訪問行為信息歸類整理的過程,在對用戶訪問頁面內容分析的基礎上,根據訪問主題對頁面進行分類,依據整理出的用戶訪問頁面內容相似度和頁面路徑,得出用戶瀏覽興趣的結果,通過綜合評估模型得出訪問用戶的興趣所在,最終依據興趣結果調整個性化訪問界面進行信息推送。當然用戶興趣存在一定的偶然性,我們根據用戶訪問重復性、相似性內容來確認用戶興趣,通過其訪問行為上表現出的訪問時間、點擊次數、拉動滾動條次數等數據加以驗證,剔除掉偶然性訪問數據,保留可供決策的穩定性訪問數據。

(4)構建分析報告。在進行以上數據操作后,形成移動圖書館訪問數據分析報告,報告由總體分析、重點項目分析、經驗總結三部分構成。總體分析即對移動圖書館網站監測數據總量分析,從全局把握移動圖書館平臺運行的總體印象;重點項目分析,在總體分析的基礎上有重點地對重要指標項目和波動較大的項目通過具體的數據指標,進行趨勢預測和對比分析;經驗總結,通過移動圖書館平臺數據分析指標,對不同的分析事項分門別類建立各自相應的分析模型,從而客觀的對已有的經驗分析總結并加以驗證,吸收其中正確的方面形成規律最終指導實踐中的網站數據分析[4]。三個方面相輔相成,前一階段是后一階段的基礎,環環相扣,只有把握好數據分析各個環節,最終才能得出可靠的結論。

3 移動圖書館數據分析的具體應用

3.1 依據訪問數據調整圖書館館藏資源結構

互動了解用戶需求來調整館藏資源結構是自然而然的事情,只不過移動圖書館的用戶更龐大,數據也就更能反映用戶真正的需求。目前,我館訪問數據的來源主要有三處:移動圖書館每天的后臺訪問日志、移動端相連的圖書管理系統日常工作記錄、在線網購圖書的記錄。對用戶瀏覽圖書、視頻資料情況的分析表明用戶喜好和當前熱點,館員在分析處理后將最熱資源推薦給領導,在資源建設人員新建資源時將這些因素考慮加以考慮重點關注。依據移動平臺數據統計,我們發現高校用戶在時間節點的獨特之處,這一點在用戶數據分析中也有明顯的反映,每年六月英語等級考試、1月的研究生入學考試、畢業生用戶的求職和論文寫作時,都會在移動平臺的資源訪問數據中有所反饋,我們也會適時推出相應的圖書推薦和數字資源推廣,以便用戶能及時找到急需的信息。

3.2 依據訪問數據參與學校教學科研

依據移動圖書館平臺,我們積極參與學校教學活動,建立與教學、科研及學科團隊的數據關聯。在教師課程改革和教學改革過程中,我們分專業和年級對學生投放相關教學數字資源,盡量保持課程同步,最終形成個性化教學界面。在這個界面上課程安排、重點剖析、考核等應有盡有,大大減輕了老師的負擔。在學校科研活動中,圖書館最受歡迎的是科技查新和論文查重服務,我館目前開展了知網論文查重和維普論文查重,都可以詳細將重復文字標識清楚,這對廣大師生的論文寫作大有裨益。而科技查新是作為我館新興的信息服務項目,對我校科研人員而言也有積極的意義,它是科研工作的第一站,在用戶選題前的科技查新報告中,圖書館館員會清楚說明該研究目前的國內外狀況和相關研究熱點,并文獻綜述標明創新點及難點,這也給館員提出了更高的要求,除了具有一定的專業背景,還需要通過數據分析和挖掘對相關課題提出一些前瞻性的預測。對學校學科水平及團隊的統計和數據分析是近年來圖書館開展拓展服務的嘗試,通過數據統計出學科水平、教師的論文影響因子及專業在國內外的排名,反映了我校整體科研水平,通過數據分析形成報告交由領導調整科研獎勵政策,建立相關激勵措施,提高廣大教師的科研積極性激發他們的創新動力,最終形成全院良好的科研環境。

3.3 依據訪問數據促成圖書館空間再造

依據用戶訪問數據及手機定位程序,統計用戶在校園中的重點區域,分析該區域中用戶行為模式和特點,挖掘出用戶真正興趣之所在。依據這些用戶行為對圖書館空間加以改造,分區域劃分為不同的功能模塊,適合不同人群。如學習區,不能討論保持安靜;討論區,可以有數人小組討論問題,發表自己意見;休閑區,配置沙發、插座等打造寬松的學習環境,用戶可以在這里上網,聽音樂等。不同區域通過不同色調加以區分,輔以標識更加清晰明確。功能區改造后,依據移動平臺收集用戶的反饋信息,然后不斷加以改造,真正打造用戶心中最美的圖書館形象,配合空間再造時加大軟環境建設,加強相關規章制度建設將硬件建設的成果發揮到最大,讓讀者受益,最終圖書館訪問人數將愈來愈多。通過移動圖書館平臺,我們做了小小的嘗試,對常來圖書館用戶進行統計,如圖1所示,以2013學年經常學習區自習的學生為對象,關聯圖很清楚地顯示了自習對學業成績的影響,進而推廣到影響四、六級通過率、考研通過率等等,這些數據分析結果最終也會形成報告成為圖書館空間再造升級決策的有力依據。

圖1 學生自習與成績關聯圖

[1] 黃浩波,何衛華,葉青.微信及其在圖書館信息服務中的應用[J].圖書館學刊,2013(1):62-64.

[2] 微信.微信公眾平臺[EB/OL].(2013-03-22)[2017-12-28].http://mp.weixin.qq.com/wiki/index.php?title=消息接口指南.

[3] 邱均平,周倩雯.數據挖掘與知識挖掘的比較研究[J].情報科學,2010(12):1862-1864.

[4] 馮新民,王建冬.知識挖掘的概念困境與廣義知識挖掘[J].情報雜志,2008(7):63-65.

猜你喜歡
數據挖掘圖書館用戶
探討人工智能與數據挖掘發展趨勢
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
飛躍圖書館
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 久久a毛片| 日韩人妻精品一区| 囯产av无码片毛片一级| 亚洲永久色| 伊人国产无码高清视频| 亚洲嫩模喷白浆| 91午夜福利在线观看| 在线免费亚洲无码视频| 国产在线精彩视频论坛| 国产菊爆视频在线观看| 国产成人亚洲精品蜜芽影院| 国产一级无码不卡视频| 日本精品中文字幕在线不卡| 久久人人97超碰人人澡爱香蕉| 99这里只有精品6| 国产网友愉拍精品| 精品人妻一区二区三区蜜桃AⅤ| 国产精品免费福利久久播放 | 99热6这里只有精品| 99er精品视频| 亚洲小视频网站| 99热这里只有精品在线观看| 国产亚洲视频中文字幕视频| 日本不卡在线播放| 国产精品国产三级国产专业不| 亚洲中文精品久久久久久不卡| 91国内在线观看| 老色鬼欧美精品| 重口调教一区二区视频| 欧美一区国产| 亚洲成人在线免费| 91在线精品免费免费播放| 精品无码一区二区三区电影| 国产一级精品毛片基地| 免费观看男人免费桶女人视频| 精品国产中文一级毛片在线看 | 日本影院一区| 爱色欧美亚洲综合图区| 国产探花在线视频| 欧美天堂在线| 中文字幕色在线| 在线欧美国产| 国产另类视频| 中文字幕在线播放不卡| 精品天海翼一区二区| 国产69囗曝护士吞精在线视频| 国产精选自拍| 亚洲成人免费看| 日韩在线欧美在线| 亚洲综合经典在线一区二区| 日韩毛片视频| 小说 亚洲 无码 精品| 亚洲色无码专线精品观看| 国产精品亚欧美一区二区三区| 中文无码影院| 伊人久久福利中文字幕| 亚洲色图欧美| 91 九色视频丝袜| 女人毛片a级大学毛片免费| 日韩视频福利| 色婷婷在线播放| 无码免费视频| 免费国产高清视频| 国产一区二区色淫影院| 亚洲成在线观看| 国产99欧美精品久久精品久久| 久久久久人妻精品一区三寸蜜桃| 久久大香伊蕉在人线观看热2 | 丁香综合在线| 国产精品30p| 久久久久亚洲Av片无码观看| 亚洲中文字幕在线观看| 亚洲中文制服丝袜欧美精品| 国产第一福利影院| 四虎国产精品永久一区| 午夜精品久久久久久久无码软件| 在线va视频| 国产91麻豆免费观看| 草逼视频国产| 成年女人a毛片免费视频| 日韩久草视频| 91免费观看视频|