馮倪
(陜西師范大學計算機科學學院,陜西 西安 710000)
現如今是一個信息爆炸的時代,我國的網絡信息技術得到了比較快速的發展,在社會的各行各業中數據量也在不斷地增長。針對這樣的環境,如何處理好大量的數據,并提高數據的使用效率是每一家互聯網公司需要做的工作。在大數據應用技術中,個性化的推薦系統是一項得到廣泛應用的技術,其主要的作用就是對用戶的數據做更加智能的處理,通過設計好的數據模型以及算法將用戶感興趣的信息推送給用戶,以進一步提升用戶的實際上網體驗。現階段,一些個性化推薦系統被廣泛應用于人們生活的各個領域,比如說音樂、電商、購票等社交平臺上,可以滿足不同用戶的多樣化需求。因此,和推薦系統有關的研究依舊在如火如荼的進行中。
大數據一般被認為是規模非常大,也沒有辦法使用常規的軟件進行儲存和處理的數據,是一種在處理之后才具備較高價值的數據。隨著信息時代的發展,對大數據進行處理,并合理地使用個性化的推薦系統是非常重要的一個工作。個性化推薦系統使用的大數據一般具備以下的特點:
大數據具備的一個特性就是多樣性,多樣性體現在大數據的種類以及相關的來源上。按照數據的結構,可以將數據主要分為三種不同的類型。在這三種類型中,非結構化和半結構化的數據正在慢慢地成為數據的主要成分。非結構化的數據是指結構不完整或者說結構不規則的數據,是不能使用數據庫二維表來表現出來的,包括圖片、音頻、文本以及其他的信息等。這種非結構化數據的占比是非常高的,且正在不斷的增長中。結構化數據指的是可以使用二維表結構進行表達的數據,其有著一定的數據格式,可以使用關系型的數據庫進行儲存。介于這兩者之間的是一種稱之為半結構化的數據,這種數據既具備一定的規則性也具備一定的結構性,但是并不符合關系型數據庫的模型結構[1]。
大數據具有非常強的時效性。隨著時間的流逝,如果大數據得不到合理的處理,其價值就會下降。處理大量的數據是需要時間的,因此,就需要結合實際情況利用新型的數據處理方法對數據進行有效率的處理。在信息時代,云計算應運而生,合理地使用云計算功能能進一步地提升信息處理的能力,在一定程度上減少運算過程中需要的時間。現如今,計算的速度達到了每秒可處理PB級(1PB=220GB)的數據[2]。
在信息時代,大數據有著非常高的利用價值,但是,需要注意的是,大數據的規模是比較大的,需要經過科學的處理才能得到有效的信息,這樣才能使得推薦系統更加符合不同受眾的喜好。針對這樣的情況,基于信息技術和大數據的推薦系統就沒有必要考慮精準度,這是因為,大數據本身就不會遺漏掉任何一個數據,從另一個角度來說,推薦系統也正朝著“是什么”轉變著。
現階段,在大數據的背景下,推薦系統也順應時代潮流誕生了。在對相關的網絡用戶數據進行收集之后,利用建模計算的模式對大數據進行處理,可以得出網絡用戶的行為、愛好、習慣等相關的信息,并在之后,為網絡用戶提供個性化的推薦,這樣能幫助用戶接收到自己想要的信息,從而提升用戶的網絡使用感[3]。
個性化推薦系統在實際應用中,可以實現對數據的可靠處理,主要包括數據處理與收集等。也就是說,該系統提供的服務主要是通過數據采集、推薦算法及人機交互等不同模塊實現的。
網絡公司的數據來源存在很大差異,一部分網絡公司的數據來源從內部產生,自身就可以為數據來源提供支持。但是就實際情況來看,很多網絡公司并沒有這種實力,數據一般來自于不同的數據庫,在選擇時需符合自身需求。數據庫中存儲著多樣化的數據,比較常見的有交易數據、業務數據等。在傳感器中,也會產生比較多的半結構化數據等。在互聯網上充斥著形式各異的非結構化數據,比較常見的數據庫有SQL Server、Oracle以及 Access等。眾所周知,數據的來源途徑是非常多樣的, 用戶在網絡平臺的實際操作過程中,有著用戶自身的屬性和特點。但是,需要格外注意的是,這些數據都要有規范的格式,對數據進行科學合理的選擇,并對數據進行篩選[4]。
在數據的采集過程中,還需要將數據進行分類,數據是有著不同類型的,也有著不同的價值。針對這樣的實際情況,就需要做好數據的采集工作。因此,數據買方在對數據進行采集時,需要充分了解自身所需要的數據類型、價格、規模和其他的信息,結合實際情況做好數據端口的對接工作,這樣才能讓數據的收集更加準確。
在完成了數據傳輸的相關工作之后,就需要對購買來的數據做進一步的清洗,這樣可以有效提升數據的質量,并糾正在數據中存在的各種錯誤,避免出現數據錯誤以及丟失的情況。比較常規的數據清洗手段是糾正錯誤、數據壓縮以及修正邏輯等,在做完了一系列的數據清洗工作之后,就能進行接下來的數據建模工作了[5]。
數據建模是非常重要的一個環節,也是考驗設計者統籌規劃能力的一項工作。相關的設計者需要結合實際情況建立起一個完善的數據庫,將不同類型的數據根據相關的規則進行合理的分析和整理,并通過合理的方式表示出數據之間的關系,這樣的數據才是科學、合理的,便于后期的加工處理。在相關的數據建模完成了之后,平臺設計者可以結合用戶的興趣來創建算法。通過構建模型,用戶的短期興趣以及長期興趣都被比較規則地展現了出來,用戶的網絡體驗感得到了提升。個性化的推薦算法是計算推測出用戶可能會喜歡某樣東西的一種計算機算法[6]。
在構建了處理數據的模型以及分析了數據之后,就能結合用戶的興趣進行個性化的推薦。計算機會結合用戶的興趣模型進行進一步的計算,這樣可以為網絡用戶推薦其感興趣的內容。接下來,網絡用戶的這一次選擇又會被再一次作為數據儲存在數據庫中,成為了下一次被繼續利用的新數據。以上的這些內容,就是一個比較完整的推薦過程。
個性化推薦系統的發展是非常迅速的,可應用到各個行業領域,比如社交網絡、電子商務、視頻網站等這些能夠和普通用戶產生關聯的網絡平臺,相關的網絡企業就能針對這樣的情況做更進一步的研究。
在一些比較熟悉的電商平臺上,用戶在進行購物時,后臺可以結合用戶的喜好來推薦相關的商品,這樣可以在一定程度上提升用戶的購買率,企業就能獲得更多的盈利。最近這些年,個性化推薦已經得到了比較快速的發展,比如“日推”“私人FM”就是在這一時代背景下所產生的熱詞。在未來,用戶在使用手機或者是網絡平臺時,就能體會到更加個性化的服務。
2017年,我國第一家大數據交易中心,也就是貴陽大數據交易開始運營,這也標志著我國大數據交易是非常成功的。大數據交易的商品一般分為了以下幾個種類:第一類,是經過了網站工作人員仔細處理之后的數據;第二類是結合用戶喜好所設計的模型算法;第三類是和網絡信息技術有著直接相關性的應用工具,比如說云計算等等。擁有海量數據的騰訊大數據為開發者提供著一批可依賴的大數據產品,隨著個性化推薦系統的進一步進化,這些產品將為行業帶來了更多的活力。
綜上所述,最近這些年來,隨著大數據價值的不斷提升,一些和數據泄露相關的案例層出不窮,人們也更加關注數據安全的問題。在大數據背景下,大數據技術可以更加便利地對這些數據進行利用,能極大地保護好用戶的隱私。所以,網絡企業在未來的發展過程中需要做好個性化推薦,對相關的數據進行合理的利用,這樣才能提升用戶的網絡使用感,為企業創造更多的經濟利益。