姚俊萍,李曉軍,李新社,封富君
(火箭軍工程大學 初級指揮學院,陜西 西安 714300)
一種面向WEB大數據環境下的信息可信度分析與評估
姚俊萍,李曉軍,李新社,封富君
(火箭軍工程大學 初級指揮學院,陜西 西安 714300)
在大數據時代,信息數量的快速增長造成了大量雷同、虛假信息的存在,導致了有效信息選取的困難。針對這個問題,本文研究了信息可信度的評價標準,并以實例的形式進行了可信度的定性和定量分析。本文是針對情報研究學科的需求而進行的初步探索。
WEB;大數據;數據挖掘;信息可信度
在大數據時代,隨著知識經濟主導地位的形成,云計算、物聯網和移動互聯網等技術的快速發展,信息數量成冪級增長趨勢。互聯網中的每個個體無時無刻不在產生數據,這就造成了信息數量大、質量差、信息價值低等問題。對于在數據分析工作中扮演重要角色的情報研究工作,“信息超載”是需要面臨的一大考驗。大量信息的快速出現使情報研究機構所面對的信息遠遠超出其信息分析處理的能力。并且相對的信息過剩導致有效信息被大量的過剩信息所覆蓋,使得情報研究人員在大量信息面前產生低分析決策能力和無形的壓迫感,反而降低了工作效率和有效信息使用率。信息可信度分析與評估技術方法的研究可以幫助情報研究人員在大量數據中快速準確地根據需要進行信息的篩選過濾,從而提高信息真偽和質量的甄別能力,提高有效獲取信息的能力,提高研究結果的可靠性和準確度。如何從海量多樣的數據中快速準確篩選出符合預期的信息,將是科技情報工作面臨的一個重大問題,本文是針對情報研究學科的需求而進行的初步探索。
1.1 信息可信度的概念
信息可信度的概念,來源于大眾傳播研究領域,一般認為是信息或者信息源被信任的程度。也可以解釋為信息的接受者所感受到信息發布者或者是傳播介質的一種品質,通常的理解就是不管所傳播的內容是什么而可以讓接受者無可爭論地接受并且信賴[1]。所以,信息可信度也可以叫做可信度感知或評價。
1.2 國內外研究現狀
對于信息可信度評價與測量的研究已經引起了國內外學者的關注,但至今沒有取得一致性的結論[2-4]。大多偏重于評價的方法和評價的指標體系上,缺少對網絡信息可信度評價方面的研究。鐘誠[5]等提出一種基于語義環境中的信息可信度計算方法,從信息所含內容本身的可信度和發布信息節點的可信度兩個方面來計算信息可信度;朱寧[4]等探討了用戶對網絡學術信息的可信度感知和有效獲取,從相關性、客觀性、準確性、權威性、時效性和可證實性等六個方面進行了定性和定量分析。
通過查閱資料發現[1]-[12],如何改進信息發布或者傳遞者的特征以影響信息接受者的態度轉變是關于可信度最早的研究。早在1953年美國的實驗心理學家與傳播研究的杰出人物霍夫蘭(C.I. Hovland)和學者韋斯(W. Kelley)在探究可信度這個概念時,他們考慮到了各種因素,最終認為可信度應該具有兩種最關鍵最不可或缺的因素,那就是專業(expertise)和可信賴(trustworthiness)這兩種因素。作為實驗心理學家他們曾經設計實施了一項實驗,將內容相同的信息,由不同的人將消息告訴給給一部分人,這一部分人認為這些信息的可信度是高的,再由另外一部分人告訴另外一些人,這一些人則認為這一消息是不太可信的,也就是消息的可信度較低。最后在研究時發現,得知信息高可信度的人的態度發生了較大的改變。很多學者認為信息的可信度是信息傳播者所能讓手中不感受到信息源或傳播介質的品質,就是不論傳播內容是什么,接受者都能毫無條件的去信任。我們也可以理解為信源的權威性,權威高則值得讓人信賴,如果一個信源的發布讓公眾十分相信,沒有偏差并且長期值得信賴,那我們就可以認為信源是可信的。
在借鑒國內外相關領域的研究成果和總結了情報研究領域對信息可信度評估的特殊要求后[2-4],本文定義了三個評價標準:時間、信源以及標題。
為了便于研究,我們以案例分析的形式進行一次信息可信度的分析,給定一個主題“網傳288所本科高校將轉為職業技術學院”,應用網絡爬蟲在相關網頁抓取數據。有一個定義:“網頁上如果存在多條結構相同的信息,我們就可以把一條具有類似的結構信息定義為樣例”。同理可知多條結構化信息就是多樣例。本文計劃抓取到所有有關這個內容的信息,就是所有網頁上的結構化的信息。主題所涉及的內容較多,涉及的格式較廣,如果單一地采用單點數據采集,工作量太大,所以本文主要采用批量翻頁數據采集。
2.1 數據的整理和分類
數據的整理分類是數據分析的前期工作,具有重要的意義和作用。數據有兩種類型,一種叫連續型變量,例如人的身高、體重等;還有一種叫離散型變量,這種數據類別互不相容是其最大的特點,比如性別、血型,本文研究中所用到的是后者。為了便于后期的數據分析和結果研究,以750條數據為樣本對數據進行一個合理的分類。
時間標準時就把時間格式轉為“長時間格式”,例如2010年2月14日就表示成20100214的形式。因為數據存在于 Excel表格當中,可以利用表格對數字的排序功能進行排序,把數字也就是時間做升序處理,這樣在后期對時間進行指標評價的時候就方便了;信源信息的處理,因為信源是文字信息,所以這次的工作就是先將每個信息的出處都標記出來,把出處相同的信息放在一起,這樣對同一出處的信息就可以用同一標準去評價;關鍵詞的處理是首先確定了幾個關鍵詞,對每條所抓信取息中包含的關鍵詞個數進行統計,把他們列在 Excel中,也做升序處理以便于處理;最難的一部分就是字符數的統計,由于逐條去數的工作量太大,于是就想編程序去完成字數的統計,最終利用Matlab軟件實現了這一工作,統計出字數后,也在表格中做了排序處理。
這是統計字數的程序:
clc
clear
%% 導入數據
[~, ~, raw] = xlsread('C:UsersLouDesktopwcn分析.xlsx','分析','B2:B752');
raw(cellfun(@(x) ~isempty(x) && isnumeric(x)&& isnan(x),raw)) = {''};
cellVectors = raw(:,1);
%% 將導入的數組分配給列變量名稱
W = cellVectors(:,1);
%% 清除臨時變量
clearvars raw cellVectors;
num = cellfun('length',W);
xlswrite('result',num);
2.2 信息可信度的定性與定量分析
本文計劃建立的評價模型是想通過數學的篩選和科學評價指標的優長,并且克服了兩者的局限。計劃這種模型的功能是能夠系統地評價多種定量及定性因素決定的信息可信度。
在這次大數據信息可信度模型建立上,信源標準是第一位的。本次抓取的數據是在百度引擎中得到的,來源廣,所以我們根據不同的信源給信息一個評價的標準。將信源網址分為三類,第一知名度高權威性高的(如人民網、央視網、中國教育網,新華網以及地方的教育部門官網等);第二是知名度高但權威性一般的網站(如百度、新浪、搜狐、騰訊、搜狐等);第三種是知名度低并且權威性也不高的網站(個人網頁的轉發、一些推廣的廣告網頁)。我們將來自這三種網頁信源的信息分別記 3分,2分,1分。
信息中包含關鍵詞的個數也是評價信息可信度的另一個標準。基于關鍵詞的信息提取或者說是情報獲取,已經不鮮為人知,斯諾登曝光的棱鏡門中美國政府對民眾通話的竊聽那就是敏感關鍵詞信息,一旦通話中涉及軍事敏感詞匯,或者包含政府感興趣的詞匯就會被重點監聽。在情報的獲取上講關鍵詞是標示某一個信息中的關鍵內容的詞匯。我們抓取的是關于“288所本科高校轉為職業技術學院”的信息,要談可信,至少信息必須是關于我們關注的方面,標準就是包含我們設定的關鍵詞。當然這也存在問題,關鍵詞的設定是根據我們的目的,如果不具有代表性,那么所得到的結果就太片面了。所以基于信息主題,設定了三個關鍵詞“本科”、“轉”、“職業”。評價的指標依然是三類,(1)一個關鍵詞都不包含;(2)含一個或者兩個關鍵詞;(3)包含三個關鍵詞。依次的評分也是1、2、3分。
在信息化和自媒體高度發達的今天,在新聞報道學中,追求新聞的及時性是很關鍵的一個目標,沒有這一特性新聞也就無所謂“新”了。然而在信息的傳遞過程中,在發布的初期可能由于支撐事實的依據不足,發布者也無法及時提供一些證據,這些消息往往會引起人們的熱議,但不能使人充分地相信。但隨著時間的流逝,這些消息的真假往往會浮出水面,發布者的自證、相關部門的出面、以及熱心人的分析,很多的因素足以使普通的受眾辨別信息的真假,基于這一顯示情況,我們也把信息發布的時間作為一項評價的指標,我們認為發布時間越近的信息越是具有可信性。和上面的指標相同,我們把所搜集的信息的發布時間也分為三個階段:(1)2010年至2011年為第一階段;(2)2015年至2016年是第二階段;(3)2017年以后的信息都屬于第三階段。這樣我們按照時間由遠到近將這三個階段依次評為1分、2分、3分。
在網頁上抓取的信息可以算是一條條新聞消息了,既然是新聞,在探討可靠性時自然也不能忽略這些信息的新聞特性。新聞包含的內容一般無外乎于時間、地點、人物、時間及評論或者展望了。除了一般的報道要簡明扼要,其他的關于一些大事件的報道我們還是希望看到更為詳近的描述,因為細節講述越詳細就越能使讀者感興趣或者相信,讀小說或者看電視劇也是這樣,追求所謂身臨其境就是這個意思。那么細節的描述或者展現要把它量化,文字就可以轉化為字符數的多少。
我們利用Matlab軟件進行了一個小編程,實現由程序讀取電子表格中的文字信息,也就是所抓取的內容一列。記出每一個內容的字數,以量化描述的詳細程度,描述詳細的就判高分,反之的內容則認為描述不詳細得低分。(1)低于23字為1分;(2)24到33為2分;(3)34字以上的評為最高分3分。
就是這樣的四個標準或者說條件構成了這個完整的四維的評價模型,為什么在評分時選擇了1,2,3這三個數值,那是因為首先它是連續的,并且這三個分值的差距不大,每一條標準都不是百分之百絕對的,所以分差大了誤差也就大了,這樣就更嚴謹了。此模型的每一個詳細標準都是表程度的邏輯,程度的深淺應當是一個連續的,最后的工作是將四項小的標準的評價得分等權重加和,得出評分較高的信息,再依據現在的已知事實作比較,得出符合事實的有幾條,不符合的有幾條。再回頭看是否這個評價標準成立。如果結果理想就得到了互聯網大數據信息可信度的一個縮影分析。
2.3 單個指標與評價結果的相關性
前期我們利用單個指標對信息的可信度做了評價,最后又做等權重加和。可以看出得分較高的信息,當然我們是事后分析知道這個信息的真假,所以我們要看哪些指標與最后的評價結果最貼近,或者是與真實情況相一致。換種說法就是要探究一下我們所建立的評價指標哪一項與結果相關性最高。利用Matlab軟件不難編程,得到一個四個指標評價結果與等權重加和的結果的一個相關性數據。

圖1 評價結果Fig.1 Evaluation result
clc
clear
A = xlsread('test');
x1_z = min(min(corrcoef(A(:,1),A(:,5))));
x2_z = min(min(corrcoef(A(:,2),A(:,5))));
x3_z = min(min(corrcoef(A(:,3),A(:,5))));
x4_z = min(min(corrcoef(A(:,4),A(:,5))));
x1_z = x1_z/(x1_z + x2_z + x3_z + x4_z);
x2_z = x2_z/(x1_z + x2_z + x3_z + x4_z);
x3_z = x3_z/(x1_z + x2_z + x3_z + x4_z);
x4_z = x4_z/(x1_z + x2_z + x3_z + x4_z);
B = A(:,1)*x1_z + A(:,2)*x2_z + A(:,3)*x3_z +A(:,4)*x4_z;
xlswrite('test2.xls',B)
結果是信源相關的指標得到的結果是 0.6498,時間相關的指標是 0.4302,關鍵詞個數指標是0.5334,字符數相關結果是 0.4108。信源的相關性最高,這說明在所建立的評價標準中,利用信源進行評價是更加客觀的。
為了使整個的過程形成一個閉環,本次探究再將得到的相關性進行一個驗證,對到的“相關系數”做一個歸一化的處理,得到每一個“相關系數”的權重,再與之前的等權重加和進行計算,得到另一個評分。從結果能看出可信度評分有了變化,但是可信度的高低卻沒有很大的變化,只有少數幾個有了幾個順序上的顛倒,但是這對整體的可信度評價并沒有產生太大的影響。
2.4 評價結果的討論
通過數據挖掘,數據分析以及后期的數據相關性的分析驗證,以案例的形式完成了一個完整的互聯網數據信息可信度的分析。當然本次的研究是屬于事后的研究,所分析信息的真假已經清楚。最后的相關性分析結果當然是在已知客觀真假的前提下進行的分析,這樣得出的結論才是真實的。

圖2 相關性驗證Fig.2 Correlation validation
這種分析方法就類似于一場歌唱比賽,組委會請來幾位專家評委為選手打分,當然專家由于個人喜好或者評價的角度不一樣導致評價意見各不相同,每位專家的評價可能與最后總的評價是不一樣的,但是總有一個或者幾個很靠近綜合結果的評價,就是其中一定有相當的“貼近率”,這就是我們在后期的分析中所說的“相關性”。單項的評價標準可能會有偏差,但是當我們找到其中每次都和結果貼近的“專家”時,把他的預期結果作為一個重點關注的對象,那么在以后我們就可以以他的預期來作為判斷的一項重要標準。在這次的探究中我們發現信源標準與最后的結果的“相關性”最高,那么在以后我們判斷互聯網大數據信息的時候就可以看信息的出處是否來自一些權威高,知名度高的網站,當然無論是從數學分析還是從現實來講這都不是絕對的,只是為我們的判斷提供一個側重點。這更加說明,那幾項“相關性”略低的標準就不能作為評價標準只是它的權重可能會輕一些。
通過上述研究可以看出,信息可信度的定性、定量分析中指標的選擇和權重的確定是與不同領域的實際需求相適應的,本文是針對情報研究學科的要求進行的初步探索,在權重計算和可信度評估計算等方面還有待進一步探討研究。
[1] West M. D. Validating a Scale foe the Measurement of Cridibility, A Covariance Structure Modeling Approach.Joumalism Quarterly, 1994, 71(Spring): 68-159.
[2] 陸寶益. 網絡信息資源的評價[J]. 情報學報, 2002(1):71-76.
[3] 鄧云發. 基于可信度的決策信息評價與選擇[J]. 商場現代化, 2009(7): 68-69.
[4] 朱寧, 陳紅勤等. 用戶網絡學術信息資源利用可信度感知的分析與評價[J]. 圖書館, 2010(5): 37-39.
[5] 鐘誠, 趙志峰等. 語義環境中信息可信度計算方法研究.情報理論與實踐. 2012(35): 103-106.
[6] 王琰. 大數據浪潮中交通廣播的生存與發展[J]. 新聞研究導刊, 2016, v. 7; No. 95(11).
[7] 胡文瑞. 步入大數據時代[J]. 中國石油石化, 2013(12):30-30.
[8] 云健, 王春霞. 搜索引擎技術綜述[J]. 河西學院學報,2008, 24(2).
[9] 李敏杰. 基于大數據下的寄遞物流管理信息系統的研究[D]. 南京郵電大學, 2014.
[10] 姜維. 基于網頁更新頻率預測的增量爬蟲研究[D]. 哈爾濱工業大學, 2011.
[11] 羅剛. 自己動手寫爬蟲. 北京: 清華大學出版社, 2010. 10.[12] Wisenut. WiseNut Search Engine white paper[M]. 北京: 中國電力出版社, 2001年.
[13] 馮曉碩. 大數據時代信息可信度分析及可信度評估計算.第27屆信息可信度分析及可信度評估計算. 2015
[14] 李敏. 基于struts2-hibernate-spring的Java Web系統國際化設計與實現[J]. 軟件, 2016(2).LI M. Multi-language System Design and Implementation Based struts2-hibernate-spring[J]. Software, 2016(2).
[15] 次瑞格, 李華, 高靈美. 物業管理系統的開發[J]. 教育教學論壇, 2010, (15): 22.CI R G, LI H, GAO L M. Development of Property Management System[J]. Education Teaching Forum, 2010, (15): 22.
A Kind of Information Credibility Analysis and Evaluation in A WEB Big Data Environment
YAO Jun-ping, LI Xiao-jun, LI Xin-she, FENG Fu-jun
(Rocket Force University of Engineering, Xian 714300, China)
In the big data era, the rapid growth of information caused lots of similar and false information, that resulted the difficulties of the effective information selection. For this, the evaluation standard of information credibility is discussed, information credibility qualitative and quantitative analysis is researched with example. This paper is a preliminary exploration with the need for intelligence research subjects.
: WEB; Big data; Data mining; Information credibility
TP39
A
10.3969/j.issn.1003-6970.2017.10.027
本文著錄格式:姚俊萍,李曉軍,李新社,等. 一種面向 WEB大數據環境下的信息可信度分析與評估[J]. 軟件,2017,38(10):140-143
姚俊萍,女,(1978-),副教授,主要研究方向:信息安全;李曉軍,男,(1980-),博士研究生,主要研究方向:信息安全;李新社,男,(1965-),副教授,主要研究方向:信息安全;封富君,女,(1978-),講師,主要研究方向:信息安全。