記者:科技工作者在實際工作中是否也可以應用大數據來開展工作呢?具體應該如何應用?
王艷云:前面舉了很多行業的例子,但在具體的應用中科技工作者還是有大量的工作要做,其中我覺得有幾點非常重要。第一是要保證大數據的樣本真實性和數據量足夠。因為這兩點是大數據處理的基礎,沒有真實且達到一定數量的數據,再好的處理能力也不可能得到準確的結論。這就要求我們科技工作者在大數據存儲硬件投入、存儲軟件架構選擇、數據量不足時進行數據交換等方面提前做好投入和規劃,保證時刻擁有真實且數據量足夠的大數據。第二是要選擇合適的大數據處理方式。數據結構有很多種,數據分析的實時性要求、分析結果的精確性要求在各行各業可能都不同,這就要求科技工作者要充分考慮實際需要選擇適合的大數據處理方式,譬如實時性要求高的可能就需要采用STORM架構進行并行處理,體現相互關系的大數據結果可能就需要對非結構化數據進行解析、去重、標記和建模等。第三是要有突破常規的大數據分析思路。在我們的實際工作中,我們發現很多大數據分析結論并不能找到很好的解釋,而更多是反映了一種對應關系,而如果多嘗試不同的分析框架和角度,可能會得到更為精確的結果,所以技術人員并不需要去對每一個結果進行解讀,找出最終的原因,而只需要找到不同結果之間的對應關系,并能針對需要解決的應用找到合適的對應結果即可。