閔天媛
摘 要:計算機信息處理技術是對數據進行采集、檢測、加工、存儲的一項技術。在大數據的背景下,該項技術面臨著海量數據的處理需求,需要其具備功能強大的數據采集功能,可實現對頁面資源的檢測、分析,并提取出有價值的數據,以及強大的數據存儲功能,將采集到的數據,經過計算機信息處理后,可以安全、完整的存儲至服務器中,以為數據的利用提供方便。
關鍵詞:大數據;計算機;信息處理;數據存儲
社會在生產和運行過程中,會形成大量的數據信息,人們通過使用計算機信息處理技術,將這些信息集中存儲,形成數量龐大的數據信息,然后分析這些數據之間的邏輯關系,挖掘數據中的價值,最后形成具有使用價值的一系列數據和信息,以實現數據的利用價值。
1.大數據背景下計算機信息處理技術的特點
1.1數據量大
就目前互聯網和移動網絡的發展形勢來看,網絡中的數據可以用海量來形容,人們將網絡作為獲取和傳遞信息的主要渠道,而且網絡本身具有開放性和包容性的特點,數據信息一旦上傳至網絡,如果沒有人為刪除,則會一直留存在網絡中,致使網絡中的數據量呈現出爆炸式的增長,進而需要計算機信息處理技術的快速發展,以高效化的處理好這些數量龐大的數據,這也為大數據的利用提供了條件。
1.2多元化與共享化
網絡中的數據來源非常廣泛,數據信息種類繁雜,而且人們通過計算機使用網絡,會上傳各種類型的數據信息,進而形成了多元化的數據。此外,網絡中數據的共享程度較高,人們通過數據信息的分享,獲取了更多的有效信息,并可通過關聯分析,獲取數據之間的內在聯系,進而促進了整個社會的信息化發展。
1.3數據處理效率高
目前,計算機信息處理技術發展程度較高,其可處理海量的數據,并可從其中挖掘出有價值的信息,該項技術在大數據處理中的應用,展現出數據高速處理的優越性,使得數據得到了進一步的分析,進而實現數據分析結果的預測性作用,計算機分析的數據量越大,分析結果的使用價值也就越高,使得大數據成為社會發展中的重要組成元素。
2.大數據背景下計算機信息處理技術的運用
2.1信息采集
信息采集是數據應用的前提,搜索引擎是該項技術應用的典型代表,我國搜索引擎主要有百度、搜狗、360等,這些搜索引擎的功能非常強大,用戶只要輸入關鍵詞,就可進行網頁、新聞、圖像、視頻等信息的搜索,關鍵詞匹配度非常高,用戶可在其提供的頁面上找到自己需要的內容。但是網絡數據量增速過快,搜索引擎在信息搜索上也呈現出了一定的不足,需要研發出性能更加優越的信息采集技術,對網絡中的資源進行全面的覆蓋,抓取到更具利用價值的數據信息。搜索引擎的信息采集功能,可以對采集的信息進行預處理,分辨真假,并過濾其中的無效信息,以確保信息采集的質量。
在大數據的背景下,其與信息采集技術的融合,可構建模塊化的信息采集框架。第一,頁面檢測,其主要是對網頁頁面信息的檢測,遵循相關協議的要求,檢測頁面上的各項信息,并分析這些信息的價值,對于有價值的信息進行預處理,最終完成頁面信息的采集工作;第二,頁面分析,會針對一個URL中的字段、列表、圖片等進行分析,并解析檢測對象中的超鏈接;第三,信息提取,經過檢測和分析判斷,確定頁面信息具有采集價值后,對頁面中的各項信息進行實時提取;第四,內容提取,在確定提取信息的URL地址后,數據庫可實現URL頁面內容的提取,并過濾掉無效數據,然后更新數據庫中的內容;第五,鏈接解析,其主要是對頁面中的關鍵詞和摘要進行收集、分析、處理,從而將頁面上的內容轉化為文本信息;第六,內容過濾,不是所有的數據信息都有利用價值,需采用此項功能將無用信息過濾掉,以保證采集信息的質量。
2.2信息存儲
計算機與網絡技術的發展,使數據量持續的增長,對信息存儲技術提出了更高的要求,傳統的存儲方式已經無法滿足大數據時代的數據存儲需求,雖然傳統的DAS、NAS、SAN等技術,可為用戶提供高質量的存儲服務,但是這些存儲技術的擴展性不好,維護難度較大,無論是存儲容量還是性能都與大數時代需求不符,因此需要打造海量數據存儲系統架構,以提升信息處理的質量。
第一,RAID5,其存儲性能非常優越,也是運用較多的信息存儲方案,擁有奇偶校驗信息,并且是多個數據對應一個奇偶校驗信息,磁盤利用率較高,降低了存儲成本;第二,WAS,其被分為三個層次,一是Stream層,屬于文件管理層;二是Front-End層,具有讀取文件位置的功能,將多個服務器中存儲的信息劃分成表,由Front-End層通過劃分表確定文件存儲的位置;三是Partition層,其屬于上面兩個層的中間層,對Stream層數據進行解析,并進行緩存處理;第三,HDFS,其是分布式文件系統,有著高容錯性的特點,可用于性能較低的硬件上,實際應用中數據的吞吐量較高,可進行較大的文件操作。
2.3信息安全
計算機處于互聯網之中,其信息安全性受到網絡不安全因素的威脅,需要在運用信息處理技術時,做好網絡安全工作。第一,物理安全,用戶在應用計算機時,需經過系統身份驗證后,才可登陸操作系統,還需專門建立網絡安全管理制度,以保證計算機中信息的安全性;第二,訪問控制,針對訪問用戶,可采取用戶口令、人臉識別、指紋識別、用戶賬戶等多種訪問控制方法,對訪問用戶進行限制,以避免信息遭到破壞。目前,信息安全技術種類較多,像防火墻、入侵檢測技術、數字簽名技術等,都可形成對計算機信息的保護作用。
結語:在大數據的背景下,需要與之相匹配的計算機信息處理技術,可從海量的數據中,采集到有價值的數據,并將這些數據過濾、加工之后,運用信息存儲技術,將這些數據按照要求進行妥善的保管,以為數據的利用做好準備。當下,基于大數據的計算機信息處理技術發展逐步成熟,在各行各業得到了廣泛的應用,為人們提供完善的信息處理技術服務。
參考文獻:
[1]方鵬.大數據時代背景下計算機信息處理技術的探討[J].信息系統工程,2020,320(8):126-127.
[2]郭偉.大數據時代的計算機信息處理技術[J].電子元器件與信息技術,2020,33(3):86-87.
[3]呂晉俐.大數據時代背景下計算機信息處理技術的分析[J].信息與電腦(理論版),2017,380(10):179-180.
[4]張文娟,孫丹.大數據時代背景下計算機信息處理技術分析[J].科技資訊,2017,36(v.15;No.501):208-209.
[5]牛愛民.大數據背景下計算機信息處理技術的缺陷及優化[J].數字技術與應用,2017(11):242+244.
(黑龍江省北安市計劃生育宣傳指導站,黑龍江 北安 164000)