楊心博
摘 要:在全網頁搜索的強大技術支撐下,眾多互聯網企業推出了一系列優質互聯網產品。這些不同形態不同數據所組成的產品,對于數據的需求也是差異非常大的。獲得這些數據可以開展很多方面的工作,通過對這些數據進行分析來總結出大量的算法策略,可以更加快速的提升搜索引擎搜索質量,但是這種方式會需要大量的數據樣本量,由于內部人力有限且成本控制不下來,無法滿足這些數據的需求。
關鍵詞:搜索引擎;數據管理;系統測試
1 關鍵業務流程梳理
人民搜索數據管理業務主要是圍繞著搜索數據展開的,從數據需求的產生,到數據分析任務創建,到數據抓取、解析、存儲和分析,再到任務驗收,最終到數據產出結算。中間會涉及到對分析人員的管理、權限管理等與業務結合很緊密的基礎管理工作。主要的業務流程分為兩塊:數據分析任務管理以及數據分析任務驗收結算管理。下面是這兩塊的業務流程詳細介紹。
(1)數據分析任務管理業務流程。
數據分析任務管理業務流程主要進行的工作是制定數據分析任務計劃、創建數據分析任務、數據抓取、數據處理、以及數據分配和分析人員進行數據分析。部門經理的職責:對相應的計劃進行審批,進行相應的把關。內部管理員的工作職責:首先內部管理員需要確定對哪些類型的主題數據進行分析,對數據分析任務匯總編制相應的數據分析任務計劃,把相應的計劃報部門經理進行審批,如果審核不通過,則需要重新對數據任務計劃進行編制,直到通過為止。任務創建好后,提交到服務器中,服務器按照管理員的要求去進行數據調用或者抓取,若抓取不成功,則提示給管理員重新提交任務進行抓取,若抓取成功,系統根據設定的數據處理規則進行數據預處理,處理完畢后管理員就可以根據數據分析的情況來進行任務分配,將合適的任務分配給相應的分析人員去進行分析。
(2)任務驗收結算管理業務流程。
數據分析任務驗收結算管理業務流程參與者相對比較多,管理員、財務人員以及分析人員都會有比較多的參與。首先分析人員在接收到由管理員發出的分析任務后,開始進行任務分析,分析完成后,提交分析任務,若不成功,則需要去查看是否有遺漏的數據沒有分析到。若提交通過,管理員收到來自分析人員發出的待驗收分析任務,開始進行驗收標準的制定,完成后依據驗收標準要求來抽取相應的任務進行驗收。若驗收通過,則給相應的分析人員發送驗收通過通知單,若沒有通過,則需要分析人員進行返工,值到通過為止。
(3)功能性需求。
功能性需求主要分為:數據分析任務需求、數據抓取需求、任務分析需求、分析人員管理需求、數據驗收需求和結算需求等幾大部分,下面主要以數據分析任務需求、數據抓取需求、數據驗收需求和結算需求來做詳細介紹。
(4)數據分析任務管理。
數據分析任務管理主要的工作是能夠錄入數據分析任務,編制數據分析任務計劃表,提交數據分析任務計劃表給相應的部門經理審批,并反饋審批結果,根據通過的審批結果創建數據分析任務,并提交抓取。
2 數據分析任務計劃管理
數據分析任務計劃管理主要的工作是滿足管理員錄入數據需求分析任務計劃、制定數據分析任務計劃,提交給相應的部門經理審批。錄入數據分析任務計劃:數據分析任務計劃名稱、數據量、數據截止時間、具體要求、錄入時間、錄入人信息。制定數據分析任務計劃:匯總數據分析任務數據數量、任務類別、編制人信息、編制時間、計劃審核狀態。
(1)數據分析任務管理。
數據分析任務管理管理主要的工作是根據審批過的數據分析任務計劃,創建數據分析任務,并提交服務器抓取相應任務的數據,對數據分析人物進行分配,最后進行數據分析任務進度管理。創建數據分析任務:數據分析任務名稱、創建時間、截止時間、創建人、主題規范、分析規則。
(2)分析規范管理。
分析規范管理是對數據分析進行的一個詳細說明,在用戶進行數據分析的時候,能夠看到應該怎樣分析。主要包括的內容包含分析規范名稱、規范說明、規范詳細內容、創建人和創建時間。
(3)任務驗收管理。
分析人員在完成分析任務后,需要由任務創建者來對其結果進行驗收,保證數據產出的質量。驗收需要有驗收的標準,需要能夠在系統中完成,同時驗收一般都是抽樣處理,需要有一個抽樣驗收的功能,驗收完成后將驗收報告發給相應的分析人員。收管理。詳細的需求如下:
a.驗收標準管理驗收標準在管理員開啟驗收任務之前給予提示,驗收標準主要是一個文字說明,在制定驗收標準時,能夠將之前數據需求的主體規范、分析規則展現出來,供新建驗收標準使用。
b.任務驗收管理驗收標準制定完成后就可以開始任務驗收了,任務驗收需要能夠輸入抽取數據的比例,并按照數據樣本量的情況分層均勻抽取,抽取完成后創建一個任務驗收表,管理員可以在任務驗收表中進行數據驗收。
(4)結算管理。
在驗收完成后,需要對數據分析人員進行結算,同時需要能夠在系統中編制報表和對賬單,對支出以及任務的總體情況進行管理,主要的負責人為財務人員,這一塊主要的需求點為:對賬單管理、付款管理、報表管理。
a.付款管理:財務人員根據之前收到的任務驗收報告,并查看相應的合同規定,來編制付款單。所以需要能夠在系統中編制付款單,包括付款單號、編制人、編制時間、付款明細、收款人、驗收報告編號等,編制完成后可以講此提交給財務主管處審核,完成后進行付款操作,將付款單發送一份給數據分析人員和管理員。
b.對賬單管理:對賬單管理主要是將單個的數據分析人員每月任務完成情況和付款情況匯總后生成的一個單據。需要能夠在線編制完成,完成后確認就可以直接發放給相應的分析用戶。
(5)非功能性需求。
人民搜索數據管理系統是一個整個內部各類數據及處理的系統,會涉及到調用各類數據,抓取、解析、存儲、展現等,同時由于搜索引擎內部的策略比較多,對數據的依賴度比較大,因而使用頻率數據并發處理等方面要求都比較高。
3 總結
本文主要描述了人民搜索數據管理系統需要達到的技術指標和預期,將整個系統的需求、各個模塊的流程和用例、以及系統在安全性等非功能性需求方面進行相近的闡述,對后面做詳細的系統設計作支撐。
參考文獻:
[1]施佺,王恒山,肖仰華,丁衛平.面向主題的垂直搜索引擎系統的研究與實現[J],微電子學與計算機, 201107.
[2]張敏.基于WEB的學科資源垂直搜索引擎的設計與實現[J],華中師范大學, 2012.