姜昊
中國移動通信集團江蘇有限公司 江蘇 南京 210012
隨著我國城市化、工業化進程的發展,道路施工愈發普遍,平均每年影響業務故障上萬次,其中99%以上發生在末梢段落,所有故障中,61%因為市政施工引起,對運營商通信設施穩定運行產生了一定影響,重復故障易對用戶滿意度形成負面影響。主要體現在以下兩個方面:第一,政府臨時通知遷改時間緊迫、難度大:每次施工都是政府召開臨時通知會,給予遷改的時間短,一次遷改無法根本性解決問題,遷改難度大大提升;第二,靠線路巡線員按照傳統的以天/周/月為周期的巡線辦法,巡檢不全面,成本高,無法及時了解到市政施工項目的相關信息,目前江蘇線路代維人均巡線長度達140公里,已遠遠超過能力范圍。
本研究借助爬蟲技術及時獲取全省建設項目立項信息,通過提取其中關鍵的施工道路信息,實時通知線路代維有針對性的現場巡檢,及時設計遷改方案并立項,如:施工項目招標官網發布招標信息,通過爬蟲技術獲取招標的相關信息,經郵件,短信提醒地市管理員和區縣線路代維,及時安排處理現場巡檢勘察,仔細斟酌遷改方案,優化立項成本,從而提升遷改及時率,解決立項時間短,遷改強度大等難題,達到一次性完成遷改,有效降低故障率的同時降低了遷改成本。
互聯網時代網絡快速發展,如何有效地提取并利用高價值信息成為一個巨大的挑戰。傳統方式是利用搜索引擎檢索信息。但是通用性的搜索引擎也存在著一定的局限性,例如通用搜索引擎大多基于關鍵字的檢索,難以支持根據語義信息提取并查詢(例如施工涉及的危險段落、施工的具體時間周期等)。為了解決上述問題,爬蟲應運而生。爬蟲可根據抓取目標,有選擇地對網頁及相關的鏈接進行訪問,獲取所需信息[1]。
網頁的抓取策略可以分為深度優先、廣度優先和最佳優先三種。
方案一廣度優先搜索策略:在抓取過程中分層搜索,當完成當前層次的搜索之后再進行下一層次的搜索。
方案二最佳優先搜索策略:根據網頁分析算法,預測待選URL與目標主題的關聯性,或與目標網頁的相似程度,選擇評價最好的URL進行抓取。
考慮遷改工作有明確的主題相關性,采用方案二最佳有限搜索策略。
市政施工信息獲取采用基于網頁內容的分析算法,利用網頁內容特征進行的網頁評價。網頁內容以超文本和動態頁面數據為主。隨著各類網絡資源形式(如Web、Service、多媒體等)日益豐富,基于網頁內容的分析算法也由原來的單純的文本檢索方法,演進為包括網頁數據提取、數據挖掘、機器學習、語義理解等多種方法的綜合應用。
設計基于模塊requests的爬蟲技術,實時獲得全面的建設施工項目數據。依靠模塊beautiful soup對獲取的信息進行精準提取,并通過郵件發送至線路管理員郵箱,在由管理員通過代維管理系統下發,通知線路代維現場勘察,設計遷改方案,解決問題。
該算法的基本流程如下所示:
第一步:post請求方式:post請求方式中分頁靠入參的改變而改變,對入參進行自增循環而獲取全面的建設施工項目數據。利用lxml通過xpath解析隱藏域。聲明一個字典,存儲獲取的信息,繼續爬取,由于該網站post請求的入參,具有動態變化的特征和反爬功能,采用模擬登陸操作方案,使用selenium進行web自動化操作,通過findxpath路徑的方式實現點擊、下載。不斷循環上述步驟,即可獲取所有建設施工項目明細。
第二步:模塊beautiful soup:采用Beautiful Soup庫,選擇最合適的解析器來解析這段文檔,利用bsobj將文件中的重點信息提取出來作為預警內容。
第三步:預警:預警內容通過利用smtplib模塊郵件發送至線路管理員郵箱里。由管理員通過代維管理系統下發現場巡線工單,現場巡檢核查實情,確定是否需要遷改,最后設計遷改方案,同步安排看護、賠補事宜,完成隱患處理[2]。
以揚州為例,已試點完成武堅-聯合光纜,京滬高速江都段和百祥路北延工程等一系列的遷改項目。以下以揚州為例進行基于爬蟲獲取施工信息及時遷改:
第一步:通過爬蟲獲取揚州一周后的施工立項工程。
第二步:利用smtplib模塊,自動郵件發送至線路管理員郵箱,提取重要信息,如區縣和路段信息、時間計劃等。
第三步,管理員現場核查,派發現場巡線工單。
工單中包含了施工方信息、施工周期要求,由線路代維結合具體情況,制定巡線計劃,對于危險段落制定遷改方案。
該研究方案具有極強的創新新,第一,選擇了多個主流招標網站(如千里馬),資源互補,運行一年以來,涵蓋了95%以上的市政工程招標信息,確保重要市政施工信息無遺漏。第二,每天2次自動循環,不間斷遍歷招標網站,不遺漏任何關鍵施工信息。第三,利用模塊beautiful soup對所需的關鍵信息進行精準提取,新增市政施工信息的抓取、郵件通知管理員,均為PYTHON自動運行,無須人工參與。新增市政施工信息,分鐘級抓取,并按預設郵箱和電話,實時通知各區域線路管理員和代維人員,確保實時響應。第四,該項目符合國家規定的中華人民共和國數據安全法和中華人民共和國網絡安全法,每日運行2次,不會造成DDos網站攻擊以及其他危害網站的網絡攻擊。
該方案部署成本極低,可復制性極強,僅需PC機上部署python和Chrome瀏覽器,采用通用程序,適用于全國光纜維護場景,僅需修改招標網站網址和接口方式,錄入全省線路維護人員郵箱和手機號即可使用。
具體部署步驟如下:
第一步,完成python運行腳本的更改,這里采用的是“千里馬”招標網站,如使用其他招標網站,只需要更換網址即可。各省份的地市可以通過判斷篩選自己當地的施工信息,只需更改成自己本省的相關地區名稱即可,還有線路代維郵箱更改。
第二步,運行環境的搭建,這里只需要搭建python的腳本運行環境PyCharm社區版即可(百度上可免費下載),運行環建的搭建可以裝在普通PC機上。
第三步,該運行腳本采用的是Web Driver模擬登入,這里使用的是Chrome瀏覽器,還需要下載一個驅動器(chromedriver.exe),版本必須和Chrome瀏覽器的版本一致,最后只需將修改后的運行腳本復制到PyCharm社區版里點擊運行即可(File-Open)。
通過爬蟲技術的應用,線路代維人員根據收取的信息有針對性地進行線路巡檢,大大壓降了傳輸末梢光纜故障,影響滿意度的問題,同時解決了以往全面覆蓋性線路巡檢出現的范圍大,人手少等問題,極大地提升了工作效率,節約人力資源;其次,通過爬蟲技術可以實時的獲取全省的建設施工項目招標信息,信息全面無遺漏,及時遷改、賠補,實現高效科學的管理。
該研究高效優化了遷改流程,有利于電信運營商降本增效。通過爬蟲技術,末梢光纜故障大幅降低,網絡質量得到了提升,家寬PON口群障次數從月均526次下降至358次,無線上網質量滿意度領先值由0.93上升至2.73,集客月均投訴量由19次下降至11次。其次,市政施工信息獲取時間,從傳統的平均35天,降低至0.5天,避免了緊急狀態下的臨時遷改,有效減少了二次遷改,全年節省遷改成本2000萬元。最后,施工信息無遺漏,及時與施工單位溝通,賠補金額從2.3億上升至3.6億。