周全海 王雅冬
摘 要
習近平總書記在中央黨的群團工作會議上寄望,“工青婦等群團組織要下大氣力開展網上工作,亮出群團組織的旗幟,發出我們的聲音,讓群眾能在網上找到自己的組織,參加組織的活動。”網上科技工作者之家融合科協系統資源,著眼科技工作者的實際需求,助推廣大科技工作者在經濟建設和社會發展中發揮重要作用。
關鍵詞
網上科技工作者之家;平臺;建設;服務
中圖分類號: F273.1 ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.16.001
隨著互聯網的普及和快速發展,科技工作者“倒逼”科協工作方式改變的趨勢已越來越明顯,同時也對科協工作提出了新的要求。建設科技工作者之家有利于精準挖掘智庫建設、學術交流、對外聯系、科學普及方面的潛在價值,人才服務、創新創業等方面的信息資源,進一步密切與有關部門和地方的聯合協同,引導服務資源下沉和精準落地。
1 前車可鑒:建設網上科技工作者之家存在的問題
1)現有平臺專業性不強,服務內容單一。很多網上平臺內容過于泛泛,沒有科技特色,對各領域各層次,特別是高端學者和學術帶頭人等科技人員吸引力不強,科技工作者沒有“家”的歸屬感。
2)用戶缺乏交互,傳達信息能力欠缺。缺乏活躍的在線交互是平臺最突出的問題,包括日常交互量低,交互頻率低,交互間隔長,溝通內容廣泛不集中等。很多平臺宣傳不到位,不為人知,“家”徒有空殼而無實質,這種情況出現的根本原因仍是平臺無法提供準確有效的服務,用戶感興趣的內容缺失,“家”無法發展壯大,“家人”沒有交流的欲望,達不到及時傳遞和溝通信息的目的,造成平臺資源浪費。
2 著眼當下:讓更多網上資源向科技工作者傾斜
1)建設網上科技工作者之家有助于掌握網絡意識形態工作主動權,引導科技工作者堅定政治立場,緊密團結在黨的周圍。科協是黨領導下團結聯系廣大科技工作者的人民團體,網上科技工作者之家不僅是科技工作者互聯網平臺上的發聲渠道,更是科協引領科技工作者正確輿論導向、價值取向的平臺。打造科技工作者線上興趣圈、行業圈,吸引科技工作者積極參與學術交流、話題討論,拓寬科技工作者科研社交、學術成長、參與社會治理的渠道,團結一心聽黨話、跟黨走,成為服務黨和政府科學決策的堅強后盾。
2)建設網上科技工作者之家是線上聯系服務科技工作者的重要手段。網上科技工作者之家借助信息技術手段精準定位科技工作者,通過提供科技資訊、獎項申報、成果轉化、在線交流等服務,建立具體化、常態化的聯系服務科技工作者的機制,讓科技工作者切實感受到“家”的關懷和溫暖。
3)建設網上科技工作者之家是為科技工作者提供人性化管理服務的基本要求。人性化管理即科協工作更多地圍繞科技工作者的生活、工作習慣展開,使管理更貼近科技工作者個人,從而達到充分挖掘科技工作者潛能的目的。一是滿足科技工作者提高自身素質的需求,為科技工作者提供個性化培訓、科技成果展示轉化的平臺等;二是要廣開言路、發揚民主,暢通交流渠道,讓科技工作者在“家”中暢所欲言,對合理意見認真采納,了解科技工作者真實的想法和意見需求,使科技工作者思想上歸屬于科協,感情上依附于科協。
4)建設網上科技工作者之家是服務提高全民科學素質的重要途徑。科學技術已成為現代生產力發展和經濟增長的第一要素,是推動現代生產力發展中的重要因素和重要力量。科普工作作為科協的重點工作之一,建設網上科技工作者之家有助于統籌科普資源建成科普資源庫,全邊界打通科普專家、活動、場館的資源壁壘,推進科普專家匹配檢索、科普活動效果評估、科普資源互通分享的科普信息化新格局。
3 技術支持:完善數據標準,整合網絡數據資源
通過網絡抓取工具對互聯網中資源進行主動的、有針對性的采集,包括科技新聞、政策數據、人才數據、科研項目數據、智庫成果數據等,實現對科技前沿資訊、政策信息、科技成果等信息的獲取。
3.1 網頁定向爬取
即針對不同的網頁構建不同的網頁爬取模板,可以精準的獲取目標站點的信息,通過構建的模板進行信息匹配,實現主要參數和屬性的抽取。
(1)網頁全量爬取
通過分段抽取的方式,抽取網頁中的title、keywords、Descri ption標簽、文本信息等網頁數據。
(2)模板定制
開發定向爬取的模板,完善定向爬取模板庫,目前涵蓋科技成果類、學術類、專利類、科研類等主流的網站,網站樣式更新后,會及時調整對應模板。
(3)網頁去噪
為提高爬取內容的有效性,需要對網頁進行去噪聲處理,去除網頁周圍的廣告、推薦等無意義的信息。
(4)防封策略
網站為了避免數據被爬取,增加了多種多樣的反爬蟲措施,隨著對爬取IP的查封力度不斷加大,網站主要通過一段時間內的訪問頻率對爬取IP進行識別與認定,故可以通過限定每個IP對同一網頁爬取的頻率規避爬取IP被封的風險。
3.2 文本分析
(1)信息抽取
文本抽取:先對網頁進行去噪處理,再對網頁內容進行分段提取,獲取用戶訪問網頁的內容。
資源獲取:對權威網站進行爬取時多采用配置模版的方式,實現對應資源的主要屬性和參數的抽取,一般每個資源配置一種模版,將對應信息形成資源標簽體系,以便在網頁解析時了解用戶的興趣點。
(2)文本處理
采用自然語言處理技術(NLP),通過中文分詞對爬取的網頁內容進行切分,運用機器學習算法和上下文關聯實現新詞發現,統計通過分詞匹配產生詞庫數據的頻率。
3.3 分類存儲
匹配分詞:采用以內容標簽為基礎的分詞庫對網頁采集內容進行文本分詞處理,在此基礎上確定網頁內容的語意方向。
分詞保存:通過URL對應網頁的爬取、信息抽取、分類后形成URL分類實例進行保存。
3.4 網頁內容分析
(1)內容識別
通過對URL的構成規則及URL所承載的頁面內容的解析,實現對用戶訪問的URL按照內容信息及網站頻道進行分類定義。
規則分類:通過構建規則定義URL的分類依據,繼而通過用戶訪問的URL識別用戶流向,得到網站名稱、網站分類、頻道名稱、內容分類,實現對用戶訪問的URL按照內容信息及網站頻道進行有效分類。
實例分類:通過實例庫對網頁內容分類進行定義,識別頁面上用戶關注的內容。通過實例庫,得到用戶訪問頁面的標簽。
實例庫更新:通過網頁解析模版獲取URL分類信息,將信息更新至實例庫,用于網頁內容識別。更新模塊對爬蟲程序輸出的爬取結果清單進行自動掃描,若清單中所有條目的Json字段非空,則批量更新至URL實例庫。
4 未來可期:打造具有科協特色的智慧網絡服務平臺
(1)加強用戶聯系,建設智能交互社區。構建社區生態,增加用戶黏性,避免成為缺乏聯系的信息“孤島”。設計開發WAP版網上科技工作者之家、微信公眾號等,為用戶提供功能完整、交互便捷的移動端服務,實現消息提醒、移動辦公、業務辦理、移動科普等功能,滿足移動端的使用需求,讓科協服務“送到指尖”。突出便捷性,在保證安全性的同時,簡化使用程序,做到“即注即用”,避免過于繁瑣的程序削減科技工作者的交流欲望。PC端和移動端雙向同步聯動,使瀏覽、查詢、聊天等功能實現實時數據互通,形成PC端和移動端用戶聯動、線上交流與線下活動聯動的多渠道、立體式科協網絡,全方位覆蓋用戶群。對每位用戶創建個人展示頁面,用戶可發布個人動態、時評、研究成果等,引入評論、轉發、點贊等功能并擇優抓取到主頁,增強用戶的互動性和展示欲望。
(2)突出科協特色,開發興趣板塊。集成當今流行的應用和互動方式,形成圖、文、長短視頻、直播等多維度信息發布平臺。開設基層科普知識、科技政策解讀、學術講座視頻、專家互動交流等創意版塊,滿足各層次科技工作者的興趣點,實現專家與基層科技工作者之間的對話交流。
(3)整合企業資源,開拓科技成果轉化路徑。以網上科技工作者之家為依托,使企業與科技工作者之間產生直接聯系,使科技工作者針對市場需求進行科學研究,提高科研成果的轉化率利用率。協調高端科技人才在網上直接與企業對接,降低交流成本,通過提供科技咨詢服務、專業技術指導等方式,引導科研人員服務經濟社會發展,開拓服務科技成果轉化線上路徑。匯編最新科技成果推薦給相關領域企業,方便企業掌握一手資訊,有針對性的邀請專家合作。
(4)利用大數據技術,為科學決策提供支撐。利用網上科技工作者之家搜集的科研成果數據、發明專利、研究論文等資源,分析科技事件發展的脈絡,對未來科技趨勢進行分析預測。通過網頁抓取、文本分析、網頁分類保存、網頁內容分析4個過程,整合網絡數據資源,包括科技新聞、政策數據、人才數據、科研項目數據、智庫成果數據等,生成數據分析報告,提供給有需要的企業和科技工作者。繪制精準表述科技工作者特點的畫像,定向推送訊息,聯結科技工作者之間的“關系網”,實現“量體裁衣”式服務。