郭春霞
(濱州學院圖書館,山東濱州256600)
大數據環境下微信公眾平臺非結構化數據融合研究
郭春霞
(濱州學院圖書館,山東濱州256600)
〔摘 要〕微信公眾平臺具有開源、發布及時的特點,目前它已經成為各機構發布信息的重要渠道。但這類數據又具有非結構化、無語義描述的特點,如何將微信公眾平臺從非結構化數據轉化為可分析、判斷的結構化數據,成為一個亟須解決的問題。針對該問題,本文提出一個對微信公眾平臺結構化數據監測的層次體系。這一方法將通過數據融合方式,從平臺資源中抽取數據,構建結構化數據庫,進行權重比較,判斷情報價值,進而實現對研究領域的態勢監測。
〔關鍵詞〕微信公眾平臺;非結構化數據;同型異源數據;異型異源數據;同型同源數據;數據融合;態勢監測
由于手機終端設備越來越智能化,3G手機、4G手機以及WiFi的普及為網民提供了更為優質的上網環境,微信成為人們交流和傳播信息最廣泛的平臺。2015年2月3日CNNIC(中國互聯網絡信息中心)發布的第35次《中國互聯網絡發展狀況統計報告》顯示,截至2014年12月,我國手機網民規模達6.49億人,手機網民為5.57億人,手機即時通信使用率為91.2%[1]。2011年1月21日,騰訊公司推出微信,支持發送語音輸入、小視頻、實時對講機、圖片和文字等功能,適合大部分智能手機,截至2014年7月,已有超過3億人使用。手機微信成為一個生活方式[2]。
2012年8月,騰訊公司推出致力于為機構或個人提供服務拓展、品牌推廣渠道的微信公眾平臺,其核心理念為“再小的個體,也有自己的品牌”[3]。公眾平臺從推出至今,通過不斷豐富、完善自身的功能,用戶遍布社會知名人士、商業團體、企事業單位、政府機構等眾多領域。每個公眾平臺都有所屬組織機構發布的重要信息,在這里人們可以更快、更便捷地了解相關機構的動態和活動。如《圖書情報工作》期刊截至2015年3月23日,在CNKI中僅列出2015年第3期的全文,沒有第4期的任何信息,但卻能從其微信公眾平臺上看到2015年第4期的期刊目錄。
微信公眾平臺已經成為移動設備中開源情報重要的獲取源之一。這些信息大部分是一種非結構化、無語義描述的信息。他們的結構不同、內容不同、布局不同,這使得從微信公眾平臺獲取數據帶來難度。如何實現將微信公眾平臺非結構化的、自由的信息轉化為可計算的、結構化的數據,成為開源情報獲取的一個重要問題。
針對上述問題,筆者提出了一個針對微信公眾平臺結構化監測的層次體系,并基于這一思路設計了一個技術框架。
隨著移動互聯網、物聯網和云計算技術的迅速發展,大數據時代已經來臨[4]。非結構化數據成為科研的重點對象。微信公眾平臺是一個多種信息資源交互的平臺,數據呈現多重格式,如視頻、音頻、圖像、文檔等,這些數據格式呈現明顯的異構性,有結構化數據、半結構化數據,還有非結構化的數據[5]。筆者將微信公眾平臺的非結構化數據源劃分為3種類型,即同型異源數據、異型異源數據、同型同源數據(見圖1)。

圖1 微信公眾平臺非結構化數據數據源類型劃分
1.1同型異源數據
不同微信公眾平臺相同類型的數據,為同型異源數據。不同的站點有著不同的信息收集渠道、加工體系和標準,不同站點的信息發布模式均不相同。不同的微信平臺,發布同一條信息,即使發布數據類型相同,其發布的具體內容、闡述重點也不盡相同,如果利用惟一數據源進行信息分析,獲得結論可能會缺乏全面性,故應將多種數據整合在一起,進行融合分析。
1.2異型異源數據
在不同的微信公眾平臺上,由于數據不同,就會導致不同的數據呈現形式。同一信息,可以以視頻、HTML頁面、PDF、Word等形式呈現,但表達的內容大致相同,如果對數據進行監測研究,僅對其單一類型進行分析,顯然會導致數據分析結果不全面。我們將這些呈現同一信息的數據源進行采集,對其進行各種分析、融合,這樣更能得出某信息研究的整體情況。
1.3同型同源數據
同一微信公眾平臺,數據類型雖然有不同的呈現形式,但總有些內容不同、文獻類型相同的信息資源,這些信息資源構成了每個公眾平臺的主體,是整個信息平臺存在的基礎。信息源發布方,可根據訪問者的檢索歷史、瀏覽歷史、近期關注的各種數據進行統計整合,判斷用戶的需求和興趣點,從而為機構的項目發展或者戰略計劃的調整提供參考依據。
通過對微信公眾平臺的非結構化數據源數據類型劃分可以看出,如果想將這些不同類型、不同內容的數據進行整合、判斷、研究,需要對這些數據進行監測。
2.1微信公眾平臺數據監測思路
機構在微信公眾平臺發布同類信息時,經常會體現出不同的側重點。這些側重點便是公眾平臺所闡述的主體內容,而側重點之間的關聯揭示出這一平臺中其他要點的骨干結構,從而體現出這個平臺對于該領域研究人員的意義所在。本文將這些反應平臺信息的側重點稱為內容監測對象,將側重點之間的各種關系稱為對象關系。
將非結構化的數據轉化為結構化的監測數據,主要思路就是資源的整合和共享。具體操作起來就是從特定平臺采集到的信息資源中,提取對該平臺有價值的內容作為監測對象:如調研數據、企業規劃、項目成果、科研指標等,并通過語法分析、共現分析、語義計算等方法,構建監測層次體系,實現對某研究領域熱點的監測與分析。
簡而言之,對于每一條從微信公眾平臺上采集到的數據,利用監測系統,通過關鍵詞抓取技術,從中抓取嵌在其中的數據對象以及數據對象之間的相互關系。如“2014年度‘復印報刊資料’轉載學術論文指數排行榜及重要轉載來源期刊發布”這一題名,通過內容監測對象抽取,系統將識別出“2014年”“復印報刊資料”“學術論文指數”,形成了“時間——對象——對象”的結構。通過對數據監測對象關鍵詞的抓取,可以實現數據從非結構化向可計算的結構化轉換。結合實際需要,研究人員可以利用轉換后的結構化數據,實現對監測目標對象進行跟蹤和識別、熱點內容關注、特定情報價值的判斷和提取等功能,從而幫助圖書情報人員實現相關領域的態勢捕捉、跟蹤、分析和可視化表述。
2.2微信平臺結構化監測層次體系
通過上述分析,可細化為一個結構化監測的層次體系(如圖2所示)。這一平臺重點完成結構化監測的4項任務,即確定監測源、多源信息采集、多源數據融合以及價值體現。
2.2.1確定監測源
確定監測源是指確定需要監測的領域、站點以及站點之下的目錄。對于微信公眾平臺來講,把需監測相關機構的數據納入目標監測范圍,對其進行監測跟蹤。
2.2.2多源數據采集
多源數據采集是指利用多種分布式網絡定向采集器定期向目標站點進行采集和收割。將不同呈現形式的數據(如視頻、音頻、圖片、文檔等)采集到語義庫。
2.2.3多源數據融合
多源數據融合是指把通過不同收集渠道、加工體系和采集模式獲取的具有不同數據結構的信息進行整合,形成格式統一、應用廣泛的數據集合。這一過程稱為多源數據融合[6]。把這些數據融合匯聚在一起進行相關性分析,可以更全面、更透徹地揭示事物聯系,尋找新的模式和關系,從而為市場研發、商業模式創新、競爭機會選擇提供有力的數據支撐與決策參考。
2.2.4價值體現
經過對數據進行整合分析,可提供熱點跟蹤、態勢分析、重要情報揭示等服務。

圖2 微信公眾平臺結構化監測層次體系
微信公眾平臺的監測,一般需要回答3個方面的問題:確定開源情報需關注的領域(包括這一領域的重要機構、人物、項目、計劃、戰略等),通過監測,所獲取的信息資源中是否有需關注內容?如何從眾多信息資源中整合出重點情報,進行結構化數據轉換?對獲得的情報內容如何梳理,判斷是否有今后的關注點。
圍繞這3個問題,筆者基于將非結構化數據轉化為結構化數據的融合思路,按照字段映射、字段拆分、數據記錄慮重、異構數據加權的要求[7],設計出上述3個問題的解決方案。構建監測本體指導目標內容監測;基于內容之間的相互關系,利用字段拆分、映射、慮重,實現數據從非結構化到結構化的轉化;對整合之后的結構化數據進行加權分析、價值判斷,對于有價值的數據進行分析。
3.1構建監測本體,指導目標源監測
監測目標是監測研究團隊希望通過對目標的監測,獲得與本領域重大活動相關的內容。由于研究領域各不相同,每個領域可根據自己領域的重要機構來確定自己的監測目標,構建一個自建數據庫,將重要的監測平臺鏈接切換到數據庫中。利用編程程序,在一定的時間內,自動提醒監測團隊對目標內容的跟蹤,使監測目標能夠以結構化表達。
3.2針對個體微信公眾平臺,實現網頁內容結構化表示
確定監測目標之后,明確了監測團隊的監測內容,抽取嵌入其中的監測對象,通過字段映射、拆分、數據慮重的方式,對監測對象進行標注、規范,將自由文本轉換為結構化的、可以計算的數據,實現對微信公眾平臺研究領域的監測。
對于每一條從微信平臺上采集到的數據源(如HTML頁面、聲像文件等),微信公眾監測平臺首先通過信息資源抽取技術,抽取嵌入監測對象中的目標數據,然后將知識對象進行字段映射、拆分。將拆分之后的字段,利用數據慮重功能,將重復數據進行清洗,清洗之后,將最終監測的內容進行標注、規范,形成一個結構化化數據庫。基于這些結構化數據,分析數據對象之間的相互關系,利用可視化分析軟件,實現對目標的對象的識別、跟蹤、熱點監測、價值判斷等功能。微信平臺網頁內容結構化轉化流程,見圖3。

圖3 微信平臺網頁內容結構化轉化流程
3.3結構化數據進行加權分析、價值判斷
不同的數據類型、不同來源的數據,其權重不同,如科研發布的視頻與對該視頻的評價的文檔權重不同,中國科技部發布的數據與地方情報所發布的數據。權重的測算可以通過2種方法。一種是專家法,請幾位該領域的專家,憑借其知識結構與經驗進行判斷,對數據進行打分。不同的專家有不同的認知,致分值不同,故采用平均值,進行排比。另一種我們可以采用實證統計的方法,微信公眾平臺不同于網頁,每條數據都可以統計關注量,可以分享到其他朋友圈,研究人員可根據關注量與分享量進行實證統計排名。通過權重分析,判斷數據的價值,提供態勢分析、重要情報揭示、熱點跟蹤的服務。
微信公眾平臺已經成為戰略情報監測的重要資源之一。筆者提出的微信公眾平臺開源情報的結構化監測的層次體系和簡單的融合方法,將這些非結構化的數據從自由文本轉為結構化、語義化的情報資源,并且利用這些資源實現科技戰略情報的監測和跟蹤。在文中,筆者重點對結構化監測的層次體系、方法技術框架進行了闡述。基于這一思路,相關計算機技術人員,可以開發適用于這一領域的“微信公眾平臺開源情報自動監測系統”,根據監測所得數據,進行從非結構化數據到結構化數據的轉換,實現對監測目標的態勢分析、熱點跟蹤,體現其價值。
參考文獻
[1]中國互聯網絡信息中心(CNNIC).第35次中國互聯網絡發展狀況統計報告[EB/OL].http:∥www.cnnic.net.cn/gywm/xwzx/rdxw/2015/201502/t20150203-51631.htm,2015-03-16.
[2]微信是一個生活方式[EB/OL].http:∥weixin.qq.com/,2015-03-07.
[3]再小的個體,也有自己的品牌[EB/OL].http:∥www.siteinseo.com/www/mp.weixin.qq.com/,2015-03-09.
[4]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報:工學版,2014,48(6):957-952.
[5]李廣建,化柏林.大數據分析與情報分析關系辨析[J].中國圖書館學報,2014,(5):14-22.
[6]張智雄,張曉林,劉建華,等.網絡科技信息結構化監測思路和技術方法實現[J].中國圖書館學報,2014,40(212):4-15.
[7]化柏林.多源信息融合方法研究[J].情報理論與實踐,2013,36,(11):16-19.
(本文責任編輯:郭沫含)
·研究生園地·
·業務研究·
Research on Unstructured Data of WeChat Public Platform on Large Data Environment
Guo Chunxia
(Library,Binzhou University,Binzhou 256600,China)
〔Abstract〕Micro letter public platform has the characteristics of open source and timely release,which has become a important information channel of different institutions.But this kind of data is unstructured and without semantic description.How to change the data from unstructured to analyzed and judged has become an urgent problem.To soleve this problem,the paper proposed a hierarchical reflects of the micro-channel public platform data monitoring.This approach would use data fusion methods,extract data from the platform resources,build a structured database,compare them,judge the value of the information and realize the situation monitoring of research field.
〔Key words〕WeChat public platform;unstructured data;data fusion;situation monitoring
作者簡介:郭春霞(1978-),女,館員,碩士,研究方向:信息分析、文獻計量,發表論文8篇。
收稿日期:2015-04-22
〔中圖分類號〕G250.73
〔文獻標識碼〕A
〔文章編號〕1008-0821(2015)08-0141-03
DOI:10.3969/j.issn.1008-0821.2015.08.027