999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下微信公眾平臺非結構化數據融合研究

2015-07-20 09:41:38郭春霞
現代情報 2015年8期
關鍵詞:微信信息

郭春霞

(濱州學院圖書館,山東濱州256600)

大數據環境下微信公眾平臺非結構化數據融合研究

郭春霞

(濱州學院圖書館,山東濱州256600)

〔摘 要〕微信公眾平臺具有開源、發布及時的特點,目前它已經成為各機構發布信息的重要渠道。但這類數據又具有非結構化、無語義描述的特點,如何將微信公眾平臺從非結構化數據轉化為可分析、判斷的結構化數據,成為一個亟須解決的問題。針對該問題,本文提出一個對微信公眾平臺結構化數據監測的層次體系。這一方法將通過數據融合方式,從平臺資源中抽取數據,構建結構化數據庫,進行權重比較,判斷情報價值,進而實現對研究領域的態勢監測。

〔關鍵詞〕微信公眾平臺;非結構化數據;同型異源數據;異型異源數據;同型同源數據;數據融合;態勢監測

由于手機終端設備越來越智能化,3G手機、4G手機以及WiFi的普及為網民提供了更為優質的上網環境,微信成為人們交流和傳播信息最廣泛的平臺。2015年2月3日CNNIC(中國互聯網絡信息中心)發布的第35次《中國互聯網絡發展狀況統計報告》顯示,截至2014年12月,我國手機網民規模達6.49億人,手機網民為5.57億人,手機即時通信使用率為91.2%[1]。2011年1月21日,騰訊公司推出微信,支持發送語音輸入、小視頻、實時對講機、圖片和文字等功能,適合大部分智能手機,截至2014年7月,已有超過3億人使用。手機微信成為一個生活方式[2]。

2012年8月,騰訊公司推出致力于為機構或個人提供服務拓展、品牌推廣渠道的微信公眾平臺,其核心理念為“再小的個體,也有自己的品牌”[3]。公眾平臺從推出至今,通過不斷豐富、完善自身的功能,用戶遍布社會知名人士、商業團體、企事業單位、政府機構等眾多領域。每個公眾平臺都有所屬組織機構發布的重要信息,在這里人們可以更快、更便捷地了解相關機構的動態和活動。如《圖書情報工作》期刊截至2015年3月23日,在CNKI中僅列出2015年第3期的全文,沒有第4期的任何信息,但卻能從其微信公眾平臺上看到2015年第4期的期刊目錄。

微信公眾平臺已經成為移動設備中開源情報重要的獲取源之一。這些信息大部分是一種非結構化、無語義描述的信息。他們的結構不同、內容不同、布局不同,這使得從微信公眾平臺獲取數據帶來難度。如何實現將微信公眾平臺非結構化的、自由的信息轉化為可計算的、結構化的數據,成為開源情報獲取的一個重要問題。

針對上述問題,筆者提出了一個針對微信公眾平臺結構化監測的層次體系,并基于這一思路設計了一個技術框架。

1 微信公眾平臺的非結構化數據類型分析

隨著移動互聯網、物聯網和云計算技術的迅速發展,大數據時代已經來臨[4]。非結構化數據成為科研的重點對象。微信公眾平臺是一個多種信息資源交互的平臺,數據呈現多重格式,如視頻、音頻、圖像、文檔等,這些數據格式呈現明顯的異構性,有結構化數據、半結構化數據,還有非結構化的數據[5]。筆者將微信公眾平臺的非結構化數據源劃分為3種類型,即同型異源數據、異型異源數據、同型同源數據(見圖1)。

圖1 微信公眾平臺非結構化數據數據源類型劃分

1.1同型異源數據

不同微信公眾平臺相同類型的數據,為同型異源數據。不同的站點有著不同的信息收集渠道、加工體系和標準,不同站點的信息發布模式均不相同。不同的微信平臺,發布同一條信息,即使發布數據類型相同,其發布的具體內容、闡述重點也不盡相同,如果利用惟一數據源進行信息分析,獲得結論可能會缺乏全面性,故應將多種數據整合在一起,進行融合分析。

1.2異型異源數據

在不同的微信公眾平臺上,由于數據不同,就會導致不同的數據呈現形式。同一信息,可以以視頻、HTML頁面、PDF、Word等形式呈現,但表達的內容大致相同,如果對數據進行監測研究,僅對其單一類型進行分析,顯然會導致數據分析結果不全面。我們將這些呈現同一信息的數據源進行采集,對其進行各種分析、融合,這樣更能得出某信息研究的整體情況。

1.3同型同源數據

同一微信公眾平臺,數據類型雖然有不同的呈現形式,但總有些內容不同、文獻類型相同的信息資源,這些信息資源構成了每個公眾平臺的主體,是整個信息平臺存在的基礎。信息源發布方,可根據訪問者的檢索歷史、瀏覽歷史、近期關注的各種數據進行統計整合,判斷用戶的需求和興趣點,從而為機構的項目發展或者戰略計劃的調整提供參考依據。

2 微信公眾平臺非結構化數據監測

通過對微信公眾平臺的非結構化數據源數據類型劃分可以看出,如果想將這些不同類型、不同內容的數據進行整合、判斷、研究,需要對這些數據進行監測。

2.1微信公眾平臺數據監測思路

機構在微信公眾平臺發布同類信息時,經常會體現出不同的側重點。這些側重點便是公眾平臺所闡述的主體內容,而側重點之間的關聯揭示出這一平臺中其他要點的骨干結構,從而體現出這個平臺對于該領域研究人員的意義所在。本文將這些反應平臺信息的側重點稱為內容監測對象,將側重點之間的各種關系稱為對象關系。

將非結構化的數據轉化為結構化的監測數據,主要思路就是資源的整合和共享。具體操作起來就是從特定平臺采集到的信息資源中,提取對該平臺有價值的內容作為監測對象:如調研數據、企業規劃、項目成果、科研指標等,并通過語法分析、共現分析、語義計算等方法,構建監測層次體系,實現對某研究領域熱點的監測與分析。

簡而言之,對于每一條從微信公眾平臺上采集到的數據,利用監測系統,通過關鍵詞抓取技術,從中抓取嵌在其中的數據對象以及數據對象之間的相互關系。如“2014年度‘復印報刊資料’轉載學術論文指數排行榜及重要轉載來源期刊發布”這一題名,通過內容監測對象抽取,系統將識別出“2014年”“復印報刊資料”“學術論文指數”,形成了“時間——對象——對象”的結構。通過對數據監測對象關鍵詞的抓取,可以實現數據從非結構化向可計算的結構化轉換。結合實際需要,研究人員可以利用轉換后的結構化數據,實現對監測目標對象進行跟蹤和識別、熱點內容關注、特定情報價值的判斷和提取等功能,從而幫助圖書情報人員實現相關領域的態勢捕捉、跟蹤、分析和可視化表述。

2.2微信平臺結構化監測層次體系

通過上述分析,可細化為一個結構化監測的層次體系(如圖2所示)。這一平臺重點完成結構化監測的4項任務,即確定監測源、多源信息采集、多源數據融合以及價值體現。

2.2.1確定監測源

確定監測源是指確定需要監測的領域、站點以及站點之下的目錄。對于微信公眾平臺來講,把需監測相關機構的數據納入目標監測范圍,對其進行監測跟蹤。

2.2.2多源數據采集

多源數據采集是指利用多種分布式網絡定向采集器定期向目標站點進行采集和收割。將不同呈現形式的數據(如視頻、音頻、圖片、文檔等)采集到語義庫。

2.2.3多源數據融合

多源數據融合是指把通過不同收集渠道、加工體系和采集模式獲取的具有不同數據結構的信息進行整合,形成格式統一、應用廣泛的數據集合。這一過程稱為多源數據融合[6]。把這些數據融合匯聚在一起進行相關性分析,可以更全面、更透徹地揭示事物聯系,尋找新的模式和關系,從而為市場研發、商業模式創新、競爭機會選擇提供有力的數據支撐與決策參考。

2.2.4價值體現

經過對數據進行整合分析,可提供熱點跟蹤、態勢分析、重要情報揭示等服務。

圖2 微信公眾平臺結構化監測層次體系

3 微信平臺結構監測技術

微信公眾平臺的監測,一般需要回答3個方面的問題:確定開源情報需關注的領域(包括這一領域的重要機構、人物、項目、計劃、戰略等),通過監測,所獲取的信息資源中是否有需關注內容?如何從眾多信息資源中整合出重點情報,進行結構化數據轉換?對獲得的情報內容如何梳理,判斷是否有今后的關注點。

圍繞這3個問題,筆者基于將非結構化數據轉化為結構化數據的融合思路,按照字段映射、字段拆分、數據記錄慮重、異構數據加權的要求[7],設計出上述3個問題的解決方案。構建監測本體指導目標內容監測;基于內容之間的相互關系,利用字段拆分、映射、慮重,實現數據從非結構化到結構化的轉化;對整合之后的結構化數據進行加權分析、價值判斷,對于有價值的數據進行分析。

3.1構建監測本體,指導目標源監測

監測目標是監測研究團隊希望通過對目標的監測,獲得與本領域重大活動相關的內容。由于研究領域各不相同,每個領域可根據自己領域的重要機構來確定自己的監測目標,構建一個自建數據庫,將重要的監測平臺鏈接切換到數據庫中。利用編程程序,在一定的時間內,自動提醒監測團隊對目標內容的跟蹤,使監測目標能夠以結構化表達。

3.2針對個體微信公眾平臺,實現網頁內容結構化表示

確定監測目標之后,明確了監測團隊的監測內容,抽取嵌入其中的監測對象,通過字段映射、拆分、數據慮重的方式,對監測對象進行標注、規范,將自由文本轉換為結構化的、可以計算的數據,實現對微信公眾平臺研究領域的監測。

對于每一條從微信平臺上采集到的數據源(如HTML頁面、聲像文件等),微信公眾監測平臺首先通過信息資源抽取技術,抽取嵌入監測對象中的目標數據,然后將知識對象進行字段映射、拆分。將拆分之后的字段,利用數據慮重功能,將重復數據進行清洗,清洗之后,將最終監測的內容進行標注、規范,形成一個結構化化數據庫。基于這些結構化數據,分析數據對象之間的相互關系,利用可視化分析軟件,實現對目標的對象的識別、跟蹤、熱點監測、價值判斷等功能。微信平臺網頁內容結構化轉化流程,見圖3。

圖3 微信平臺網頁內容結構化轉化流程

3.3結構化數據進行加權分析、價值判斷

不同的數據類型、不同來源的數據,其權重不同,如科研發布的視頻與對該視頻的評價的文檔權重不同,中國科技部發布的數據與地方情報所發布的數據。權重的測算可以通過2種方法。一種是專家法,請幾位該領域的專家,憑借其知識結構與經驗進行判斷,對數據進行打分。不同的專家有不同的認知,致分值不同,故采用平均值,進行排比。另一種我們可以采用實證統計的方法,微信公眾平臺不同于網頁,每條數據都可以統計關注量,可以分享到其他朋友圈,研究人員可根據關注量與分享量進行實證統計排名。通過權重分析,判斷數據的價值,提供態勢分析、重要情報揭示、熱點跟蹤的服務。

4 結 語

微信公眾平臺已經成為戰略情報監測的重要資源之一。筆者提出的微信公眾平臺開源情報的結構化監測的層次體系和簡單的融合方法,將這些非結構化的數據從自由文本轉為結構化、語義化的情報資源,并且利用這些資源實現科技戰略情報的監測和跟蹤。在文中,筆者重點對結構化監測的層次體系、方法技術框架進行了闡述。基于這一思路,相關計算機技術人員,可以開發適用于這一領域的“微信公眾平臺開源情報自動監測系統”,根據監測所得數據,進行從非結構化數據到結構化數據的轉換,實現對監測目標的態勢分析、熱點跟蹤,體現其價值。

參考文獻

[1]中國互聯網絡信息中心(CNNIC).第35次中國互聯網絡發展狀況統計報告[EB/OL].http:∥www.cnnic.net.cn/gywm/xwzx/rdxw/2015/201502/t20150203-51631.htm,2015-03-16.

[2]微信是一個生活方式[EB/OL].http:∥weixin.qq.com/,2015-03-07.

[3]再小的個體,也有自己的品牌[EB/OL].http:∥www.siteinseo.com/www/mp.weixin.qq.com/,2015-03-09.

[4]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報:工學版,2014,48(6):957-952.

[5]李廣建,化柏林.大數據分析與情報分析關系辨析[J].中國圖書館學報,2014,(5):14-22.

[6]張智雄,張曉林,劉建華,等.網絡科技信息結構化監測思路和技術方法實現[J].中國圖書館學報,2014,40(212):4-15.

[7]化柏林.多源信息融合方法研究[J].情報理論與實踐,2013,36,(11):16-19.

(本文責任編輯:郭沫含)

·研究生園地·

·業務研究·

Research on Unstructured Data of WeChat Public Platform on Large Data Environment

Guo Chunxia
(Library,Binzhou University,Binzhou 256600,China)

〔Abstract〕Micro letter public platform has the characteristics of open source and timely release,which has become a important information channel of different institutions.But this kind of data is unstructured and without semantic description.How to change the data from unstructured to analyzed and judged has become an urgent problem.To soleve this problem,the paper proposed a hierarchical reflects of the micro-channel public platform data monitoring.This approach would use data fusion methods,extract data from the platform resources,build a structured database,compare them,judge the value of the information and realize the situation monitoring of research field.

〔Key words〕WeChat public platform;unstructured data;data fusion;situation monitoring

作者簡介:郭春霞(1978-),女,館員,碩士,研究方向:信息分析、文獻計量,發表論文8篇。

收稿日期:2015-04-22

〔中圖分類號〕G250.73

〔文獻標識碼〕A

〔文章編號〕1008-0821(2015)08-0141-03

DOI:10.3969/j.issn.1008-0821.2015.08.027

猜你喜歡
微信信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
微信
微信
微信
微信
微信
微信
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 精品少妇人妻无码久久| 在线免费观看AV| 国产精品无码影视久久久久久久 | 国产女主播一区| 天天干伊人| 中文字幕调教一区二区视频| 久久国产香蕉| 欧美色图第一页| 好紧好深好大乳无码中文字幕| 91精品国产一区自在线拍| 亚洲成a人片77777在线播放| 国产亚洲高清视频| 中文字幕一区二区人妻电影| 呦视频在线一区二区三区| 国产精品 欧美激情 在线播放 | 精品久久久久久成人AV| 成人一区专区在线观看| 国产日韩精品欧美一区灰| 久久99国产综合精品女同| 呦女亚洲一区精品| 国产对白刺激真实精品91| 亚洲第一国产综合| 国产精品第| 国产精品福利导航| 国产成人精品高清不卡在线 | 亚洲男人的天堂在线| 福利在线一区| 亚洲男人的天堂在线| 免费一极毛片| 国产成人免费手机在线观看视频 | 国产情精品嫩草影院88av| 亚洲色偷偷偷鲁综合| 狼友视频一区二区三区| 久久国产高潮流白浆免费观看| 日韩一区精品视频一区二区| 91探花国产综合在线精品| 亚洲日产2021三区在线| 天天干天天色综合网| 91小视频在线观看免费版高清| 91亚洲精品国产自在现线| 亚洲大学生视频在线播放| 亚洲国产亚综合在线区| 欧美亚洲国产日韩电影在线| 国产成人一级| 国产一级毛片高清完整视频版| 国产手机在线ΑⅤ片无码观看| 国产SUV精品一区二区| 日韩毛片基地| 国产99视频精品免费视频7| 久久精品人妻中文系列| 成人午夜精品一级毛片| 精品三级网站| 伊人国产无码高清视频| 强乱中文字幕在线播放不卡| 亚洲综合专区| 久久综合色视频| 国产成人精品一区二区秒拍1o | 国产麻豆91网在线看| 国产成人精品在线| 亚洲娇小与黑人巨大交| 18禁黄无遮挡免费动漫网站| 欧美亚洲欧美区| www精品久久| 少妇被粗大的猛烈进出免费视频| 狼友视频一区二区三区| 亚洲第一综合天堂另类专| 黄色一级视频欧美| 在线观看国产精美视频| 亚洲成人黄色在线| 久久国产精品麻豆系列| 日韩在线中文| vvvv98国产成人综合青青| 国产精品午夜福利麻豆| 国产香蕉一区二区在线网站| vvvv98国产成人综合青青| 激情无码字幕综合| 午夜毛片免费看| 激情网址在线观看| 成年人国产视频| 婷婷色狠狠干| www.99在线观看| 日韩免费毛片视频|