999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微信公眾號(hào)文本自動(dòng)摘要研究

2022-02-06 15:07:20程子軒顏成偉李鋮碩
產(chǎn)業(yè)與科技論壇 2022年17期
關(guān)鍵詞:微信文本內(nèi)容

□程子軒 顏成偉 李鋮碩

移動(dòng)互聯(lián)網(wǎng)時(shí)代下,新媒體與大數(shù)據(jù)技術(shù)飛速發(fā)展,以微博、微信、短視頻等形式為代表的新媒體已然成為人們交流、休閑、學(xué)習(xí)、生活的一部分。微信相繼推出微信公眾平臺(tái)、朋友圈、消息推送等功能服務(wù)進(jìn)一步擴(kuò)大用戶群體規(guī)模,至今全球已有超過13億微信注冊賬戶。微信公眾平臺(tái)憑借龐大的微信用戶群體迅速成為最具影響力的信息傳播媒體平臺(tái)之一。然而龐大紛雜的賬號(hào)主體直接導(dǎo)致了微信公眾平臺(tái)信息質(zhì)量參差不齊、信息過載現(xiàn)象嚴(yán)重。因此,如何在海量、雷同的信息海洋中篩選出真正需要和感興趣的內(nèi)容是廣大微信用戶面臨的困擾,更是微信公眾平臺(tái)需要關(guān)注并有待解決的問題[1]。

一、微信公眾號(hào)文本摘要的意義

微信公眾平臺(tái)的使用場景主要是移動(dòng)網(wǎng)絡(luò)環(huán)境和智能終端,用戶受到手機(jī)、平板電腦等智能終端設(shè)備屏幕較小和閱讀時(shí)間碎片化的限制,很難在短時(shí)間內(nèi)瀏覽和閱讀幾千字的文章,知識(shí)過載和冗余給用戶帶來較差的閱讀體驗(yàn)和較多的精力投入。因此,微信公眾平臺(tái)文本知識(shí)摘要生成具有重要作用和意義。

(一)微信公眾平臺(tái)文本知識(shí)摘要生成能夠提高用戶知識(shí)獲取效率。依靠自動(dòng)化技術(shù)抽取生成概括性知識(shí)摘要,一方面能夠?qū)⑽恼聝?nèi)容大幅度縮短,可以給用戶提供判斷是否繼續(xù)閱讀的依據(jù),極大地節(jié)省了用戶的時(shí)間和精力,給用戶帶來較好的閱讀體驗(yàn)。

(二)知識(shí)摘要自動(dòng)化生成能夠提高微信公眾平臺(tái)知識(shí)重用效率,實(shí)現(xiàn)知識(shí)整合和序化組織。知識(shí)摘要的生成能夠減少和過濾冗余信息,提取文檔中的主要知識(shí)和思想觀點(diǎn),整合多篇文檔中知識(shí)資源內(nèi)容,得到完整的高質(zhì)量知識(shí)資源,實(shí)現(xiàn)知識(shí)的重新整合和序化組織。

(三)微信公眾號(hào)摘要自動(dòng)化生成能夠?yàn)樾屡d的智能服務(wù)與市場分析方向提供強(qiáng)有力的支撐。微信公眾號(hào)摘要自動(dòng)化生成能夠?yàn)槲⑿殴娖脚_(tái)知識(shí)組織與服務(wù)、智能檢索與問答、領(lǐng)域熱點(diǎn)追蹤和分析、行業(yè)咨詢等新興的智能服務(wù)與市場分析方向提供強(qiáng)有力的支撐,具有較高的商業(yè)價(jià)值。尤其對于微信公眾平臺(tái)推送類的學(xué)術(shù)類公眾號(hào)媒體,自動(dòng)化知識(shí)摘要生成能夠在很大程度上減少平臺(tái)編輯的人力和財(cái)務(wù)成本,提升用戶體驗(yàn)度。目前市場上能夠提供自動(dòng)化知識(shí)摘要的服務(wù)平臺(tái)較少,所以從商業(yè)應(yīng)用角度具有一定的研究意義和價(jià)值。

二、微信公眾號(hào)文本數(shù)據(jù)特征

(一)微信公眾平臺(tái)數(shù)據(jù)形式。微信公眾平臺(tái)支持推送消息的形式包括文字、語音、圖片、錄音、圖文消息、名片、視頻等,多種內(nèi)容形式可以同時(shí)存在于一條群發(fā)消息中。微信公眾平臺(tái)發(fā)布的文章中采用單一媒體形式的較少,以文字為主的圖文消息最為普遍。部分公眾號(hào)在文章中插入背景音樂或同步朗讀語音,使內(nèi)容表現(xiàn)形式更加豐富。隨著2020年1月微信視頻號(hào)系統(tǒng)內(nèi)測,微信公眾號(hào)內(nèi)的視頻發(fā)布逐漸向微信視頻號(hào)賬號(hào)轉(zhuǎn)移。因此,微信公眾號(hào)知識(shí)資源的形式主要是以文字配圖片的形式為主,同時(shí)包括音頻、視頻等多種媒體形式。

(二)微信公眾號(hào)知識(shí)類型。按照知識(shí)的專業(yè)深度不同,微信公眾號(hào)知識(shí)資源可分為科普型知識(shí)、專業(yè)科普型知識(shí)、專業(yè)發(fā)展前沿、專業(yè)知識(shí)以及學(xué)術(shù)專題型知識(shí)等。科普型知識(shí)的受眾最為廣泛,大部分公眾號(hào)會(huì)不定期發(fā)布科普型知識(shí)內(nèi)容,對知識(shí)普及起到積極宣傳的作用。專業(yè)科普型知識(shí)的受眾也十分廣泛,普通微信用戶對此類知識(shí)的關(guān)注度根據(jù)專業(yè)所在領(lǐng)域的熱度不同有所差異,如健康、科技、金融等領(lǐng)域?qū)I(yè)科普型知識(shí)受關(guān)注較多。相關(guān)領(lǐng)域的垂直類微信公眾號(hào)會(huì)不定期發(fā)布專業(yè)科普型知識(shí),使微信用戶對感興趣的領(lǐng)域知識(shí)有進(jìn)一步的了解和掌握。專業(yè)發(fā)展前沿、專業(yè)知識(shí)和學(xué)術(shù)專題等類型的知識(shí)由于對微信用戶專業(yè)基礎(chǔ)知識(shí)有一定要求,因而受眾相對較少,受眾群體以研究生、高校教師和科研工作者為主。專業(yè)發(fā)展前沿、專業(yè)知識(shí)和學(xué)術(shù)專題等類型的知識(shí)主要由學(xué)術(shù)類微信公眾號(hào)發(fā)布,這類公眾號(hào)的運(yùn)營主體主要為科研機(jī)構(gòu)、學(xué)術(shù)期刊、高校圖書館等,一些垂直類公眾號(hào)也會(huì)少量發(fā)布專業(yè)發(fā)展前沿類知識(shí)內(nèi)容。學(xué)術(shù)微信用戶通過公眾號(hào)能夠掌握前沿的專業(yè)知識(shí)內(nèi)容,并通過平臺(tái)與其他學(xué)者對感興趣的知識(shí)內(nèi)容進(jìn)行交流碰撞。

(三)微信公眾平臺(tái)數(shù)據(jù)資源特征。一是微信公眾號(hào)知識(shí)資源呈現(xiàn)出碎片化特點(diǎn),適合碎片化閱讀。當(dāng)前,由于生活節(jié)奏加快,碎片化閱讀已成為移動(dòng)互聯(lián)網(wǎng)環(huán)境下的主流閱讀模式,而微信公眾號(hào)上的知識(shí)類型和傳播形式正符合現(xiàn)代人需求和時(shí)代發(fā)展趨勢。二是在將專業(yè)的知識(shí)內(nèi)容提煉、分解、重組、并深入淺出圖文并茂地演繹出來,對知識(shí)資源的質(zhì)量也提出了更高要求。例如,一些學(xué)術(shù)期刊公眾號(hào)如果單一復(fù)制母刊文章進(jìn)行發(fā)布,則很難收獲較好的傳播效果,若能將原文基礎(chǔ)上進(jìn)行二次加工,可以使用戶在短時(shí)間內(nèi)掌握論文精華,有效提高閱讀量及微信傳播指數(shù)(WCI)[2]。三是微信公眾號(hào)知識(shí)資源存在大量信息冗余。微信公眾號(hào)數(shù)量眾多,各公眾號(hào)專業(yè)水準(zhǔn)參差不齊,部分文章原創(chuàng)性不足,內(nèi)容相似的熱點(diǎn)話題文章被不同公眾號(hào)頻頻推送的現(xiàn)象隨處可見。大量引用或轉(zhuǎn)載都造成了信息資源的浪費(fèi),給用戶閱讀和使用造成了一定的困擾。因此,如何從繁多的消息推送中甄別出有效信息、提高閱讀效率成為微信用戶的迫切需求。

三、文本自動(dòng)摘要技術(shù)概述

摘要是以提供文獻(xiàn)內(nèi)容梗概為目的,不加評論和補(bǔ)充解釋,簡明、確切地記述文獻(xiàn)重要內(nèi)容的短文,能夠概括和總結(jié)文檔的中心思想和核心內(nèi)容。早在20世紀(jì)50年代,自動(dòng)文本摘要已經(jīng)吸引了人們的關(guān)注。在20世紀(jì)50年代后期,Hans Peter Luhn利用詞頻和詞組頻率等特征從文本中提取重要句子,用于總結(jié)內(nèi)容[3]。文本摘要自動(dòng)化生成是指運(yùn)用現(xiàn)代計(jì)算機(jī)的自動(dòng)化技術(shù)從原始文章中抽取或重新組織生成包含中心內(nèi)容、概要信息或者作者的情感態(tài)度的主題或語義內(nèi)容的句子,并將這些句子按照一定順序形成文章摘要的過程。

自動(dòng)化摘要生成有多種分類方式。按照研究對象的文檔數(shù)量多少可以分為單文檔自動(dòng)摘要和多文檔自動(dòng)摘要。對于微信公眾平臺(tái)的知識(shí)摘要生成,提取單篇文檔中知識(shí)摘要即是單文檔知識(shí)摘要生成,提取某一領(lǐng)域知識(shí)相關(guān)的多篇文檔中內(nèi)容即是多文檔知識(shí)摘要生成。按照生成摘要的用途,可以將自動(dòng)文檔摘要分為面向信息瀏覽和基于情感態(tài)度分析兩類。有些摘要是為了方便用戶瀏覽文檔的概要信息,有些而是為了分析出文檔中作者的情感態(tài)度。微信公眾平臺(tái)自動(dòng)化摘要生成主要是為了便于用戶查找知識(shí)內(nèi)容和概括性瀏覽,因此需要進(jìn)行面向知識(shí)瀏覽的自動(dòng)化摘要生成。此外,按照自動(dòng)文檔摘要中是否含有原文中句子可以分為兩類:一類是直接從文章中抽取權(quán)重排序較高的原文句子,不對原文檔中句子進(jìn)行修改,按照一定順序組織形成文檔摘要,即抽取式方法;另一類是通過對原文的“理解”,組織生成新的語言句子對文檔的主題、概要信息進(jìn)行融合表達(dá)概括,即生成式方法。由于生成式方法形成摘要過程中需要解決語義表示、推理和信息融合等問題,比抽取式方法復(fù)雜、難度大,且抽取式自動(dòng)文檔摘要生成是從原文中選取關(guān)鍵句組成摘要,在語法、句法上錯(cuò)誤率低,整體效果優(yōu)于生成式自動(dòng)文檔摘要。因此,本文采用抽取式方法對微信公眾平臺(tái)知識(shí)自動(dòng)化摘要生成開展研究。

四、微信公眾號(hào)文本自動(dòng)摘要過程

采用抽取式方法進(jìn)行微信公眾號(hào)文本自動(dòng)摘要生成具體分為語料獲取、預(yù)處理、文本特征化、摘要抽取和效果評價(jià)五個(gè)步驟。

在語料獲取階段是采集微信公眾號(hào)發(fā)布的文本數(shù)據(jù),平臺(tái)內(nèi)部人員可以直接通過平臺(tái)數(shù)據(jù)庫調(diào)取,外部人員可以利用搜狗微信平臺(tái)進(jìn)行數(shù)據(jù)爬取。預(yù)處理階段是將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化信息,常用操作包括去除標(biāo)記、分詞、詞性標(biāo)注、去停用詞等,可以減少噪聲、提升文本質(zhì)量。文本特征化是將自然語言表示為計(jì)算機(jī)能夠識(shí)別處理的特征項(xiàng),然后再對這些特征進(jìn)行降維處理。Word2vec模型的出現(xiàn)為文本向量化提供了便利,Word2vec可以根據(jù)給定的語料庫,利用訓(xùn)練好的模型快速有效地將一個(gè)詞語轉(zhuǎn)換成向量表達(dá)的形式,為后續(xù)的文本挖掘準(zhǔn)備。摘要抽取是核心階段,目前基于圖模型的自動(dòng)摘要方法比較常用,這種方法是將詞、句子等文本單元以及他們之間的相互關(guān)系作為頂點(diǎn)和邊,建立相應(yīng)的語言網(wǎng)絡(luò)圖模型,并從中識(shí)別出重要的句子,相關(guān)算法包括PageRank、LexRank和TextRank等。摘要抽取完成之后是效果檢驗(yàn),對于較小的樣本量可以采用Edmundson方法進(jìn)行文本摘要效果評價(jià)方,即計(jì)算自動(dòng)文本摘要與人工摘要的句子平均重合率,對于樣本量較大的可以采用ROUGE方法,包括基于N-gram共現(xiàn)統(tǒng)計(jì)的ROUGE-N方法,基于最長公共子序列的ROUGE-L方法,基于對順序詞對統(tǒng)計(jì)的ROUGE-S方法等。

自動(dòng)化摘要技術(shù)作為知識(shí)集成組織的重要形式,可以協(xié)助用戶在較短時(shí)間內(nèi)快速了解文章內(nèi)容,解決知識(shí)過載和知識(shí)冗余等帶來的問題,極大地提高用戶閱讀及獲取知識(shí)的效率。引入自動(dòng)生成摘要技術(shù)實(shí)現(xiàn)微信公眾平臺(tái)知識(shí)資源序化組織,能夠有效解決文本知識(shí)冗余與人工閱讀能力有限之間的矛盾。

猜你喜歡
微信文本內(nèi)容
內(nèi)容回顧溫故知新
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
微信
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
微信
微信
微信
如何快速走進(jìn)文本
主站蜘蛛池模板: 制服丝袜国产精品| 国产精品区视频中文字幕| 亚洲人成影院午夜网站| 亚洲综合欧美在线一区在线播放| 国产精品三级av及在线观看| 国产黄色免费看| 亚洲欧美日韩色图| 国产精品女同一区三区五区| 亚洲精品久综合蜜| 四虎永久免费在线| 日韩午夜伦| 毛片免费高清免费| 亚洲一级毛片免费观看| 本亚洲精品网站| 美女被躁出白浆视频播放| 91精品人妻一区二区| 久久国产精品77777| 1024你懂的国产精品| 欧美日韩国产在线播放| 亚洲av成人无码网站在线观看| 色天堂无毒不卡| 国产av一码二码三码无码| 啪啪免费视频一区二区| 99久久99这里只有免费的精品| 国产情侣一区二区三区| 制服丝袜 91视频| 久操中文在线| 视频二区欧美| 国产精品分类视频分类一区| 久久永久免费人妻精品| 在线视频一区二区三区不卡| 日韩第一页在线| 亚洲人成网站观看在线观看| 97视频免费在线观看| 免费高清a毛片| 伊人色在线视频| 欧美v在线| 国产精品私拍99pans大尺度| 国产一区二区精品高清在线观看| a毛片在线播放| 精品国产成人三级在线观看| aaa国产一级毛片| 国产真实乱了在线播放| 91免费观看视频| 国产精品久久久久久影院| 国产玖玖玖精品视频| 久久无码高潮喷水| 日韩国产一区二区三区无码| 四虎影视8848永久精品| 久久天天躁狠狠躁夜夜躁| 色国产视频| 日本午夜精品一本在线观看| 在线日韩一区二区| 国产一区二区三区在线精品专区| 亚洲色图欧美视频| 亚洲精品无码人妻无码| 国产原创第一页在线观看| 亚洲欧美精品在线| 色国产视频| 亚洲成人黄色网址| 亚洲日本精品一区二区| 激情无码字幕综合| 日韩精品欧美国产在线| 97一区二区在线播放| V一区无码内射国产| 四虎永久免费地址| 伊人成色综合网| 久操中文在线| 国产成人夜色91| 成人福利免费在线观看| 国产福利拍拍拍| 99国产精品一区二区| 五月婷婷综合网| 激情综合网激情综合| 成人免费午间影院在线观看| 国产精品永久不卡免费视频| 啪啪啪亚洲无码| 波多野结衣在线se| 国产成人欧美| 中文字幕在线播放不卡| 国产主播在线一区| 久久中文字幕2021精品|