999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動端所生成大數(shù)據(jù)的多元用途

2019-09-10 07:22:44王海
學(xué)習(xí)與科普 2019年22期
關(guān)鍵詞:分類模型

王海

摘 要:在本次研究中,筆者從統(tǒng)計自然語言處理的角度,對移動端生成的異常日志做了一個系統(tǒng)分析。按照實際情況對統(tǒng)計自然語言處理原理進(jìn)行了闡述。然后,利用統(tǒng)計自然語言處理原理對異常日志做大數(shù)據(jù)處理應(yīng)用進(jìn)行了論述,以供參考。

概述

隨著自2010年來,移動網(wǎng)絡(luò)的迅猛發(fā)展,從2G到3G再到4G,還有未來可期的5G。更快捷的移動網(wǎng)絡(luò)不僅讓用戶得到了很多互聯(lián)網(wǎng)服務(wù),而且移動端本身也可以上傳各種類型的數(shù)據(jù)及內(nèi)容到云端,以供互聯(lián)網(wǎng)服務(wù)提供商進(jìn)行大數(shù)據(jù)分析。本文就論述移動端所生成大數(shù)據(jù)的多元用途、大數(shù)據(jù)技術(shù)處理,以及由此所衍生的技術(shù)范疇。

質(zhì)量分析

通常系統(tǒng)自帶應(yīng)用,如電話、短信等等。以及豐富繁多的第三方應(yīng)用,如:微信、支付寶等等。衡量系統(tǒng)自帶應(yīng)用和第三方應(yīng)用這兩類應(yīng)用質(zhì)量的技術(shù)指標(biāo)有:

1.崩潰率,崩潰即是應(yīng)用發(fā)生了嚴(yán)重的異常,系統(tǒng)強制將應(yīng)用退出。崩潰率就是,一個應(yīng)用一天發(fā)生的崩潰次數(shù),除以該應(yīng)用的一天內(nèi)的啟動次數(shù)。

3.用戶界面的刷新速率。

這三個技術(shù)指標(biāo),實際上對應(yīng)著三類異常的發(fā)生概率。當(dāng)三類異常發(fā)生時,會產(chǎn)生系統(tǒng)日志,那么,如何收集分散在各地的用戶手頭上的手機內(nèi)的異常日志呢?這就需要上報機制,通過移動網(wǎng)絡(luò)上傳到云端。

通過將移動端的崩潰日志,無響應(yīng)日志上報到云端,就可以找到產(chǎn)生崩潰和無響應(yīng)的原因,并定位在客戶端代碼中的不良代碼段。把不良代碼段進(jìn)行優(yōu)化修改,通過驗證就可以在下個版本發(fā)布出去,那么下個版本的移動端的軟件質(zhì)量就得到了提升。

應(yīng)用發(fā)生空指針異常并崩潰時生成的日志

如果一個應(yīng)用的日活躍數(shù)為一百萬,崩潰率為1%,那么云端每天收集到的崩潰日志的份數(shù)為:一百萬 x 1% = 一萬。日活躍數(shù)一百萬還只是相對較小規(guī)模,即便如此每天產(chǎn)生一萬份日志,人工也是無法及時處理的。所以就需要借助大數(shù)據(jù)技術(shù)的處理能力。

首先是把日志做分類處理,以便于開發(fā)人員分門別類的分析產(chǎn)生異常的原因,因為發(fā)生異常的原因有多種,所以產(chǎn)生的異常日志的內(nèi)容樣式也是有多種。這時就需要借助大數(shù)據(jù)技術(shù)的分類算法,來對數(shù)量繁多的異常日志進(jìn)行分類處理了。實際上這里提到的大數(shù)據(jù)技術(shù),就是統(tǒng)計自然語言處理。接下來的這個段落就是介紹如何將統(tǒng)計自然語言處理運用到異常日志的分類處理。

當(dāng)今的自然語言處理方式,就是使用數(shù)學(xué)統(tǒng)計的方式。讓計算機處理自然語言,就是在自然語言這種上下文相關(guān)的特性建立數(shù)學(xué)模型。這個數(shù)學(xué)模型就是在自然語言處理中常說的統(tǒng)計語言模型(Statistical Language Model),它是今天所有自然語言處理的基礎(chǔ)。

舉個例子,如下這兩句話:

△美聯(lián)儲主席昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險公司。(句一)

△聯(lián)儲美主席昨保險天救助告訴媒體7000億美上百家銀行元資金的將借給、公司。(句二)

統(tǒng)計模型的出發(fā)點很簡單,并不是理解這句話的語法語義來判別是否合理,而是看它的可能性大小如何。至于可能性就用概率來衡量。句一很通順好理解,它的出現(xiàn)概率大致是10-20。句二是病句無法理解,它的出現(xiàn)概率大致概率是10-50。因此,句一的出現(xiàn)的概率遠(yuǎn)大于句二。

這個方法更普遍而嚴(yán)格的描述是:假定S表示某一個有意義的句子,由一連串特定順序排列的詞w1, w2, …, wn組成,這里n是句子的長度。我們想知道S在文本中出現(xiàn)的可能性,也就是數(shù)學(xué)上所說的S的概率P(S)。因此,需要有個數(shù)學(xué)統(tǒng)計模型來估算。既然S = w1,w2,…, wn,那么不妨把P(S)展開表示:

P(S) = P(w1,w2,…, wn)

利用條件概率的公式,S這個序列出現(xiàn)的概率等于每一個詞出現(xiàn)的條件概率相乘,于是P(S) = P(w1,w2,…, wn)可展開為:

P(S) = P(w1,w2,…, wn)

= P(w1) P(w2 | w1)P(w3 | w1, w2) … P(wn | w1,w2,…, wn-1)

其中P(w1)表示第一個詞w1出現(xiàn)的概率;P(w2 | w1)是在已知第一個詞的前提下,第二個詞的概率;以此類推。不難看出,詞wn的出現(xiàn)概率取決于它前面的所有詞。

為了減少計算量,就假設(shè)任意一個詞wi出現(xiàn)的概率只同它前面的詞 wi-1有關(guān),于是問題就變得很簡單了。這種假設(shè)在數(shù)學(xué)上稱為馬爾可夫假設(shè)。現(xiàn)在S出現(xiàn)的概率就變得簡單了:

P(S) = P(w1,w2,…, wn)

= P(w1) P(w2 | w1)P(w3 | w2) … P(wn | wn-1)

此公式對應(yīng)的統(tǒng)計語言模型是二元模型(Bigram Model)

接下來的問題就是如何估計每個詞出現(xiàn)的條件概率P(wi | wi-1)。根據(jù)它的定義:

P(wi | wi-1)=P(wi-1,wi)/P(wi-1)

因為有了大量數(shù)字化文本,也就是專業(yè)人士講的語料庫(corpus),只要數(shù)一數(shù)wi-1, wi這對詞在統(tǒng)計的文本中前后相鄰出現(xiàn)了多少次#( wi-1, wi),以及wi-1本身在同樣的文本中出現(xiàn)了多少次#(wi-1),然后用#(wi-1, wi)和#(wi-1)這兩個數(shù)分別除以語料庫的大小#,即可得到二元組的相對頻度。

根據(jù)大數(shù)定理,只要統(tǒng)計量足夠,相對接頻度就等于概率,聯(lián)合概率和邊緣概率就可以這樣表達(dá):

P(wi-1,wi)=(wi-1,wi)/# P(wi-1)=(wi-1)/#

再把聯(lián)合概率P(wi-1,wi)和P(wi-1)邊緣概率帶入上面的條件概率公式:

P(wi | wi-1)=(wi-1,wi)/(wi-1)

上述的推導(dǎo)過程,還是明確的說明了現(xiàn)代自然語言處理的方式就是使用數(shù)學(xué)統(tǒng)計的方式。更是一種思維方式的闡述,我們再做自然語言處理的很多細(xì)分領(lǐng)域的工作時,都是基于歷史已有的語料資源,利用數(shù)學(xué)統(tǒng)計知識,來估算現(xiàn)有情況和歷史相符合的概率大小。

如果要借助統(tǒng)計自然語言處理的方式,對異常日志這一自然語言的特殊子類進(jìn)行分類,就要做建立異常日志的特有語料庫。利用典型類型的異常日志作為語料庫的具體實例內(nèi)容,作為“崩潰、應(yīng)用無響應(yīng)、內(nèi)存溢出錯誤”這三類異常日志類型的基準(zhǔn),移動端所上報的異常日志和異常日志語料庫中的基準(zhǔn),做上述的相似性概率計算,即可得出和哪個類型的異常日志基準(zhǔn)相似概率最大,即算作哪個類型的異常日志分類。

這個異常日志分類的數(shù)據(jù)處理方式,是有監(jiān)督的處理方式,因為基于異常日志語料庫中的基準(zhǔn)日志作為標(biāo)簽。通常在提升移動端應(yīng)用的質(zhì)量過程中,需要及時修復(fù)用戶遇到最多的軟件異常缺陷。這個需求場景下,就需要把相同位置發(fā)生的異常都收集整理到一起組成一個集合,再對多個集合中的異常日志數(shù)量做排序,就可以得到用戶遇到次數(shù)最多的異常。

那么如何將相同位置發(fā)生的異常都收集整理到一起組成一個集合呢?同樣要利用統(tǒng)計自然語言處理的大數(shù)據(jù)處理方式,即聚類,放到統(tǒng)計自然語言處理這個范疇內(nèi),就是主題模型。

我再回到統(tǒng)計自然語言處理領(lǐng)域探討主題模型,假如有一篇文章文本,通過里面的詞,來確定它是什么類型的文章,如果文章中出現(xiàn)很多體育類的詞,比如,籃球,足球之類的,那么主題模型就會把它劃分為體育類的文章。主題模型,顧名思義就是文章和主題的對應(yīng)關(guān)系,納入統(tǒng)計的概念講就是文章和主題的對應(yīng)概率計算。顯然文章由眾多詞所組成,也就延伸為:文章-主題-詞的關(guān)系及相應(yīng)的概率問題。

LDA(Latent Dirichlet Allocation)的定義:

△是實現(xiàn)主題模型的一種無監(jiān)督的方法。在訓(xùn)練時不需要手工標(biāo)注的訓(xùn)練集,需要的是文檔集和指定主題的個數(shù)。

△是一種典型的詞袋模型,它認(rèn)為一篇文檔是由一組詞組成的集合,詞與詞之間沒有順序和先后關(guān)系。

△是一種主題模型,它可以將文檔集中的每篇文檔按照概率分布的形式給出。

△一種典型的詞袋模型,它認(rèn)為一篇文檔是由一組詞組成的集合,詞與詞之間沒有順序和先后關(guān)系。

LDA的數(shù)學(xué)解釋是:同一主題下,某個詞出現(xiàn)的概率,以及同一文檔下,某個主題出現(xiàn)的概率,兩個概率的乘積,可以得到某篇文檔出現(xiàn)某個詞的概率。

現(xiàn)有的是詞和文章,那么主題是如何冒出來的?這是我比較困惑的。但實際上LDA的輸出結(jié)果只是對主題模型進(jìn)行分類,并沒有給出具體的主題模型的類別,如:體育、財經(jīng)這樣的具體主題類型并沒有給出。

LDA的輸入是文檔,輸出有兩項:

△一個評估,多少主題對應(yīng)一個文檔,實際上是概率

△另一個評估,一個主題生成多少詞,實際上也是概率

LDA的核心就是這個公式:

P(詞 | 文檔) = P(詞 | 主題)P(主題 | 文檔)

數(shù)學(xué)表達(dá)式:

P(w | d) = P(w | t) * P(t | d)

針對異常日志這樣的自然語言,就需要把其中發(fā)生異常日志的位置字段做高權(quán)重運算。這樣就可以按照“位置字段”對異常日志進(jìn)行聚類,生成異常日志的主題模型。

通過上報異常日志數(shù)據(jù),對日志數(shù)據(jù)進(jìn)行分類和聚類的處理,再解決重點的缺陷,最后通過發(fā)布新版本這樣的流程,就可以快速高效的提升應(yīng)用的質(zhì)量,提升用戶體驗的同時也就更加圓滿的落地了業(yè)務(wù)。否則在一個崩潰、無響應(yīng)頻發(fā)的應(yīng)用內(nèi),業(yè)務(wù)流程都用可能無法運行通暢,更是無法談?wù)撋虡I(yè)價值了。

這就是一個運用大數(shù)據(jù)技術(shù),高效提升移動端應(yīng)用質(zhì)量的一個范例。

展望,通過移動端應(yīng)用生成的大數(shù)據(jù),還可以進(jìn)行:

·用戶行為分析,哪些位置、樣式、色彩的圖標(biāo)或按鈕會比較顯著的吸引用戶產(chǎn)生點擊行為。可以記錄用戶的點擊操作路徑,就能夠通過產(chǎn)品設(shè)計層面,規(guī)劃出更為符合大眾直覺的頁面層級。

·商業(yè)信息分析,對于電商類移動端應(yīng)用,可以通過移動端上報的數(shù)據(jù),整理分析得出店鋪的訪購率,客單價

參考文獻(xiàn):

Android全埋點解決方案 王灼洲 著 ISBN:978-7-111-62149-2

統(tǒng)計學(xué)習(xí)方法 李航 著 ASIN:B01M8KB8FF

劉韻,張遙.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].數(shù)碼世界,2016,(6):16~16.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产成人你懂的在线观看| 日本一区二区三区精品AⅤ| 日韩区欧美区| 喷潮白浆直流在线播放| 亚洲成年网站在线观看| 中文字幕佐山爱一区二区免费| 2019年国产精品自拍不卡| 老司机aⅴ在线精品导航| 久久这里只有精品2| 亚洲精品片911| 亚洲天堂视频在线免费观看| 日韩免费视频播播| 91小视频在线观看免费版高清| 黄色片中文字幕| 国产幂在线无码精品| 国产理论一区| 成人字幕网视频在线观看| 亚洲大学生视频在线播放| 青青国产视频| 成人福利在线免费观看| 伊人蕉久影院| 国产丝袜第一页| 国产亚洲欧美在线中文bt天堂| 久久夜色精品国产嚕嚕亚洲av| 久久国产成人精品国产成人亚洲 | 欧美伊人色综合久久天天| 成人免费黄色小视频| 国产亚洲欧美在线专区| 国产素人在线| 亚洲日韩在线满18点击进入| 91毛片网| 日韩在线第三页| 国产乱人激情H在线观看| 亚洲一道AV无码午夜福利| 色AV色 综合网站| 亚洲精品视频免费| 综1合AV在线播放| a毛片免费在线观看| 国产精品va免费视频| 亚洲大学生视频在线播放| 99激情网| 丰满人妻久久中文字幕| 青青国产视频| 中文字幕天无码久久精品视频免费| 一本一道波多野结衣av黑人在线| 日韩色图在线观看| 亚洲伦理一区二区| 亚洲不卡影院| 伊人色天堂| 一级毛片在线免费视频| 午夜精品一区二区蜜桃| 国产精品无码AV中文| 激情五月婷婷综合网| 欧美激情综合一区二区| 欧美色视频在线| 成人伊人色一区二区三区| 欧美国产精品不卡在线观看| 日本福利视频网站| 国产毛片久久国产| jizz在线观看| 99草精品视频| 国产福利在线观看精品| 久久性妇女精品免费| 婷婷六月综合| 91精品啪在线观看国产| 久久亚洲国产一区二区| 丝袜高跟美脚国产1区| 91在线精品免费免费播放| AV不卡国产在线观看| 91精品国产自产91精品资源| 国产91高跟丝袜| 日韩在线视频网站| 亚洲最大福利网站| 欧美成人怡春院在线激情| 高清国产在线| 在线无码九区| 久久精品波多野结衣| 91精品啪在线观看国产60岁| 亚洲天堂视频网| 老司国产精品视频91| 伦伦影院精品一区| 国产日韩精品欧美一区喷|