999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于余弦相識度的聚類算法在統(tǒng)計調(diào)查對象分類中的應用研究

2019-06-14 08:04:12王習濤馬雁疆劉新新
市場研究 2019年5期
關鍵詞:分類企業(yè)

王習濤 馬雁疆 劉新新/ 文

長期以來,統(tǒng)計人員使用中位數(shù)、眾位數(shù)、奇異值、比重等統(tǒng)計方法來甄別調(diào)查對象報送的統(tǒng)計數(shù)據(jù),以期發(fā)現(xiàn)其中的錯誤,進一步提高統(tǒng)計數(shù)據(jù)質(zhì)量。本文嘗試跳出價值量指標判斷的藩籬,采用圖形識別的方法對調(diào)查對象進行分類,以期發(fā)現(xiàn)企業(yè)填報的規(guī)律,篩選出偏離普遍模式的調(diào)查對象。

一、總體設想

現(xiàn)實生活中,我們在首次看到外貌相似的父子、兄弟時,第一印象往往覺得彼此很像,而伴隨著相互熟悉之后我們會發(fā)現(xiàn)彼此的不同,并且不會再覺得相像,這是我們在識別對象時逐步從面到點的過程。人有各自的相貌,企業(yè)統(tǒng)計數(shù)據(jù)有沒有普遍規(guī)律呢,能否利用這種規(guī)律發(fā)現(xiàn)調(diào)查對象中的特例,逐步發(fā)現(xiàn)我們關心的現(xiàn)象?

企業(yè)統(tǒng)計數(shù)據(jù)由生產(chǎn)過程產(chǎn)生,同一時期、同一地區(qū)的企業(yè)受基礎設施、原材料價格、人員素質(zhì)甚至風俗習慣、氣候的影響,可能會有合理的生產(chǎn)效益關系,本文就從挖掘這種合理通用關系入手,實現(xiàn)對調(diào)查對象的分類研究。

假設同一地區(qū),同一時間段,不同規(guī)模的企業(yè)生產(chǎn)效率是基本相同的,那么映射到二維圖上則同序列指標的連線圖形應高度相似,如圖1 所示,B 企業(yè)是A 企業(yè)所有指標量值的1/2,則A 企業(yè)與B 企業(yè)的圖形應完全相似。

圖1 完全相似的兩家企業(yè)

我們對上圖對應數(shù)據(jù)計算余弦相似度,最終得到兩列數(shù)據(jù)的相似度為1.0000000000000002,由此可以認為這兩列數(shù)據(jù)組成的圖形是完全相似的,我們的目的就是找到一個本地區(qū)所有企業(yè)都高度相似的圖形,然后圍繞與標準圖形的相似度對調(diào)查單位分類,通過層層的篩選逐步找到我們關心的調(diào)查對象。

二、實驗過程

為驗證圖形模式分類調(diào)查對象的可行性,我們采用工業(yè)月報B203 表(2- 7 月份)中26 各指標作為測試對象,對數(shù)據(jù)進行刪除零值列預處理、歸一化預處理、相似度計算、調(diào)查單位聚類,從而將調(diào)查單位按照相似度進行分類,并篩選出小眾單位。

(一)數(shù)據(jù)預處理

首先我們觀察不同月份的數(shù)據(jù),可以發(fā)現(xiàn)有部分列數(shù)據(jù)為零的比重較高,這些列填零的調(diào)查對象有兩萬家左右。兩家調(diào)查單位填零導致的相似度是沒有意義的,這種情況下零較多的列計算出來的相似度是沒有參考意義的,因此,首先我們刪除填零較多(兩萬家左右)的列(共刪除六列)。

此外,我們的統(tǒng)計指標包含不同量級的價值量指標,如圖2所示,由于價值量指標原始數(shù)值變動幅度過大,造成圖形中大多數(shù)指標趨近于零,從而導致僅有價值量值較大的指標才會影響相關度。

圖2 原始數(shù)據(jù)圖形

為消除不同量級指標對相關性的影響,我們對原始數(shù)據(jù)進行規(guī)范化處理,常用的規(guī)范化處理方法有最小最大規(guī)范化、零均值規(guī)范化、數(shù)量級歸一化、極差歸一化[(0,1)標準化]、Sigmoid 函數(shù)歸一化、softmax 函數(shù)歸一化等,我們采用極差歸一化[(0,1)標準化]對原始數(shù)據(jù)去量綱處理。

極差歸一化是最簡單、最容易想到的數(shù)據(jù)歸一化方法,它將變量的極差線性變化到(0,1)區(qū)間,假設屬性x 的最大、最小值分別為max(x)和min(x),則每一個具體的值x 按如下公式規(guī)范化得y:

表1 原始數(shù)據(jù)及歸一后效果

續(xù)表

(二)相關度計算

通過預處理后的數(shù)據(jù)被存放在22000 多行(每月單位數(shù)不完全一樣),20 列的矩陣中,每一行代表一個調(diào)查對象,我們需要對任意兩行計算其余弦相似度,從而判斷兩個調(diào)查對象報送的報表是否相似。

余弦相似度通常用在文檔相似度判斷上,是利用兩個向量夾角的余弦值來衡量兩個向量差異的大小,余弦值越接近1,就表明夾角越接近0°,也就是兩個向量越相似,余弦相似度不考慮兩個數(shù)據(jù)對象的量值。

圖3 余弦相似度的幾何解釋

如圖3 所示,邊x 與y 的余弦相似度是邊x 與y 之間的夾角α 的余弦值。因此,如果余弦相似度為1,則x 與y 之間的夾角為0°,此時除了長度外x 與y 是相同的,如果余弦相似度為0,則x 與y 的夾角為90°,x 與y 完全不相似。

在二維空間,根據(jù)向量點積公式,顯然:

假設向量x、y 的坐標分別為(x1,y1)、(x2,y2)。則:

注:

算法:對任意兩行數(shù)據(jù)(m 行、n 行)執(zhí)行下面程序:

CompCosα(m,n,cosa)

1.當i 小于指標數(shù)時繼續(xù)執(zhí)行,否則跳到第5 步(i 從0 開始記錄已計算指標數(shù))

3.計算m 行對應i 指標的平方(xi2),并累加。

4.計算n 行對應i 指標的平方(yi2),并累加。

5.對2、3、4 步累加結果計算cosα。

6.返回cosα。

(三)按照相似度進行聚類分析

常用的數(shù)據(jù)分類分析方法有很多,如貝葉斯分類、支持向量機分類、神經(jīng)網(wǎng)絡分類等,而多數(shù)分類需要先確定分類條件或訓練樣本。聚類分析是根據(jù)“物以類聚”的道理對數(shù)據(jù)進行分類,分類前無須確定分類條件,是一種無監(jiān)督的分類過程,非常適合統(tǒng)計調(diào)查對象分類。

正確合理的理解數(shù)據(jù)分析需求是選擇聚類方法的基礎,在面部識別程序中,無論對象什么樣貌、什么膚色,或者外部器官發(fā)生病變甚至缺失,只要對象是人,程序都應該做出人臉的判斷,統(tǒng)計調(diào)查對象識別也一樣,無論是大企業(yè)還是小企業(yè),甚至企業(yè)部分數(shù)據(jù)缺失,程序都應該能判斷出這是企業(yè)填報的數(shù)據(jù),除非數(shù)據(jù)是非專業(yè)人員人為臆造的。在這種情況下,我們的調(diào)查單位應有一個通用的標準,而這個標準在多維數(shù)據(jù)空間中應該映射到一個具體的點(我們稱之為中心點),而各個調(diào)查企業(yè)與這個點的距離(相似度)就是判斷企業(yè)數(shù)據(jù)真?zhèn)蔚臉藴省?/p>

在現(xiàn)實中我們依然很難計算出中心點的具體位置,因為我們使用的是圖形模式相似度距離,而不是絕度量距離。在這種情況下我們可以變通一下,首先我們設想一下調(diào)查對象在多維空間中的可能分布情況,第一種情況是多數(shù)單位聚集在一個簇中,少數(shù)指標游離于簇外。第二種是形成多個簇。不管是哪種情況,每個簇必然至少有一個離中心點距離最近的調(diào)查對象點,而以這個點為中心將囊括該簇最多的調(diào)查對象,這樣尋找中心點的問題轉(zhuǎn)化為尋找包含樣本最多的問題,這也呼應了聚類分析的優(yōu)勢,因此我們使用K 中心點聚類算法,首先設定K 等于1,驗證第一種設想。

注:

算法:發(fā)現(xiàn)包含等距離(相似度)調(diào)查對象最多的點

FindCore(m,datamatrix)

1.當i 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行,否則跳到5 執(zhí)行。

2.當j 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行。

3.計算i 與datamatrix(歸一化后數(shù)據(jù)矩陣)每一行(j)的相似度,記錄相似度低于設定值的行。

4.判斷與i 相似度低于設定值的調(diào)查對象數(shù)是否創(chuàng)新低,如果創(chuàng)新低則存儲,否則i 加一跳到1 行繼續(xù)執(zhí)行。

5.輸出所有記錄的中心點及對應的低相似度調(diào)查對象集合。

(四)實驗結果

以聯(lián)網(wǎng)直報平臺查詢導出默認順序?qū)?shù)據(jù)進行掃描,以每個調(diào)查對象為中心點執(zhí)行聚類,并記錄每一次擴大聚類范圍時的中心點及聚類單位數(shù),表2 記錄了2 月份B203 表每次擴大聚類范圍時的中心點及相關度較低的調(diào)查對象。以最后第一個出現(xiàn)的最大聚類集為最優(yōu)聚類集,表3 記錄了對2 至7 月份數(shù)據(jù)進行聚類后的中心點及相似度低于0.9 的調(diào)查單位。

表2 2 月份B203 表調(diào)查單位聚類結果(空白區(qū)相關度大于0.9)

續(xù)表

表3 2-7 月B203 表數(shù)據(jù)分析結果

續(xù)表

三、結果分析

從表3 可看出,填寫B(tài)203 表的調(diào)查單位聚集度較高,99.9%的調(diào)查單位聚集在不低于0.9 相似度的集群中,這說明我們選用的樣本數(shù)據(jù)整體上是穩(wěn)定的,沒有受到個別離群單位影響,這符合第一種設想,也證明在初步分類中全省B203 表填報質(zhì)量較高。

逐月觀察可以發(fā)現(xiàn),2 至7 月份與核心點相似度低于0.9的調(diào)查單位在逐步增多,相似度持續(xù)低于0.9 的企業(yè)中宇通客車、鴻富錦電子、雙匯實業(yè)、天方藥業(yè)和中煙工業(yè)始終保持與不同核心點的近似相似程度,企業(yè)數(shù)據(jù)與核心點相似度較低應該是企業(yè)特殊經(jīng)營管理造成的(見圖4)。

圖4 持續(xù)低于0.9 并保持穩(wěn)定的企業(yè)

中石化中原油田、義馬煤業(yè)、羚銳制藥和省電力公司,從2月份開始與不同核心點相似度就小于0.9,并呈持續(xù)下降態(tài)勢,說明企業(yè)填報數(shù)據(jù)與核心點的差距在逐步拉大(見圖5)。

圖5 相似度低于0.9 并逐步下降的企業(yè)

表3 中其他企業(yè)如鄭煤、富泰華電子、焦煤和中石化河南勘探局從最初與核心點高于0.9 相似度逐步下滑至低于0.9 相似度,體現(xiàn)了企業(yè)填報模式由高度接近核心點逐步偏離核心點(見圖6)。

圖6 相似度高于0.9 下滑至低于0.9 的企業(yè)

而大多數(shù)調(diào)查單位始終保持高于0.9 的相似度,反映了大多數(shù)企業(yè)始終堅持穩(wěn)定合理的填報模式,確保統(tǒng)計數(shù)據(jù)整體穩(wěn)定。

四、改進方向

余弦相似度通常用在文檔相似性度量領域,本文創(chuàng)新性地將余弦相似度用在企業(yè)填報數(shù)據(jù)的圖形識別上,試圖探索出一條拋開價值量含義,實現(xiàn)整體識別判斷的新道路。通過實現(xiàn),發(fā)現(xiàn)圖形識別確實能夠發(fā)現(xiàn)企業(yè)填報模式的區(qū)別,但靈敏度需要進一步改進。

(一)加強數(shù)據(jù)預處理

雖然前期我們對數(shù)據(jù)刪除了零值較多的列,進行了極差歸一化處理,但數(shù)據(jù)預處理工作仍有改進的空間。由于調(diào)查對象屬性指標較多,需要進一步判斷是否需要進行主成分分析,篩選更具代表性的屬性,剔除干擾屬性,提高識別準確率。此外極差歸一化只是將價值量指標的值域直接映射到[0,1]范圍內(nèi),但是指標分布密度沒有本質(zhì)改變,能否增加一個散列函數(shù),將指標均勻分部到[0,1]之間,從而合理擴大均勻散布調(diào)查對象的值差距。對指標中的相同數(shù)字處理也是需要進一步考慮的問題,不等于零的重復價值量是有意義的,而相同的零值被判斷為高度相似就應該設法篩除掉。

(二)有針對性改進相似度計算

加強數(shù)據(jù)理論學習,研究余弦夾角相似度計算內(nèi)在規(guī)律,針對統(tǒng)計數(shù)據(jù)圖形規(guī)律優(yōu)化計算過程,提高相似度計算的準確性。

(三)提高存儲運算能力

樣本數(shù)據(jù)只有二十個屬性、兩萬多條,相關度的計算量已經(jīng)上億次,單機計算時間達數(shù)小時,如何優(yōu)化存儲、提高運算能力是下一步必須考慮的問題。

(四)分行業(yè)、分地區(qū)進一步分析數(shù)據(jù)

從初步分析判斷看,樣本數(shù)據(jù)整體質(zhì)量較高,99.9%的數(shù)據(jù)保持較好的凝聚度。進一步深入分析數(shù)據(jù),提高相似度判斷靈敏性,分行業(yè)、分地區(qū)探索優(yōu)化分類條件。

猜你喜歡
分類企業(yè)
企業(yè)
企業(yè)
企業(yè)
企業(yè)
企業(yè)
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
敢為人先的企業(yè)——超惠投不動產(chǎn)
云南畫報(2020年9期)2020-10-27 02:03:26
分類討論求坐標
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 成人综合久久综合| 国产精品成人AⅤ在线一二三四| 不卡视频国产| 日本亚洲欧美在线| 久久综合干| 一本大道香蕉久中文在线播放| 国产男女免费视频| 欧美色99| 精品国产亚洲人成在线| 亚洲乱码精品久久久久..| 四虎永久在线精品国产免费| 综合人妻久久一区二区精品 | 中文字幕色站| 亚洲色婷婷一区二区| 国产日本一区二区三区| 中文字幕在线播放不卡| 国产综合在线观看视频| 亚洲国产看片基地久久1024| 九色综合伊人久久富二代| 99久久国产自偷自偷免费一区| 国产第一页亚洲| 国产亚洲欧美在线专区| 香蕉视频国产精品人| 欧美性久久久久| 91成人免费观看在线观看| 亚洲国产高清精品线久久| 亚洲欧美一级一级a| 久久久精品久久久久三级| 99国产精品国产| 国产亚洲精品在天天在线麻豆 | 国产成人免费| 91国内在线观看| 亚洲第一极品精品无码| 高h视频在线| 全裸无码专区| 久久男人资源站| 99中文字幕亚洲一区二区| 国内精品小视频在线| 欧美、日韩、国产综合一区| 天堂在线视频精品| 乱码国产乱码精品精在线播放| 国产无码精品在线| 热这里只有精品国产热门精品| 亚洲精品天堂在线观看| 99在线视频免费| 久青草免费在线视频| 一级爱做片免费观看久久| 在线无码九区| 精品伊人久久久香线蕉| 天堂成人在线视频| 亚洲免费成人网| 久久综合亚洲色一区二区三区| 女人爽到高潮免费视频大全| 东京热一区二区三区无码视频| 五月天天天色| 久久精品国产电影| 2018日日摸夜夜添狠狠躁| 国产亚洲精品97AA片在线播放| 亚洲国产综合第一精品小说| 在线国产三级| 亚洲国产日韩一区| 国产91精品久久| 九九香蕉视频| 久久国产精品波多野结衣| 91国内在线观看| 亚洲综合二区| 国产精品亚洲αv天堂无码| 毛片网站在线播放| 久久亚洲美女精品国产精品| 91美女视频在线观看| 欧美在线观看不卡| 久久精品66| 欧美日韩高清在线| 免费不卡视频| 国产婬乱a一级毛片多女| www.亚洲色图.com| 国产精品不卡永久免费| 国产区人妖精品人妖精品视频| 久久伊人操| 日韩av电影一区二区三区四区| 欧美精品伊人久久| 国产黑丝视频在线观看|