999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ID3算法對農民工城市融入影響因素分析

2023-10-08 13:50:28陳韜宇安海燕
軟件工程 2023年10期
關鍵詞:特征信息

陳韜宇, 安海燕, 陳 杰

(1.貴州大學經濟學院, 貴州 貴陽 550025;2.貴州師范大學國際教育學院, 貴州 貴陽 550001)

0 引言(Introduction)

近年來,在我國經濟快速發展下,產生了特有的農民工群體。城鎮化發展至今,農村勞動力轉移的同時,也導致了各式各樣的問題[1-3]。從經濟學的視角來看,不論是生活的本質——衣食住行,還是社會保障、教育等都會影響農民工在城市的融入感[4-6]。如今,新生代農民工逐漸成為老一代農民工的接班人,而不同的成長環境和經歷,造成其在融入城市的過程中又產生了新的問題[7-9]。因此,有必要對影響農民工城市融入的因素進行進一步探究。本文采用信息學的ID3算法分析經濟、社交、社會福利和心理4個方面對農民工城市融入問題的影響,并為解決農民工城市融入問題提出相應的建議[10]。

本文以直觀的數據結果分析影響農民工城市融入的因素。其中,決策樹算法的典型應用在文獻[11]至文獻[13]中有提及,同時有許多學者對其進行了優化[14-16]。本文以大數據挖掘為基礎,對城市融入問題的研究進行方法上的創新[17-18]。

有別于傳統回歸分析方式,采取數據挖掘算法ID3分析農民工的城市融入問題,對影響因子的重要性進行樹形排列,得到直觀的信息,為該問題的深入研究提供方向和參考。

1 ID3算法模型(ID3 algorithm model)

ID3算法就是決策樹模型算法,它是一種基本的分類回歸方法,通常運用于大數據挖掘方面,與ID3算法類似的有C4.5算法(ID3算法的一種擴展算法)和CART算法。C4.5算法的優點在于產生的規則容易被理解,正確率比較高,操作實現的難度不高,但是它的缺點也同樣明顯,例如數據需要進行多次遍歷和排序,效率很低。ID3算法在剪枝和數據丟失值處理等方面區別于C4.5算法和CART算法。針對本文的問題,采取ID3算法更簡潔、有效,能夠準確地挖掘數據中隱藏的含義,體現影響農民工城市融入的主要因素和次要因素,也就是重要性的排序。

1.1 算法的介紹

ID3算法是一種經典的決策樹算法,常用于分析數據的重要性排序;它的原理是建立在奧卡姆剃刀原理的基礎上,用較少的樣本獲取更多的隱藏信息。在信息理論中,期望信息越小,那么信息增益(Gain)就越大。ID3算法的核心思想就是通過信息增益大小作為屬性的選擇理論依據進行分裂挖掘。

1.2 ID3算法中數值的基本定義

(1)信息熵。熵的概念是在物理學中被定義的,它是在物理學中用作測量一個熱力學系統的無序程度,在信息學的理論中,熵是對不確定性信息的度量。香農(Claude Shannon)對物理學中的熵重新進行定義,出現了信息學中的信息熵,并將其定義為離散隨機事件出現的概率。一個數據集或者系統當中的數據越有序,信息熵就越低;一個數據集或者系統當中的數據越無序,信息熵就越高。假如一個隨機變量D的取值為D={d1,d2,d3,d4,…,dn},每一種取到的概率分別是{p1,p1,p3,…,pn},那么D的熵定義如下:

(1)

其中,Entropy(D)為數據總信息熵,pi為取到該項數據的概率。

一個變量的變化越多,那么它攜帶的信息量就越大。本文研究通過ID3算法對調研數據進行處理,分析調研數據的信息量并用信息熵表示。由熵的定義可知,熵只決定了X的分布規律,與X的取值大小沒有關系。

(2)期望信息也稱為分類系統的熵或者條件熵,對于分類系統來說,特征A是擁有不同的類別{A1,A2,…,An}變量,它的樣本個數分別記為{C1,C2,C3,…,Cn},而每一個類別出現的概率分別是P(C1),P(C2),…,P(Cn),其中n表示類別的總數量。所以,期望信息(條件熵)就可以用公式(2)表示:

(2)

(3)信息增益是ID3算法中最核心的判別特征,也是區別重要性的依據。將信息增益定義為Gain,信息增益是數據集D分裂前與分裂后的差,表示由于特征的分裂引起數據集的不確定性程度降低。通過計算得到數據分裂的根據是由于當特征的取值較多時,以此特征劃分更容易得到純度更高的子集,表現為如圖1所示的經濟因素特征下還有特征可以分裂,也就是決策樹根節點順序由高到低表示重要程度的高低。

圖1 決策樹算法模型結果圖Fig.1 Result graph of decision tree algorithm model

信息增益越高,意味著劃分后的子節點純度越高,對于分類的貢獻越大。因此,ID3算法須選擇信息增益最大的節點作為父節點。表示信息增益的公式如下:

GainA(D)=E(D)-H(D/A)

(3)

其中,GainA(D)表示特征A中的信息增益,E(D)表示原始樣本的信息熵,H(D/A)表示特征A的條件熵。

2 調研數據處理及分析(Research data processing and analysis)

2.1 數據來源和數據的初步處理

數據來源于實地調研,有效的調研問卷總計359份,所有數據均來自調研對象農民工。在問卷中設計了包括經濟(收入)、社會福利(教育和醫療水平)、社交(親友數量)及心理(受到歧視心理影響程度)等方面的問題。將調查的實驗數據進行匯總并歸納分析,將其分為15個大類,重復的數據歸為一個類別,得到的歸納分析結果如表1所示。

表1 數據歸納分析表Tab.1 Data summary and analysis table

本文研究將影響城市融入的影響因素分為經濟(收入)、社會福利(教育和醫療水平)、社交(親友數量)、心理(受到歧視心理影響程度)4個方面。問卷調查中將收入變化和生活成本變化程度由弱到強分為5個。但是,由于問卷中的問題過于細分化,所以將5個程度減少為3個程度,分別是低、中、高,并且由于在調查問卷中調研對象選擇的程度在3~5的范圍,所以可以將程度1~2去除,最后的結果為低(3)、中(4)、高(5),分別代表了調研對象對經濟部分問題的感知和反饋程度。社會福利、社交和心理三個影響因素進行同樣的量化分類,具體如表1所示。

2.2 數據計算處理過程

2.2.1 計算總體熵

經歸納分析后的問卷結果見表1。表1中有15個例子,共有兩個大類,即城市融入的“是”與“否”,同時擁有4個特征,分別經濟、社會福利、社交和心理。感到融入“是”的比例為7/15,感到融入“否”的比例為8/15。

計算總體熵,假設D為表1所有的數據集合,經計算可得:

這里將Entropy(D)記為縮寫E(D),所以E(D)≈0.997(保留三位小數,下同)。

2.2.2 計算特征下的條件熵

4個特征即C1為經濟、C2為社會福利、C3為社交、C4為心理,將兩個大類記為B1與B2,分別用A1、A2和A3代表經濟因素影響的高、中、低三個程度。

(1)以經濟為特征計算條件熵表(如表2所示)。

表2 經濟特征條件熵表Tab.2 Entropy table of economic characteristic conditions

根據經濟為特征的熵:

H(D/C1)=PC1×H(D/C1A1)+

PC1×H(D/C1A2)+PC1×H(D/C1A3)

(4)

根據公式(2)可得樣本特征為經濟的高、中、低的熵:

以經濟為特征的熵:

(2)以社會福利為特征計算條件熵(如表3所示)。

表3 社會福利條件熵表Tab.3 Entropy table of social welfare conditions

根據社會福利為特征的條件熵:

H(D/C2)=PC2×H(D/C2A1)+

PC2×H(D/C2A2)+PC2×H(D/C2A3)

(5)

H(D/C2A3)=-0log20-log21=0

以社會福利為特征的熵:

(3)以社交為特征計算條件熵(如表4所示)。

表4 社交特征條件熵表Tab.4 Entropy table of social feature conditions

根據社交為特征的條件熵:

H(D/C3)=PC3×H(D/C3A1)+PC3×H(D/C3A3)

(6)

以社交為特征的熵:

(4)以心理為特征計算條件熵(如表5所示)。

表5 心理特征條件熵表Tab.5 Entropy table of psychological feature conditions

根據心理為特征的條件熵:

H(D/C4)=PC4×H(D/C4A1)+PC4×H(D/C4A3)

(7)

以心理為特征的熵:

2.2.3 計算信息增益

信息增益通過以下公式計算,并選取出最大的信息增益作為樹的根節點,也就是最重要因素的決出。

Gain(D/Ci)=E(D)-H(D/Ci)

(8)

Gain(D/C1)=E(D)-H(D/C1)=0.997-0.805=0.192
Gain(D/C2)=E(D)-H(D/C2)=0.997-0.860=0.137
Gain(D/C3)=E(D)-H(D/C3)=0.997-0.990=0.007
Gain(D/C4)=E(D)-H(D/C4)=0.997-0.971=0.026

選取具有最大增益的特征作為樹的根節點,也就是經濟因素C1作為根節點。

(1)接下來進行數據集劃分,經濟因素影響程度高(C1A1)對應表1的數據集為X1={1,2,3,4,5};經濟因素影響程度中(C1A2)對應表1的數據集為X2={6,7,8,9,10};經濟因素影響程度低(C1A3)對應表1的數據集為X3={11,12,13,14,15}。

(2)進行數據集的劃分后,對每個數據集進行決策樹算法,在數據集的子集中求出各個子集信息增益,從而得到X1中C2特征最為顯著,也就是信息增益最大,將其設置為分枝根節點。同理,在X2中的信息增益最大的也是C2,對C2再進行決策樹算法,同時對其數據集劃分得到C2特征中高的信息增益為特征C4,C2特征中的信息增益較高的為C3,所以得到信息增益在各個特征下的信息增益排序,各個特征下低的部分皆為否類,并畫出決策樹的圖(如圖1所示)。

3 結論(Conclusion)

根據實驗結果和數據決策樹分析圖可知,經濟因素是第一影響因素,社會福利因素是次要影響因素,這反映了農民工對社會福利的關心程度較高,從側面反映了農民工只有在強烈感受到社會保障(如醫療和教育)的福利之后,才會降低城市無法融入感,甚至認可自身融入城市。對政府來說,完善社會福利體系,醫療、教育、保險都是很重要的方面。同時,對于社會福利的微觀方面,應該盡力幫助農民工對享受到保障措施的程序簡單化,杜絕各種享受福利需要各種部門蓋章的煩瑣程序,讓農民工感受到城市對其的包容。研究表明,心理和社交因素對于農民工城市融入的影響程度比較低。農民工是否覺得自己受到歧視以及影響其城市融入的程度并不是那么在意,更多的是關心自己的經濟收入和社會福利是否得到保障。政府需要加強農民工的心理健康建設,例如讓農民工重視工作的長遠規劃,建立職業信心與生活信念等。

猜你喜歡
特征信息
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产综合日韩另类一区二区| 国产亚洲精品精品精品| 日韩中文字幕亚洲无线码| 亚洲成aⅴ人在线观看| 欧美国产日韩另类| 日韩国产精品无码一区二区三区| 草逼视频国产| 毛片a级毛片免费观看免下载| 这里只有精品在线| 欧美亚洲国产精品第一页| 免费中文字幕一级毛片| 91网在线| 成年片色大黄全免费网站久久| 国产午夜人做人免费视频中文| 亚洲天堂视频网站| 国产精品短篇二区| 久久这里只精品国产99热8| 中文字幕乱码中文乱码51精品| 六月婷婷精品视频在线观看| 欧美中文字幕一区| 色综合中文| 久久久久国产精品熟女影院| 日韩av无码DVD| 欧美成人午夜视频免看| 免费观看国产小粉嫩喷水| 在线一级毛片| 久久精品最新免费国产成人| 国产第一色| 亚洲无码免费黄色网址| 日韩av无码精品专区| 精品一区二区三区中文字幕| 99一级毛片| 在线视频一区二区三区不卡| 亚洲精品无码抽插日韩| 波多野结衣一区二区三区四区 | 免费在线国产一区二区三区精品| 亚洲中文精品人人永久免费| 伊人91视频| 色噜噜久久| 欧美黄网在线| 国产成人1024精品下载| 国产成人久视频免费| 欧美在线视频a| 国产在线自在拍91精品黑人| 国产免费福利网站| 99re热精品视频国产免费| 精品国产美女福到在线直播| 亚洲欧美色中文字幕| 国产亚洲精品资源在线26u| 国产精品林美惠子在线播放| 浮力影院国产第一页| 99一级毛片| 国产精欧美一区二区三区| 久久精品人人做人人爽97| 91久久性奴调教国产免费| 亚洲欧洲日本在线| 亚洲欧美极品| 9久久伊人精品综合| 日本色综合网| 91成人精品视频| 青青青国产精品国产精品美女| 97色伦色在线综合视频| 又粗又大又爽又紧免费视频| 日韩精品久久久久久久电影蜜臀| 亚洲系列无码专区偷窥无码| 国产人成午夜免费看| 国产va在线观看免费| 亚洲一级毛片在线观| 欧美国产综合视频| 2022国产无码在线| 亚洲第一成年网| 久久这里只有精品2| 免费看美女自慰的网站| 97青青青国产在线播放| 亚洲精品无码高潮喷水A| 亚洲色图狠狠干| 91精品伊人久久大香线蕉| 国产最爽的乱婬视频国语对白| a毛片免费在线观看| 国内精品免费| 热热久久狠狠偷偷色男同| 日本免费福利视频|