分享

IBM SPSS Modeler算法系列

 学习雪雪 2017-11-25

C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹,它是由美國斯坦福大學和加州大學伯克利分校的Breiman等人於1984年提出的,從名稱中不難理解,它包含了分類樹和回歸樹,分類樹用於目標變量是分類型的,回歸樹用於目標變量是連續型的。

該算法分割的核心技術取決於目標變量的類型,如果是分類變量,可以選擇使用Gini或者是Twoing.如果是連續變量,會自動選擇LSD(Least-squared deviation)。

C&R Tree的生長是二叉樹, 前面我們講過的C5.0和CHAID分別是以信息增益率和卡方為標準來選擇最佳分組變量和分割點,今天我們講的C&R Tree,如果目標變量是分類型,則以Gini系數來確認分割點,如果目標變量是數值型,則以方差來確認分割點。

ADVERTISEMENT

我們先來講目標變量是分類型的情況,我們稱之為分類樹:

在C&R Tree算法中,Gini系數反映的是目標變量組間差異程度,系數越小,組間差異越大。Gini系數計算公式如下:

G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2

其中T為總記錄數,t1,t2,t3,tn…..分別為輸出變量每個類別的記錄數

為了比較好理解這個公式,我們以分析結果來理解公式內容,如下圖:

spss

該決策樹分析結果,是分析客戶的流失為目標,影響的因素有小朋友個數(children),婚姻狀態(Status),年齡(age)等,我們先從根節點開始看。

根節點的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883

左邊節點G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833

ADVERTISEMENT

右邊節點G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252

C&R Tree采用Gini系數的減少量來測量異質性下降,因此

ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854

其中n1是左節點的記錄數833,n2是右節點的記錄數636,N是根節點的記錄數833+636=1469。

計算最終得到的ΔG(t)=0.05464854就是上圖中顯示的改進=0.055(四舍五入),那麽為什麽選擇這個children<-1.5和children>1/5作為分割點,是因為與其它影響因素相比較,這裏計算得到的ΔG(t)最大。所以在整個決策樹生長中,可以看到,越往下生長,ΔG(t)越小。

ADVERTISEMENT

針對連續變量,先對變量按升序排列,然後,從小到大依次以相鄰數值的中間值作為將樣本分為兩組,然後分別計算其ΔG(t)。針對分類變量,由於C&R Tree只能建立二叉樹(即只能有兩個分支),首先需將多類別合並成兩個類別,形成“超類”,然後計算兩“超類”下樣本輸出變量取值的異質性。

在IBM SPSS Modeler中,除了使用Gini系數的減少量作為標準,還可以選擇另外兩種標準,分別是Twoing(兩分法)和Ordered(有序),如下圖:

spss

Twoing策略中,輸出變量的差異性測度仍采用Gini系數,不同的是,不再以使用Gini系數減少最快為原則,而是要找到使合並形成的左右子節點(兩個超類)中分布差異足夠大的合並點s,計算公式為:

spss

仍以下圖決策樹結果為例:

spss spss

因此

ADVERTISEMENT
spss

該數值對應著上圖第一個根節點的改進=0.109(四舍五入)

spss

可以看到,越是靠近根節點,該值越大。

Order策略適用於有序型輸入變量的情況 ,它只限定只有兩個連續的類別才可以合並成超類,最終得到最理想的兩個超類。

接下來我們來看目標變量是數值型的情況,我們稱為回歸樹。 回歸樹確定最佳分組變量的策略與分類樹相同,主要不同是測試輸出變量異質性的指標,

回歸樹使用的是方差,因此異質性下降的測度指標為方差的減少量,其數學定義為:

spss

其中R(t)和N分別為分組前輸出變量的方差和樣本量,R(t1),Nt1和R(t2),Nt2分別為分組後左右子樹的方差和樣本量。使ΔR(t)達到最大的變量應為當前最佳分組變量。我們通過實際例子的結果倒推來理解這個計算公式。

我們使用SPSS Modeler做一個男裝銷售額(men)預測的場景,因為銷售額是數值型,我們選擇C&R Tree來實現,那麽影響男裝銷售的輸入影響因素有女裝銷售(women)、電話營銷成本(phone)等,得到的決策樹分析結果如下:

spss

那麽為什麽生成的決策樹會以woman作為最佳分組變量,以51286.490作為分割點呢,因這它計算出來的ΔR(t)最大,大家可以嘗試找個例子自己計算看看,這裏不再贅述。

最佳分割點的確定方法與最佳分組亦是的確定方法相同。

在IBM SPSSModeler裏面,針對 C&R Tree算法,以上介紹的內容是確定分割點的核心標準,對於該算法,還有其它的內容,比如剪枝,交互樹建模等,感興趣的話,可以點擊以下鏈接到官網下載試用!

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>


Tags: 斯坦福大學 children 小朋友 伯克利 二叉樹

文章來源:          

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多