IBM SPSS Modeler算法系列

学习雪雪 2017-11-25

展开全文

C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹，它是由美國斯坦福大學和加州大學伯克利分校的Breiman等人於1984年提出的，從名稱中不難理解，它包含了分類樹和回歸樹，分類樹用於目標變量是分類型的，回歸樹用於目標變量是連續型的。

該算法分割的核心技術取決於目標變量的類型，如果是分類變量，可以選擇使用Gini或者是Twoing.如果是連續變量，會自動選擇LSD(Least-squared deviation)。

C&R Tree的生長是二叉樹，前面我們講過的C5.0和CHAID分別是以信息增益率和卡方為標準來選擇最佳分組變量和分割點，今天我們講的C&R Tree，如果目標變量是分類型，則以Gini系數來確認分割點，如果目標變量是數值型，則以方差來確認分割點。

ADVERTISEMENT

我們先來講目標變量是分類型的情況，我們稱之為分類樹：

在C&R Tree算法中，Gini系數反映的是目標變量組間差異程度，系數越小，組間差異越大。Gini系數計算公式如下：

G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2

其中T為總記錄數，t1,t2,t3,tn…..分別為輸出變量每個類別的記錄數

為了比較好理解這個公式，我們以分析結果來理解公式內容，如下圖：

該決策樹分析結果，是分析客戶的流失為目標，影響的因素有小朋友個數（children),婚姻狀態（Status)，年齡（age)等，我們先從根節點開始看。

根節點的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883

左邊節點G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833

ADVERTISEMENT

右邊節點G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252

C&R Tree采用Gini系數的減少量來測量異質性下降，因此

ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854

其中n1是左節點的記錄數833，n2是右節點的記錄數636，N是根節點的記錄數833+636=1469。

計算最終得到的ΔG(t)=0.05464854就是上圖中顯示的改進=0.055（四舍五入），那麽為什麽選擇這個children<-1.5和children>1/5作為分割點，是因為與其它影響因素相比較，這裏計算得到的ΔG(t)最大。所以在整個決策樹生長中，可以看到，越往下生長，ΔG(t)越小。

ADVERTISEMENT

針對連續變量，先對變量按升序排列，然後，從小到大依次以相鄰數值的中間值作為將樣本分為兩組，然後分別計算其ΔG(t)。針對分類變量，由於C&R Tree只能建立二叉樹（即只能有兩個分支），首先需將多類別合並成兩個類別，形成“超類”，然後計算兩“超類”下樣本輸出變量取值的異質性。

在IBM SPSS Modeler中，除了使用Gini系數的減少量作為標準，還可以選擇另外兩種標準，分別是Twoing（兩分法）和Ordered（有序），如下圖：

Twoing策略中，輸出變量的差異性測度仍采用Gini系數，不同的是，不再以使用Gini系數減少最快為原則，而是要找到使合並形成的左右子節點（兩個超類）中分布差異足夠大的合並點s，計算公式為：

仍以下圖決策樹結果為例：

因此

ADVERTISEMENT

該數值對應著上圖第一個根節點的改進=0.109（四舍五入）

可以看到，越是靠近根節點，該值越大。

Order策略適用於有序型輸入變量的情況，它只限定只有兩個連續的類別才可以合並成超類，最終得到最理想的兩個超類。

接下來我們來看目標變量是數值型的情況，我們稱為回歸樹。回歸樹確定最佳分組變量的策略與分類樹相同，主要不同是測試輸出變量異質性的指標，

回歸樹使用的是方差，因此異質性下降的測度指標為方差的減少量，其數學定義為：

其中R(t)和N分別為分組前輸出變量的方差和樣本量，R(t1),Nt1和R(t2)，Nt2分別為分組後左右子樹的方差和樣本量。使ΔR(t)達到最大的變量應為當前最佳分組變量。我們通過實際例子的結果倒推來理解這個計算公式。

我們使用SPSS Modeler做一個男裝銷售額（men)預測的場景，因為銷售額是數值型，我們選擇C&R Tree來實現，那麽影響男裝銷售的輸入影響因素有女裝銷售(women)、電話營銷成本（phone)等，得到的決策樹分析結果如下：

那麽為什麽生成的決策樹會以woman作為最佳分組變量，以51286.490作為分割點呢，因這它計算出來的ΔR(t)最大，大家可以嘗試找個例子自己計算看看，這裏不再贅述。

最佳分割點的確定方法與最佳分組亦是的確定方法相同。

在IBM SPSSModeler裏面，針對 C&R Tree算法，以上介紹的內容是確定分割點的核心標準，對於該算法，還有其它的內容，比如剪枝，交互樹建模等，感興趣的話，可以點擊以下鏈接到官網下載試用！

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

Tags: 斯坦福大學 children 小朋友伯克利二叉樹

文章來源：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：学习雪雪 > 《数据》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

学习雪雪

关注对话

TA的最新馆藏

[转] 世界知名泵企业，你知道几家？
[转] 老蛮新文――上海快没有接盘侠了购房讨论篱笆网
[转] 《大明王朝1566》中提到的青词你并不陌生，有一首青词人尽皆知
【恋爱闲语】不愿意放开过去的手
罗志祥的世界里，那个不起眼的“快乐冠军”
假如我有一个儿子

喜欢该文的人也喜欢更多

热门阅读换一换