99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

為何基于樹的模型在表格型數據中能優于深度學習?

表格型數據如Fig 1.所示,其每一行是一個觀測(observation),或者說樣本(sample),每一列是一維特征(feature),或者說屬性(attribution)。這種數據在現實生活中經常遇到,比如對銀行客戶進行放貸風險評估就有類似的表格型數據。表格型數據的特征一般有兩類,數值型特征(numeric feature)和類別型特征(categories feature)。在天池和kaggle等數據比賽中,經常會遇到類似的表格型數據,而常常稱霸榜單的算法通常都是基于樹模型的方法,而不是深度學習模型,即使后者已經在諸多領域隱約一統江湖。那么為何深度學習在表格型數據上會遭到如此奇恥大辱呢?論文[1]從三個角度進行了分析。

Fig 1. 表格型數據示例,每一行是一個觀測(observation),或者說樣本(sample),每一列是一維特征(feature),或者說屬性(attribution)。

為了讓實驗結果更為置信可比,作者收集了45個用于對比試驗的表格型數據集,這些數據集的采集和收集過程請參考原文,這里就不介紹了。由于原生的樹模型無法對類別型特征進行處理(LightGBM除外,其采用了Fisher[2]的方法進行類別特征分組。),因此本文對類別型數據進行了one-hot編碼處理。從分類和回歸任務上看,如Fig 2.所示,無論從只有數值型特征的數據集,還是數值型和類別型數據集共存的數據集看,的確都是樹模型(XGBoost, RandomForest, GBT)效果要更好。

Fig 2. 無論是在分類還是回歸任務中,樹模型在表格型數據上的表現都顯著優于深度學習模型。那么表格型數據為什么那么神奇,能讓樹模型在各種真實場景的表格數據中都戰勝深度學習呢?作者認為有以下三種可能:

  • 神經網絡傾向于得到過于平滑的解
  • 冗余無信息的特征更容易影響神經網絡
  • 表格型數據并不是旋轉不變的

我們分別分析下作者給這三個觀點帶來的論據。

神經網絡傾向于得到過于平滑的解

首先我們假設表格型數據的標注是具有噪聲的,并且假設其是高斯噪聲,那么可以通過高斯平滑(Gaussian Smooth)進行標注平滑,高斯平滑采用高斯核,可見博文[3]所示。高斯核公式如(1-1)所示

其中的為第i個樣本的特征,一共有D DD維特征, 的協方差矩陣。通過博文[1]的介紹,我們可知協方差矩陣其實描述了高斯分布在特征不同維度的線性拉伸情況,為了人工對這個拉伸情況進行控制,可以在其基礎上乘上一個尺度系數 ,也即是可以將(1-1)公式中的協方差矩陣改為,那么,也即是 越大,其拉伸擴大的更多,平滑效果也就更大。高斯核描述了兩個樣本之間在高斯分布上的相關程度,可以根據這個相關程度對樣本的標簽進行加權平滑,如式子(1-2)所示。

其中的為第i ii個樣本的真實標簽,而為第i個樣本的平滑后標簽,可見到是根據高斯分布中的相關程度進行N NN個樣本的加權平滑得到最終的樣本標簽。在本文中,作者分別將設為0.05, 0.1, 0.25,當的時候,認為是采用原始標簽。如Fig 3. (a)所示,可以發現進行了標簽的高斯平滑后,基于樹的模型(GBT, 隨機森林)的測試表現下降明顯,而基于神經網絡的模型(FT Transformer和Resnet)則下降不明顯,并且可以觀察到樹模型下降后的性能和神經網絡的性能差距,隨著平滑系數的增大而減少。這說明了神經網絡對于表格型數據,在某些程度上是進行了標簽的高斯平滑處理的,而樹模型則不會進行這個操作,因此神經網絡的結果會更為的平滑(筆者:雖然筆者認為這個結論很可能是成立的,但是從目前試驗看,筆者認為這個只能證明是更加的高斯平滑,不能證明是更加平滑)。同時,筆者對樹模型和神經網絡模型的決策邊界進行了可視化,如Fig 3. (b)所示,作者通過樹模型的權重大小,挑選了兩維最為重要的特征,然后進行可視化。我們可以看到,樹模型明顯決策邊界更為跳動,而神經網絡模型則明顯更為平滑,有部分邊緣樣本點將被神經網絡漏檢。這里筆者主要有一點質疑,就是這里為了可視化方便而挑選了兩位最為重要的特征作為橫軸縱軸,但是挑選的依據是樹模型的權重,而我們知道樹模型的權重其實是根據分裂增益進行計算得到的,這樣挑選出來的特征進行可視化決策邊界,會不會天然對樹模型有優勢呢?比如會產生更多的分裂點,導致能對更多邊緣樣本進行檢出?

Fig 3. (a) 分別設置不同的平滑系數后,不同模型的測試集表現; (b) 隨機森林和MLP算法對樣本的測試集決策邊界情況。

總的來說,作者通過以上的試驗,證實了我們的表格型數據的目標(也即是標簽)大多數不是平滑的(至少不是高斯平滑的),對比于樹模型,神經網絡會傾向于去擬合那些不規則的樣本,導致在某些程度對這些樣本進行了平滑。

冗余無信息的特征更容易影響神經網絡

作者認為表格型數據中含有更多無信息量(uninformative)的冗余特征,而樹模型對這些無信息特征更為魯棒。作者將表格型數據的特征按照重要性降序排序(此處的重要性同樣是由樹模型的分裂增益進行判斷),然后按照百分比將不重要的特征依次剔除后進行試驗。如Fig 4. (a)所示,其中的綠線是樹模型對移除后的特征(也就是更為重要的特征)進行擬合得到測試曲線,我們發現移除大部分不重要特征對結果的影響并不大(去除了50%的特征后仍有80%左右的準確率),這也意味著其實只有少部分特征是具有高信息量的。而紅線是樹模型對移除的特征(也就是更為不重要的特征)進行擬合得到的測試曲線,我們能發現即便用了一半的(少信息量)特征,其測試結果也僅有50%,同樣驗證了我們之前得到的結論——少部分特征carry了全場。對比神經網絡的結果,如Fig 4. (b)所示,左圖表示樹模型和神經網絡模型在去除不同比例的不重要特征后的測試曲線變化,我們發現當去除更多的不重要特征后,神經網絡和樹模型的測試表現差別逐漸減少到相等,這意味著神經網絡其實對于這種冗余無信息的特征更為不魯棒。而Fig 4. (b)的右圖則是通過高斯分布產出了一些偽特征,這些偽特征無信息量,通過把這些無信息量特征拼接到原有的樣本上,我們模擬了引入無信息特征的過程。我們發現引入更多的無信息特征,神經網絡和樹模型的測試效果差距將會明顯增大。

Fig 4. (a) 樹模型在去除不同比例的無信息特征的表現;(b) 樹模型和神經網絡在無信息量特征上的表現差別,將會隨著無信息量特征的減少而減少。

至于筆者的看法,筆者認為這里挑選重要性特征的依據,同樣是根據樹模型的權重進行判斷的,用樹模型權重挑選出所謂不重要的特征,然后進行測試驗證去說明樹模型對不重要特征更為魯棒,是否會對神經網絡不公平呢? 當然Fig 4. (b)的試驗由于不依賴與特征的權重,而是由高斯分布產出一些無信息量特征,筆者認為還是更可靠,更有說服力的。

表格型數據并不是旋轉不變的作者在文章中認為表格型數據并不是旋轉不變的,而神經網絡會對數據進行旋轉不變的處理,因此效果更差。首先筆者要說明什么是旋轉不變性(rotation invariant),對于函數f ( x ) ,如果有:

則稱之為該函數具有旋轉不變性。其中的 。不難發現,神經網絡MLP天然具有這種旋轉不變性,神經網絡MLP每層由全連接層組成,數學形式正是如式子(3-1)描述的矩陣乘法。因此神經網絡從原理上看,在保證基礎網絡(綠色節點)不變的情況下,只需要增加一層全連接層 ,只要藍色節點的網絡學到即可(也稱為旋轉不變矩陣)。這對于神經網絡而言并不是一件難事。

Fig 5. 神經網絡MLP天然具有旋轉不變性,最簡單的例子就是添加一層全連接層即可實現。

這種旋轉不變性對于表格型數據而言并不是一件好事。不同于圖片數據,圖片數據訓練過程中,經常會考慮采用對圖片進行一定的旋轉,以增強模型的旋轉不變性。這個是因為圖片像素作為一種各向同性的原始特征,每個像素并沒有各自的物理含義,因此旋轉也不會改變其物理含義。相反地,由于圖片實體在不同角度下大部分都保持同一語義(當然也有例外,比如數字9和6的圖片,進行180度旋轉后可能導致語義錯誤),因此期望模型具有旋轉不變性。但是表格型數據的每一列通常都是具有顯著物理含義的,比如性別,年齡,收入,工作類型等等,對這些進行數據旋轉,那么產出的特征將不具有任何物理含義了。

如Fig 5. (a)所示,在實驗中將數據集的特征進行隨機旋轉,觀察樹模型和神經網絡模型的測試結果。我們可以發現,基于Resnet的測試結果基本上沒有任何變化,這證實了Resnet具有函數上的旋轉不變性。而樹模型GBT和隨機森林均有大幅度的性能下降(~20%),由此我們可以得出結論,神經網絡模型在處理特征的過程中,已經對特征進行了一定程度的旋轉,因此在人工加入旋轉干擾的情況下,神經網絡的測試結果幾乎不下降。而樹模型無旋轉不變性,當引入人工旋轉干擾后,由于數據特征的物理含義完全被打亂了,因此性能大幅度下降。注意到一點,表格型數據中含有大量無信息量的特征,對數據進行的旋轉操作,會直接導致有信息特征中混入無信息特征,從而影響特征效果。如Fig 5. (b)所示,當去掉不重要的特征后(即是按重要性排序的后50%特征),同樣進行人工旋轉干擾,我們發現樹模型的結果下降得沒有那么厲害了(~15%),這是因為無關特征被大量去除后,人工旋轉干擾導致的無信息特征引入減少了。

Fig 5. (a) 進行數據旋轉 VS 不進行數據旋轉的試驗結果; (b) 去除了50%不重要的特征后,重新進行人工特征旋轉干擾試驗。

Reference

[1]. Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. “Why do tree-based models still outperform deep learning on tabular data?.” arXiv preprint arXiv:2207.08815 (2022).

[2]. Fisher, Walter D. “On grouping for maximum homogeneity.” Journal of the American statistical Association 53, no. 284 (1958): 789-798.

[3]. https://blog.csdn.net/LoseInVain/article/details/80339201, 《理解多維高斯分布》

[4]. Andrew Y. Ng. Feature selection, L 1 vs. L 2 regularization, and rotational invariance. In Twenty-First International Conference on Machine Learning - ICML ’04, page 78, Banff, Alberta, Canada, 2004. ACM Press. doi: 10.1145/1015330.1015435.

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 3
收藏 4
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 亚洲v在线 | 91精品观看 | 少妇被粗大的猛烈进出动态图片 | 夜夜爽天天干 | 在线观看视频网站www色 | 久久精品欧洲AV无码四区 | 精品无码国模私拍视频 | 亚洲AV无码一区二区三区观看 | 精品国产丝袜自在线拍国语 | 午夜影院在线午夜影院在线观看 | 在线观看日本一区 | 欧美熟妇大胆bbww | 欧亚av| 三个男人躁我一个爽公交车上 | 无遮无挡爽爽免费视频 | 久久天天躁狠狠躁夜夜96流白浆 | 蜜臀久久99精品久久久久久 | 中国一级黄色片子 | 日韩一本之道一区中文字幕 | 国产成熟女人性满足视频 | 911精品美国片911久久久 | 亚洲有吗在线观看 | 69一区二区| 黑人狂躁日本妞一区二区三区 | 久久婷婷五月综合色首页 | 无码H肉3D动漫在线观看 | 久久精品国产欧美 | 好男人社区神马影视www | 国产在线精品拍揄自揄免费 | www.中出| 国内揄拍国内精品少妇国语 | av观看在线免费 | 国产精品麻豆 | 一本一道久久a久久综合蜜桃 | 亚洲一区中文日韩 | 日韩视频一区二区三区在线观看 | 欧美成人高清ww | 无码专区无码专区视频网址 | 国产网红主播精品一区二区三区 | 人妻熟妇乱又伦精品视频 | 亚洲av无码乱码在线观看富二代 |