本文轉自徐飛翔的“貝葉斯之旅||第一講,貝葉斯決策”
版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
為什么要貝葉斯?
我們在以前的文章《概率派和貝葉斯派的區別》中,曾經討論過頻率學派和貝葉斯學派看待未知模型參數的一些觀點,我們這里簡單描述下就是:
頻率學派相信我們的模型參數盡管未知,但是其是有一個真實的值
的,只要我們的樣本足夠多,我們就可以準確無偏地估計出這個真實的值出來;而貝葉斯學派相信我們的模型的未知參數是一個隨機變量,而不是一個簡簡單單的值,因此是符合一個分布的。也就是說,基于我們現有的樣本數據,我們對模型中的未知參數的估計都是估計出這些未知參數先驗分布的一些參數而已,比如高斯分布的均值和協方差矩陣等等,在貝葉斯學派眼中,模型的參數本身就不是確定的,因此只能用隨機變量表達。
我們從以上的區別中可以看出,在貝葉斯模型中,因為每個參數都是一個隨機變量,也即是符合某個分布的,如果我們對數據的來源有一定的自信(比如我們的數據是關于電子科技大學的男女比例,我們就會知道這個比例將會大到爆炸,這個我們是很有自信的,因此可以作為先驗概率引入的。),那么你將可以通過假設參數分布的形式,引入你對數據的先驗知識(prior knowledge),我們稱之為對參數的先驗假設,表示為。我們以后將會發現,如果這個先驗知識足夠合理,將會使得模型即使是在小規模的數據上訓練,都可以獲得較為理想的效果,這點是頻率學派模型較難做到的。
總結來說,也就是貝葉斯模型在小數據集上具有更好的泛化性能,至于什么叫泛化性能,參考以前文章《經驗誤差,泛化誤差》。利用貝葉斯理論進行分類
在進行進一步討論之前,我們對我們接下來需要用的的符號進行統一的規定表示和解釋:
樣本(sample),,其中的
稱之為樣本的維度(dimension)。
狀態(state),第一類:?;第二類:
,在其他文獻中,這個通常也稱之為類別(class),指的是某個樣本配對的類別屬性。 先驗概率(prior),
,
,指的是對某些類別的預先知道的知識,比如在預測某個病人是否是癌癥病人的例子,在沒有得到任何關于這個病人的信息之前,因為我們知道得癌癥是一個較為低概率的事件,因此其先驗概率
是一個很小的值。先驗概率表現了我們對于某個知識的“信仰”。
樣本分布密度(sample distribution density), 。 類條件概率密度(class-conditional probablity density),
,
,這個概率也經常被稱之為似然概率(likelihood probablity)。
以上的術語將會在以后的文章中經常見到,我們屆時再做更加深入的討論。
讓我們考慮一個情景:
給你 n n n個樣本作為已知的訓練集,
,其對應的標簽為,
,先給你一個新的樣本
,其需要預測其標簽。
這個就是基本的分類問題的情景,為了簡便,不妨將這里的標簽看成是二分類標簽。我們可以將這個分類問題等價為求
和
的概率大小,一般來說,如果
,那么就可以將其判斷為第一類了對吧!反之亦然。
因為有概率論中的貝葉斯公式,我們有:
因為在
和
都是一樣的,因此在分類問題中,一般可以忽略這個項,我們有:
其中,稱之為先驗概率;
稱之為似然概率,或者稱之為類條件概率;
稱之為后驗概率(posterior)。其中,因為我們已經有了先前樣本
以及其對應的標簽
,因此可以估計出先驗概率和似然概率出來(一般情況下,需要對似然概率進行建模,我們后續再討論)。
總而言之,我們通過人工的先驗概率,和從已有數據中學習到的似然概率中,可以得到后驗概率,而后驗概率為我們的分類提供了很重要的依據。
決策論,如何做出一個合理的選擇
機器學習整個過程可以分為兩個階段,一是**推理(inference)階段,二是決策(decision)**階段。推理階段主要是從訓練樣本集中估計出 分布,決策階段是根據這個聯合概率分布,如何作出一個合理的決策,對樣本進行分類。
決策論(Decision Theory)[1]指導我們如何根據在推理階段得出的分布進行合理的分類。一般來說,決策策略可分為最小錯誤分類率策略和最小期望損失策略,我們分別介紹下。最小錯誤分類率
最小分類錯誤率(minimizing the misclassification rate)策略的主要目的就是讓分類錯誤率最小化,這個在大多數情況下是適用的。我們先對分類錯誤率這個概念進行定義,顯然,考慮二分類情況,將類別1的物體分類到了2或者相反就是誤分類了,用數學表達式表達就是:
其中的?稱之為決策區域(decision regions),如果輸入向量在決策區域
下,那么該輸入向量的所有樣本都是被預測為了
類。
表示將屬于類別 j j j的樣本分類為了類別
。對于一個新樣本
,為了最小化
,我們應該將其類別分到式子(2.1)中的被積函數中較小的一個,因為這樣,較大的一項就會因為決策區域不適合而變為0了,因此只會剩下一項較小的。換句話說,就是如果
,那么就將其預測為
。
我們這里引用[1] page 40 給出的圖示進行理解,如下圖所示,其中表示決策邊界,大于
將會被預測為第二類,小于則會被預測為第一類,于是,我們的決策錯誤率就是紅色區域,綠色區域和藍色區域的面積了。我們可以清楚的發現,不管
怎么移動,綠色和藍色區域的和是一個常數,只有紅色區域會在變化,因此直觀上看,只有當
的時候,也就是
的時候,才會有最小分類錯誤率。我們有:
也就是說,當 時,選擇
作為理論分類錯誤率最小的選擇。我們可以發現,選擇具有最大后驗概率的類別作為預測結果能夠達到最小分類錯誤率的效果,這個原則我們稱之為最大后驗概率原則,同時,我們留意,在參數估計中也有一個稱之為**最大后驗概率估計(maximize a posterior probablity, MAP)**的原則,請不要混淆。
當類別多于2類時,比如有 類時,計算正確率將會更加方便,我們有:
同理的,同樣是選擇具有最大后驗概率的類別作為預測結果,能夠達到最小分類錯誤率。
注意到,這個原則有一些等價的表達形式,我們將會在這個系列的附錄中進行補充。最小期望損失
按道理來說,最小分類錯誤已經可以在絕大多數任務中使用了,但是有一些任務,比如醫生根據CT影像對病人進行癌癥的診斷,在這些任務中,錯報和漏報可有著不同的后果。如果只是錯報,將沒有疾病的人診斷為病人,頂多再去進行一次體檢排查,但是如果將有癌癥的患者漏報成沒有疾病的人,那么就可能錯失了最佳的治療時機,因此這種情況下,這兩種錯誤方式可有著不同的代價。
為了對這個代價進行數學描述,我們引入了一個**損失矩陣(loss matrix)**用來描述不同錯誤分類帶來的不同代價:
這個矩陣很好的描述了我們剛才的需求,讓我們用表示,其中
表示其第
行,
列的元素。與最小化分類錯誤率不同的,我們定義一個代價函數:
我們的目標是最小化(3.1)。 當然,如果你需要對一個樣本作出決策,你也許需要將其分解為:
這里的表示Risk,表示分類為
類的風險,當然是越小越好。
因此總結來說,最小化風險的計算步驟為:
1.計算后驗概率:
2.計算風險:
3.決策:
顯然,當損失矩陣是一個單位矩陣的時候,最小分類錯誤率和最小分類風險等價。
Reference
[1] Bishop C M. Pattern recognition and machine learning (information science and statistics) springer-verlag new york[J]. Inc. Secaucus, NJ, USA, 2006.
[2] 張學工. 模式識別[J]. 2010.