本文轉自徐飛翔的“數據,模型,算法共同決定深度學習模型效果”
版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
在文獻[1]中對few-shot learning進行了很好地總結,其中提到了一個比較有意思的觀點,這里和大家分享下。先拋開few-shot learning的概念,我們先從幾個基本的機器學習的概念進行分析。
期望風險最小化(expected risk minimization): 假設數據分布已知,其中是特征,
是標簽,在給定了特定損失函數
的情況下,對于某個模型假設
,我們期望機器學習算法能夠最小化其期望風險,期望風險定義為:
假如模型的參數集合為,那么我們的目標是:
經驗風險最小化(empirical risk minimization): 實際上,數據分布通常不可知,那么我們就不能對其進行積分了,我們一般對該分布進行采樣,得到若干個具有標簽的樣本,我們將其數量記為
,那么我們用采樣結果對這個分布進行近似,因此,我們追求最小化經驗風險,這里的經驗(experience)的意思也就是指的是采樣得到的數據集:
此處的經驗風險(3)就可以近似期望風險(1)的近似進行最小化了(當然,在實踐中通常需要加上正則項)。
我們進行以下三種表示:
其中(4)表示最小化期望風險得到的理論上最優的假設,(5)表示在指定的假設空間
中最小化期望風險得到的約束最優假設
,(6)表示在指定的數據量為
的數據集上進行優化,并且在指定的假設空間
下最小化經驗風險得到的最優假設
?。
因為我們沒辦法知道,因此我們沒辦法求得
,那么作為近似,
是在假定了特定假設空間時候的近似,而
是在特定的數據集和特定假設空間里面的近似。進行簡單的代數變換,我們有(7):
其中用 ,
。
表征了在期望損失下,在給定的假設空間
下的最優假設
能多接近最佳假設
。而
表示了在給定假設空間
下,對經驗風險進行優化,而不是對期望風險進行優化造成的影響。不失特別的,我們用
?表示整個訓練集,有
。
我們不難發現,整個深度模型算法的效果,最后取決于假設空間和訓練集中數據量
。換句話說,為了減少總損失,我們可以從以下幾種角度進行考慮:
數據,也就是。
模型,其決定了假設空間。
算法,如何在指定的假設空間 中去搜索最佳假設以擬合
?。
通常來說,如果 ?數據量很大,那么我們就有充足的監督信息,在指定的假設空間
中,最小化
得到的
就可以提供對
的一個良好近似。然而,在few-shot learning (FSL)中,某些類別的樣本數特別少,不足以支撐起對良好假設的一個近似。其經驗風險項
和期望風險項
可能有著很大的距離,從而導致假設
?過擬合。事實上,這個是在FSL中的核心問題,即是 經驗風險最小假設
變得不再可靠。整個過程如Fig 1所示,左圖有著充足的樣本,因此其經驗風險最小假設
和
相當接近,在
設計合理的情況下,可以更好地近似
。而右圖則不同,
和
都比較遠,跟別說和
了。
Fig 1. 樣本充足和樣本缺乏,在學習過程中結果的示意圖。
為了解決在數據量缺少的情況下的不可靠的經驗風險問題,也就是FSL問題,我們必須要引入先驗知識,考慮到從數據,模型,算法這三個角度分別引入先驗知識,現有的FSL工作可以被分為以下幾種:
數據。在這類型方法中,我們利用先驗知識去對 ?進行數據增廣(data augment),從數據量
提高到
,通常
> I" />。隨后標準的機器學習算法就可以在已經增廣過后的數據集上進行。因此,我們可以得到更為精確的假設
?。如Fig 2 (a)所示。模型。這類型方法通過先驗知識去約束了假設空間
的復雜度,得到了各位窄小的假設空間
。如Fig 2 (b) 所示。灰色區域已經通過先驗知識給排除掉了,因此模型不會考慮往這些方向進行更新,因此,往往需要更少的數據就可以達到更為可靠的經驗風險假設。 算法。這類型的方法考慮使用先驗知識,指導如何對
進行搜索。先驗知識可以通過提供一個好的參數初始化,或者指導參數的更新步,進而影響參數搜索策略。對于后者來說,其導致的搜索更新步由先驗知識和經驗風險最小項共同決定。
Fig 2. 分別從數據,模型和算法三個角度去引入先驗知識。
Reference
[1]. Wang Y, Yao Q, Kwok J, et al. Generalizing from a few examples: A survey on few-shot learning[M]//arXiv: 1904.05046. 2019.