假如一個多模態分類模型由M個模態信息組成(如RGB,光流,音頻,深度信息等等),每一個模態的輸入記為,每一個模態的特征提取網絡記為
,其中
,那么對于一個后融合(Late-fusion)[2]的多模態分類模型來說,如Fig1.1©所示,其后融合的多模態特征由拼接(concatenate)操作構成,因此多模態特征表示為
,其中? \bigoplus?表示拼接操作。最后將會用f m f_mf m? 進行訓練和分類。假設訓練集為
,其中
為第i個訓練樣本而
為第i個訓練樣本的標簽,那么對于多模態分類而言,其損失為:
容易知道對于單模態分類而言,其損失為:
Fig 1.1 多模態聯合訓練,采用后融合的方式進行不同模態的信息融合。
從理想情況看,由于多模態特征是由各個模態的特征拼接而成的,通過訓練學習出合適的分類器參數 ,那么多模態損失(1-1)就可以崩塌到單模態損失(1-2),也就是說最壞情況下多模態訓練得到的結果,都應該要比單模態訓練的要好。然而結果并不是如此,如Fig 1.2(a)所示,以在Kinetics上的結果為例,最好的單模態結果總是要顯著比多模態結果(Audio,RGB,Optical Flow三者的任意組合)要好。不僅如此,如Fig 1.2(b)所示,即便采用了一些流行的正則手段,也無法得到有效的效果提升。這不是偶然,[1]的作者認為這是由于不同模態的信息陷入過擬合的節奏是不同的,而通過相同的訓練策略對多模態特征進行訓練,可能對于整體而言并不能達到最優的狀態。為此,對于多模態損失而言需要適當地進行加權,去適應不同模態學習的節奏,假設權系數
滿足
,其中的k kk是第k kk個模態,那么最終的損失為:
其中的模態表示的是拼接起來后的多模態特征,也即是式子(1-1)所示的損失。關鍵問題有兩個:
這些模態均衡系數應該怎么確定這些模態均衡系數是在線計算(動態更新)還是離線計算(靜態計算后使用)顯然,均衡系數是一個超參數,單純靠網格搜索或人工調參肯定不顯示,而且無法解決關鍵問題2,也即是動態更新。因此作者提出了一種確定多模態均衡系數的方法。
ig 1.2 (a)多模態訓練得到的模型總是比最優的單模態訓練模型更差;(b) 采用了一些常用的正則手段也無法獲得有效的效果提升。
首先需要定義出一個度量以衡量該模態的過擬合與泛化情況,如Fig 1.3所示,作者定義了一種綜合度量模型的過擬合與泛化情況的指標,其定義為過擬合程度與泛化程度的比值的絕對值,如式子(1-4)所示。其中 ,而
,表示為訓練損失和驗證損失的差值,其可被認為是過擬合大小,顯然該值越大,過擬合程度越大。而
表示第N個epoch與第
個epoch之間的過擬合程度差值。那怎么表示泛化能力呢?可以通過第N個epoch與第
個epoch之間的驗證損失
的差值表示兩個checkpoint之間的泛化能力差值。也就是說可以將式子(1-4)認為是兩個epoch的checkpoint之間的過擬合程度與泛化程度比值的差分。顯然我們希望OGR指標越小越好。注意此處的
表示理想中的真實驗證損失,通常會用有限的驗證集損失去近似,表示為
。后續我們都用
代替
。
顯然有
然而對于欠擬合的模型來說,可能? 足夠小也會導致OGR指標也很小,但是這并沒有意義,因為模型仍然未學習好。因此此處用無窮小量進行衡量,也即是有:
當然,由于此處的n nn有實際的模型含義(一個step),也就是說其實應該是n → 1 n\rightarrow 1n→1,也就是只有1個step的參數更新。對此我們對損失進行一階泰勒展開有:
結合(1-5)和(1-7)我們有:
因此有:
Fig 1.3 定義出OGR以描述該模態模型下的過擬合與泛化情況。
此時我們對每個模態的梯度? 進行預估,這個預估通過各模態對應的分類器梯度反向求導得到,表示為
? ,當滿足
,其中
時,并且給定約束
,我們的對
求最小值以求得最佳的模態均衡參數,表示為(1-10):
原文[1]中對其進行了解析解的證明,這里就不展開了,其解析解如(1-11):
其中,
是標準化常數項。由此可計算出最佳的模態均衡系數,回答了我們之前提出的第一個問題。
在實踐中,再強調下,正如一開始所說的,無法得到,因此通常會從訓練集中劃出一部分V作為子集去驗證,得到
,用此去近似
。此時我們可以正式去描述Gradient-Blending(GB)算法了,我們的數據集包括訓練集T TT,訓練集中劃出來的驗證集V,k 個輸入模態
以及一個多模態拼接得到的特征
。對于GB算法來說,有兩種形式:
離線Gradient-Blending: 只計算一次模態均衡參數,并且在以后的訓練中都一直固定。在線Gradient-Blending: 將會定期(比如每n個epoch-也稱之為super epoch)更新,并且用新的模態均衡參數參與后續的訓練。
Fig 1.4 Gradient-Blending用于模態均衡系數估計;離線與在線Gradient-Blending。
離在線GB算法和GB估計模態均衡參數的算法見Fig 1.4,作者發現采用了GB估計模態均衡參數后,無論是離線還是在線的G-Blend結合了多模態分類模型訓練后,效果都比單模態模型有著顯著的提升,并且離線效果僅僅比在線效果差一些,而在線G-Blend的計算代價遠比離線高,因此后續的實驗都是用離線G-Blend展開的。
Fig 1.8 (a)單模態之間有著更為細粒度的知識;(b)在多模態訓練中容易被『遺忘』。
Reference
[1]. Wang, W., Tran, D., & Feiszli, M. (2020). What makes training multi-modal classification networks hard?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12695-12705).
[2]. https://blog.csdn.net/LoseInVain/article/details/105545703, 《萬字長文漫談視頻理解》 by FesianXu
[3]. https://fesian.blog.csdn.net/article/details/120364242, 《圖文搜索系統中的多模態模型:將MoCo應用在多模態對比學習上》 by FesianXu
[4]. https://fesian.blog.csdn.net/article/details/119516894, 《CLIP-對比圖文多模態預訓練的讀后感》 by FesianXu
[5]. https://fesian.blog.csdn.net/article/details/121699533, 《WenLan 2.0:一種不依賴Object Detection的大規模圖文匹配預訓練模型 & 數據+算力=大力出奇跡》 by FesianXu