在多模態模型訓練時，如何合適地融合單模態損失

徐土豆 2024-04-20 08:47 252 閱讀 1 贊 2 收藏 0 評論

假如一個多模態分類模型由M個模態信息組成（如RGB，光流，音頻，深度信息等等），每一個模態的輸入記為 $x_i$ ，每一個模態的特征提取網絡記為 $f_i = g_i(x_i)$ ，其中 $\cdots,Mi=1$ ，那么對于一個后融合（Late-fusion）[2]的多模態分類模型來說，如Fig1.1©所示，其后融合的多模態特征由拼接（concatenate）操作構成，因此多模態特征表示為 $f_{m} = f_1 \bigoplus f_2 \cdots f_M$ ，其中? \bigoplus?表示拼接操作。最后將會用f m f_mf m? 進行訓練和分類。假設訓練集為 $\mathcal{T}=\{X_{1,\cdots,n}, y_{1,\cdots,n}\}$ ，其中 $X_i$ 為第i個訓練樣本而 $y_i$ 為第i個訓練樣本的標簽，那么對于多模態分類而言，其損失為：

容易知道對于單模態分類而言，其損失為：

Fig 1.1 多模態聯合訓練，采用后融合的方式進行不同模態的信息融合。

從理想情況看，由于多模態特征是由各個模態的特征拼接而成的，通過訓練學習出合適的分類器參數 $\Theta_{\mathcal{C}}^{*}$ ，那么多模態損失(1-1)就可以崩塌到單模態損失(1-2)，也就是說最壞情況下多模態訓練得到的結果，都應該要比單模態訓練的要好。然而結果并不是如此，如Fig 1.2(a)所示，以在Kinetics上的結果為例，最好的單模態結果總是要顯著比多模態結果（Audio，RGB，Optical Flow三者的任意組合）要好。不僅如此，如Fig 1.2(b)所示，即便采用了一些流行的正則手段，也無法得到有效的效果提升。這不是偶然，[1]的作者認為這是由于不同模態的信息陷入過擬合的節奏是不同的，而通過相同的訓練策略對多模態特征進行訓練，可能對于整體而言并不能達到最優的狀態。為此，對于多模態損失而言需要適當地進行加權，去適應不同模態學習的節奏，假設權系數 $w_k$ 滿足 $\sum_kw_k=1$ ，其中的k kk是第k kk個模態，那么最終的損失為：

其中的 $K+1$ 模態表示的是拼接起來后的多模態特征，也即是式子(1-1)所示的損失。關鍵問題有兩個：

這些模態均衡系數 $w_i$ 應該怎么確定這些模態均衡系數是在線計算（動態更新）還是離線計算（靜態計算后使用）顯然，均衡系數是一個超參數，單純靠網格搜索或人工調參肯定不顯示，而且無法解決關鍵問題2，也即是動態更新。因此作者提出了一種確定多模態均衡系數的方法。

ig 1.2 (a)多模態訓練得到的模型總是比最優的單模態訓練模型更差；(b) 采用了一些常用的正則手段也無法獲得有效的效果提升。

首先需要定義出一個度量以衡量該模態的過擬合與泛化情況，如Fig 1.3所示，作者定義了一種綜合度量模型的過擬合與泛化情況的指標，其定義為過擬合程度與泛化程度的比值的絕對值，如式子(1-4)所示。其中 $\Delta O_{N,n} = O_{N+n}-O_{N}$ ，而 $_{N}=\mathcal{L}_{N}^{V}-\mathcal{L}_{N}^{T}$ ，表示為訓練損失和驗證損失的差值，其可被認為是過擬合大小，顯然該值越大，過擬合程度越大。而 $\Delta O_{N,n}$ 表示第N個epoch與第 $N+n$ 個epoch之間的過擬合程度差值。那怎么表示泛化能力呢？可以通過第N個epoch與第 $N+n$ 個epoch之間的驗證損失 $\mathcal{L}^{*}$ 的差值表示兩個checkpoint之間的泛化能力差值。也就是說可以將式子(1-4)認為是兩個epoch的checkpoint之間的過擬合程度與泛化程度比值的差分。顯然我們希望OGR指標越小越好。注意此處的 $\mathcal{L}^{*}$ 表示理想中的真實驗證損失，通常會用有限的驗證集損失去近似，表示為 $\mathcal{L}^{V}$ 。后續我們都用 $\mathcal{L}^{V}$ 代替 $\mathcal{L}^{*}$ 。

顯然有

然而對于欠擬合的模型來說，可能 $\Delta O_{N,n}$ ? 足夠小也會導致OGR指標也很小，但是這并沒有意義，因為模型仍然未學習好。因此此處用無窮小量進行衡量，也即是有：

當然，由于此處的n nn有實際的模型含義（一個step），也就是說其實應該是n → 1 n\rightarrow 1n→1，也就是只有1個step的參數更新。對此我們對損失進行一階泰勒展開有：

結合(1-5)和(1-7)我們有：

因此有：

Fig 1.3 定義出OGR以描述該模態模型下的過擬合與泛化情況。

此時我們對每個模態的梯度 $\{\hat{g}_i\}_{i=1}^M$ ? 進行預估，這個預估通過各模態對應的分類器梯度反向求導得到，表示為 $\{v_k\}_{1}^M$ ? ，當滿足 $\mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^{V}, v_k><\nabla \mathcal{L}^T-\nabla \mathcal{L}^{V}, v_j>] = 0$ ，其中 $j \neq k$ 時，并且給定約束 $\sum_k w_k=1$ ，我們的對 $OGR^2$ 求最小值以求得最佳的模態均衡參數，表示為(1-10):

原文[1]中對其進行了解析解的證明，這里就不展開了，其解析解如(1-11):

其中 $\sigma^2_k = \mathbb{E}[<\nabla \mathcal{L}^T - \nabla \mathcal{L}^V, v_k>^2]$ ， $Z = \sum_k \dfrac{<\nabla \mathcal{L}^V, v_k>}{2\sigma^2_k}$ 是標準化常數項。由此可計算出最佳的模態均衡系數，回答了我們之前提出的第一個問題。

在實踐中，再強調下，正如一開始所說的， $\nabla \mathcal{L}^*$ 無法得到，因此通常會從訓練集中劃出一部分V作為子集去驗證，得到 $\nabla \mathcal{L}^V$ ，用此去近似 $\nabla \mathcal{L}^*$ 。此時我們可以正式去描述Gradient-Blending（GB）算法了，我們的數據集包括訓練集T TT，訓練集中劃出來的驗證集V，k 個輸入模態 $\{m_i\}^k_{i=1}$ 以及一個多模態拼接得到的特征 $m_{k+1}$ 。對于GB算法來說，有兩種形式：

離線Gradient-Blending：只計算一次模態均衡參數，并且在以后的訓練中都一直固定。在線Gradient-Blending：將會定期（比如每n個epoch-也稱之為super epoch）更新，并且用新的模態均衡參數參與后續的訓練。

Fig 1.4 Gradient-Blending用于模態均衡系數估計；離線與在線Gradient-Blending。

離在線GB算法和GB估計模態均衡參數的算法見Fig 1.4，作者發現采用了GB估計模態均衡參數后，無論是離線還是在線的G-Blend結合了多模態分類模型訓練后，效果都比單模態模型有著顯著的提升，并且離線效果僅僅比在線效果差一些，而在線G-Blend的計算代價遠比離線高，因此后續的實驗都是用離線G-Blend展開的。

Fig 1.8 (a)單模態之間有著更為細粒度的知識；(b)在多模態訓練中容易被『遺忘』。

Reference

[1]. Wang, W., Tran, D., & Feiszli, M. (2020). What makes training multi-modal classification networks hard?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12695-12705).

[2]. https://blog.csdn.net/LoseInVain/article/details/105545703，《萬字長文漫談視頻理解》 by FesianXu

[3]. https://fesian.blog.csdn.net/article/details/120364242，《圖文搜索系統中的多模態模型：將MoCo應用在多模態對比學習上》 by FesianXu

[4]. https://fesian.blog.csdn.net/article/details/119516894，《CLIP-對比圖文多模態預訓練的讀后感》 by FesianXu

[5]. https://fesian.blog.csdn.net/article/details/121699533, 《WenLan 2.0：一種不依賴Object Detection的大規模圖文匹配預訓練模型 & 數據+算力=大力出奇跡》 by FesianXu

聲明：本內容為作者獨立觀點，不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴，請聯系：editor@netbroad.com

覺得內容不錯的朋友，別忘了一鍵三連哦！

贊 1

關注 52

成為作者賺取收益

下一篇：FILIP：一種基于交互的細粒度圖文預訓練模型

全部留言

0/200

成為第一個和作者交流的人吧

99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

在多模態模型訓練時，如何合適地融合單模態損失