99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優質創作者
所在專題目錄 查看專題
Transformer代碼隨記
視頻分析與多模態融合之一,為什么需要多模態融合
WenLan 2.0:一種不依賴Object Detection的大規模圖文匹配預訓練模型 & 數據+算力=大力出奇跡
圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型
在多模態模型訓練時,如何合適地融合單模態損失
FILIP: 一種基于交互的細粒度圖文預訓練模型
作者動態 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配
3星期前
大模型推理時的尺度擴展定律
3星期前
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

在多模態模型訓練時,如何合適地融合單模態損失

假如一個多模態分類模型由M個模態信息組成(如RGB,光流,音頻,深度信息等等),每一個模態的輸入記為,每一個模態的特征提取網絡記為,其中,那么對于一個后融合(Late-fusion)[2]的多模態分類模型來說,如Fig1.1©所示,其后融合的多模態特征由拼接(concatenate)操作構成,因此多模態特征表示為,其中? \bigoplus?表示拼接操作。最后將會用f m f_mf m? 進行訓練和分類。假設訓練集為,其中 為第i個訓練樣本而 為第i個訓練樣本的標簽,那么對于多模態分類而言,其損失為:

容易知道對于單模態分類而言,其損失為:

Fig 1.1 多模態聯合訓練,采用后融合的方式進行不同模態的信息融合。

從理想情況看,由于多模態特征是由各個模態的特征拼接而成的,通過訓練學習出合適的分類器參數 ,那么多模態損失(1-1)就可以崩塌到單模態損失(1-2),也就是說最壞情況下多模態訓練得到的結果,都應該要比單模態訓練的要好。然而結果并不是如此,如Fig 1.2(a)所示,以在Kinetics上的結果為例,最好的單模態結果總是要顯著比多模態結果(Audio,RGB,Optical Flow三者的任意組合)要好。不僅如此,如Fig 1.2(b)所示,即便采用了一些流行的正則手段,也無法得到有效的效果提升。這不是偶然,[1]的作者認為這是由于不同模態的信息陷入過擬合的節奏是不同的,而通過相同的訓練策略對多模態特征進行訓練,可能對于整體而言并不能達到最優的狀態。為此,對于多模態損失而言需要適當地進行加權,去適應不同模態學習的節奏,假設權系數滿足,其中的k kk是第k kk個模態,那么最終的損失為:

其中的模態表示的是拼接起來后的多模態特征,也即是式子(1-1)所示的損失。關鍵問題有兩個:

這些模態均衡系數應該怎么確定這些模態均衡系數是在線計算(動態更新)還是離線計算(靜態計算后使用)顯然,均衡系數是一個超參數,單純靠網格搜索或人工調參肯定不顯示,而且無法解決關鍵問題2,也即是動態更新。因此作者提出了一種確定多模態均衡系數的方法。

ig 1.2 (a)多模態訓練得到的模型總是比最優的單模態訓練模型更差;(b) 采用了一些常用的正則手段也無法獲得有效的效果提升。

首先需要定義出一個度量以衡量該模態的過擬合與泛化情況,如Fig 1.3所示,作者定義了一種綜合度量模型的過擬合與泛化情況的指標,其定義為過擬合程度與泛化程度的比值的絕對值,如式子(1-4)所示。其中 ,而 ,表示為訓練損失和驗證損失的差值,其可被認為是過擬合大小,顯然該值越大,過擬合程度越大。而表示第N個epoch與第個epoch之間的過擬合程度差值。那怎么表示泛化能力呢?可以通過第N個epoch與第個epoch之間的驗證損失的差值表示兩個checkpoint之間的泛化能力差值。也就是說可以將式子(1-4)認為是兩個epoch的checkpoint之間的過擬合程度與泛化程度比值的差分。顯然我們希望OGR指標越小越好。注意此處的 表示理想中的真實驗證損失,通常會用有限的驗證集損失去近似,表示為。后續我們都用 代替

顯然有

然而對于欠擬合的模型來說,可能? 足夠小也會導致OGR指標也很小,但是這并沒有意義,因為模型仍然未學習好。因此此處用無窮小量進行衡量,也即是有:

當然,由于此處的n nn有實際的模型含義(一個step),也就是說其實應該是n → 1 n\rightarrow 1n→1,也就是只有1個step的參數更新。對此我們對損失進行一階泰勒展開有:

結合(1-5)和(1-7)我們有:

因此有:

Fig 1.3 定義出OGR以描述該模態模型下的過擬合與泛化情況。

此時我們對每個模態的梯度? 進行預估,這個預估通過各模態對應的分類器梯度反向求導得到,表示為? ,當滿足,其中時,并且給定約束,我們的對求最小值以求得最佳的模態均衡參數,表示為(1-10):

原文[1]中對其進行了解析解的證明,這里就不展開了,其解析解如(1-11):

其中 是標準化常數項。由此可計算出最佳的模態均衡系數,回答了我們之前提出的第一個問題。

在實踐中,再強調下,正如一開始所說的,無法得到,因此通常會從訓練集中劃出一部分V作為子集去驗證,得到 ,用此去近似。此時我們可以正式去描述Gradient-Blending(GB)算法了,我們的數據集包括訓練集T TT,訓練集中劃出來的驗證集V,k 個輸入模態 以及一個多模態拼接得到的特征 。對于GB算法來說,有兩種形式:

離線Gradient-Blending: 只計算一次模態均衡參數,并且在以后的訓練中都一直固定。在線Gradient-Blending: 將會定期(比如每n個epoch-也稱之為super epoch)更新,并且用新的模態均衡參數參與后續的訓練。

Fig 1.4 Gradient-Blending用于模態均衡系數估計;離線與在線Gradient-Blending。

離在線GB算法和GB估計模態均衡參數的算法見Fig 1.4,作者發現采用了GB估計模態均衡參數后,無論是離線還是在線的G-Blend結合了多模態分類模型訓練后,效果都比單模態模型有著顯著的提升,并且離線效果僅僅比在線效果差一些,而在線G-Blend的計算代價遠比離線高,因此后續的實驗都是用離線G-Blend展開的。

Fig 1.8 (a)單模態之間有著更為細粒度的知識;(b)在多模態訓練中容易被『遺忘』。

Reference

[1]. Wang, W., Tran, D., & Feiszli, M. (2020). What makes training multi-modal classification networks hard?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12695-12705).

[2]. https://blog.csdn.net/LoseInVain/article/details/105545703, 《萬字長文漫談視頻理解》 by FesianXu

[3]. https://fesian.blog.csdn.net/article/details/120364242, 《圖文搜索系統中的多模態模型:將MoCo應用在多模態對比學習上》 by FesianXu

[4]. https://fesian.blog.csdn.net/article/details/119516894, 《CLIP-對比圖文多模態預訓練的讀后感》 by FesianXu

[5]. https://fesian.blog.csdn.net/article/details/121699533, 《WenLan 2.0:一種不依賴Object Detection的大規模圖文匹配預訓練模型 & 數據+算力=大力出奇跡》 by FesianXu 

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 久久久久亚洲综合 | 成人性做爰| 国内精品免费久久久久软件 | 日韩大片在线观看 | 一区二区三区国产精华 | 欧美极品视频 | 欧美色香蕉 | 国产伦精品一区二区三区四区视频 | 性欧美69式xxxx | 自拍偷拍另类亚洲 | 国产亚洲一 | 中文字幕v亚洲ⅴv天堂 | 欧美白嫩magnet | 日本福利在线 | 人妻无码中文字幕永久有效视频 | 久久久日韩精品一区二区 | 久久蜜桃av| 亚洲精品视频成人 | 亚洲成年人网站在线观看 | 九九99无码精品视频在线观看 | 狠狠躁狠狠爱免费视频欧美 | 欧美一区=区三区 | 亚洲日本va午夜中文字幕久久 | 2级黄色片 | 国产二区久久 | 久久AV老司机精品网站导航 | 又大又粗欧美黑人AAAAA片 | 四虎免费影视 | 成人无码午夜在线观看 | 美女一区二区久久 | 中文字幕视频在线 | 中国亚州女人69内射少妇 | 国产高清无码黄片亚洲大尺度视频 | 色大18成网站www在线观看 | 国产亚洲专区 | 国产蜜月AⅤ网站 | 国产福利视频网站 | 欧美成人影片 | 一本加勒比波多野结衣高清 | 黄瓜视频入口永久免费观看 | 日韩成人精品一区二区三区 |