傳統的視頻搜索系統相關性部分主要以文本語義匹配/字面匹配為基本手段,其模型的輸入基本上都是文本,并無視覺的語義向量。如果希望在這樣一個純文本的系統中加入視覺語義向量(此處的視覺語義向量可以是上游模型的產出,比如CLIP的產出),那么很容易遇到所謂的『模態不均衡』的問題,即是由于文本匹配更為簡單(畢竟骨架網絡都是基于文本進行過很多次迭代了),那么新引入的視覺語義向量就很容易在整個訓練過程中被視為噪聲,或者被忽視,其視覺本身的作用不容易建模出來。在論文[1]中,作者同樣報告了這樣一個現象,并且提出了通過『模態混洗(Modality-Shuffle)』的方法進行優化,整個框架被稱之為MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,對于一個文本-視覺成對的樣本,通過在batch內混洗視覺輸入,得到難負樣本
,此時對于其文本檢索
而言,
和
是匹配的,但和視覺
不匹配,通過這種方法構建出的難負樣本,有利于加強視覺特征的作用力度。
Fig 1. 模態混洗的方式構建出文本匹配,但是視覺不匹配的難負樣本。除此之外,作者還提出用動態margin去建模,不過筆者覺得并不關鍵,因此就不闡述了。從整體來看,其loss如公式(1-1)所示,其中的? ,表示Query-Doc匹配和Doc-Query匹配的損失,
表示
的匹配損失,同理
表示了
的匹配損失,而
即是通過模態混洗構建難負樣本帶來的損失,如公式(1-2)所示,其中的
表示構建出來的模態混洗負樣本。
那么如何驗證效果呢?作者進行了一些離線消融實驗,并且進行了線上實驗(該論文來自于快手,本方案應該是在線上進行了實驗),均發現有所收益,這些常規指標就不在這里累述了。同時作者通過定向的分析,驗證了模態混洗帶來的優勢,如公式(1-3)所示,作者定義了一個,其中的
分別表示視覺、文本以及聯合視覺文本模型的表征,那么
指數表示了視覺在該聯合模型中,占據的重要程度與文本在該聯合模型中占據的重要程度的比例,這個值越高表示了視覺在模型中地位越重。(注,此處的聯合模型可表示為
在Fig 2 (a) 中,作者對基線模型和MBVR模型的R v t R_{vt}R vt? 分布的繪制,我們可以明顯看出引入了MBVR之后,視覺特征在視文聯合模型H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)}H(⋅,⋅)中的作用力度更大了,同時作者在Fig 2 (b)和(c)中對比了正樣本和難負樣本在基線模型和MBVR模型中的打分分布變化,可以明顯看出引入了MBVR模型之后,難負樣本打分更低,和正樣本打分分布產生了明顯的變化。
Fig 2. (a) R值分布變化,引入了MBVR之后視覺的作用力度有明顯提升;(b)基線模型中,正樣本和難負樣本區分度小,(c)引入了MBVR之后,正樣本和難負樣本有了明顯的區分度。
筆者認為這篇論文對于工業界落地多模態特征還是具有一定指導意義的,模態不均衡的問題在實際落地過程中真實存在,作者提出的解決方法不失一種有效可行的手段,在構造MS難負樣本這塊,后續可以繼續探索,構造一些更合適的難負樣本應該是有一定收益空間的。同時,也可以引入類似于MLM的,某種跨模態mask機制,去建模模態間的關系,筆者認為同樣可以緩解模態不均衡的問題。
Reference
[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.