99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優質創作者
所在專題目錄 查看專題
Transformer代碼隨記
視頻分析與多模態融合之一,為什么需要多模態融合
WenLan 2.0:一種不依賴Object Detection的大規模圖文匹配預訓練模型 & 數據+算力=大力出奇跡
圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型
在多模態模型訓練時,如何合適地融合單模態損失
FILIP: 一種基于交互的細粒度圖文預訓練模型
作者動態 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配
3星期前
大模型推理時的尺度擴展定律
3星期前
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型

本文轉自徐飛翔的“圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型

版權聲明:本文為博主原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接和本聲明

雙塔多模態模型的優勢與缺陷

之前在博文[2-4]中曾經簡單介紹過一些圖文多模態模型,分別是WenLan 1.0 [5]和WenLan 2.0 [6]以及CLIP [7],這些多模態模型在不同的模態上,都有著各自模態各自的編碼器。如Fig 1.1所示,CLIP中的圖片編碼器和文本編碼器共同組成了一個雙塔結構模型進行損失計算。雙塔模型在很多業務場景有著廣泛應用,比如在圖文信息檢索場景中,我們要衡量用戶Query和圖片之間的圖文相關性。假如圖片編碼器是,文本編碼器是???,??????而待檢索庫中所有圖片的集合記為 ???,那么可以預先對所有圖片進行特征提取,形成圖片的正排(Forward Index)特征并且建庫,記為,在用戶輸入檢索詞 Q的時候,只需要對Query進行文本編碼器的在線計算,得到文本特征 ,然后對待排序的樣本進行圖片正排庫取特征,進行相關性計算(在線計算余弦距離)就可以判斷候選圖片與Query之間的圖文相關程度了。利用雙塔模型可以預先建庫并且在線計算相關性的特性,可以很大程度上用空間換時間節省很多計算資源,而這也是雙塔模型在搜索系統(不僅僅是圖文搜索)中被廣泛應用的原因之一。

Fig 1.1 CLIP中的圖片編碼器和文本編碼器一起組成了雙塔結構。

這個世界沒有銀彈,雙塔模型中的圖片和文本信息不能在線交互的特性決定了其對一些細致的圖文匹配需求無法滿足。舉個例子,比如去搜索『黑色上衣白色褲子』,那么百度返回的結果如圖Fig 1.2所示,除去開始三個廣告不計,用紅色框框出來的Top3結果中有倆結果都是『白色上衣黑色褲子』,顯然搜索結果并沒有理解到『黑色上衣』和『白色褲子』這兩個概念,而是單獨對『黑色』『白色』和『上衣』『褲子』這兩個屬性進行了組合,因此才會得到『白色上衣黑色褲子』被排到Top20結果的情況。

 1.2 百度圖搜對于『黑色上衣白色褲子』的搜索結果。

當然讀者可能覺得百度搜索可能不夠可靠,筆者在google圖搜上也進行了測試,如Fig 1.3所示,的確大部分結果都是正確的(如藍色框所示),但是也有少量的『白色上衣黑色褲子』被排上了Top20結果(如紅框所示),即便只有幾個誤排,也說明業界中對于這種細粒度的多模態搜索仍然是需要繼續探索的(讀者可以試試『紅色杯子』這類型的Query,排到Top20的都是很準確的)。

Fig 1.3 Google圖搜對于『黑色上衣白色褲子』的搜索結果。

這種多模態匹配細粒度結果不盡人意的原因,很大程度上是雙塔模型中的圖片編碼器和文本編碼器無法在線進行交互導致的。可以想象到,我們的圖片編碼器由于是預先對所有圖片提特征進行建庫的,那么就無法對所有屬性的組合都進行考慮,必然的就會對一些稀疏的組合進行忽略,而傾向于高頻的屬性組合,因此長尾的屬性組合就無法很好地建模。雙塔模型這種特點,不僅僅會使得多屬性的Query的檢索結果傾向于高頻組合,而且還會傾向于圖片中的一些大尺寸物體,比如Fig 1.4中的小黃人尺寸較小,在進行特征提取的時候,其在整張圖片中的重要性就有可能被其他大尺寸物體(比如鍵盤和顯示屏等)掩蓋。

Fig 1.4 圖片中的小黃人尺寸較小,特征提取結果可能會被同圖片中其他大尺寸物體給掩蓋。單塔模型進行在線交互

雙塔模型有以上的一些天然的劣勢,此時就需要用單塔交互模型對用戶Query和圖片進行在線的交互(當然此時模型計算由于是在線的,受限于計算資源就只能對粗排的Top20/40等結果進行打分精排了),通過在線交互,細粒度的圖文匹配能取得更好的結果,稀疏的屬性組合也能通過在線交互得到合理的打分,而不至于被高頻組合給『吃掉』。雙塔模型一般可以通過大規模對比學習,從諸多負例中挑選出最難的負例,通過將正例和最難負例進行對比損失優化,從而學習出表征。但是單塔模型無法像雙塔模型一般進行對比學習去挑選難負樣本,因為雙塔模型可以通過打分矩陣將 個負樣本打分和 N 個正樣本打分同時得到,而單塔模型由于需要在線交互,則需要對 N 個Query和 N 個圖片進行??????????次模型計算,才能得到和雙塔模型一次計算同樣量級的打分,這個計算時間代價太大以至于實際中無法這樣進行訓練。對于單塔模型,如Fig 2.1所示,我們一般只能通過平移樣本得到若干個負樣本,進行匹配損失計算,這樣得到的負樣本數量通常都很小,遠遠無法達到雙塔模型的量級,由此構造出的負樣本也往往不夠『難』,導致這樣訓練出來的單塔模型語義對齊(Semantic Alignment)能力弱于用大規模對比學習訓練出來的雙塔模型。

Fig 2.1 在單塔模型訓練時,通過平移樣本構造負樣本。多模態語義融合前的語義對齊

由此來看,單塔模型擅長的往往是語義融合(Semantic Fusion),而非語義對齊(Semantic Alignment),我們可以考慮用大規模對比學習去進行語義對齊,而基于良好的語義對齊用單塔模型去進行語義融合。如Fig 3.1所示,語義對齊嘗試找到不同文本實體(Query Entity)與視覺實體(Vision Entity)之間的關聯關系,而語義融合嘗試找到復合實體的組合關系。

Fig 3.1 語義對齊去嘗試找到文本實體與視覺實體之間的關聯關系;語義融合嘗試找到復合實體之間的組合關系。

文章[1]提出了ALBEF模型(ALign BEfore Fuse,ALBEF),嘗試通過將雙塔模型和單塔模型結合在一起,通過用雙塔模型去進行語義對齊,并且通過雙塔模型進行難負樣本挑選,以備送給單塔模型進行更好的語義融合,這個思路理論上可以融合單塔模型和雙塔模型的優點,而不至于帶來太多的計算負擔。如Fig 3.1所示,ALBEF整個模型主要由BERT組成,其編碼器分為單模態(Unimodal)編碼器和多模態(multimodal)編碼器,單模態編碼器主要由圖像編碼器和文本編碼器組成,其圖像編碼器采用了12層的ViT-B/16模型,而文本編碼器和多模態編碼器都采用的是6層的 ?模型。通過圖片編碼器,將圖片輸入編碼成embedding序列,同樣對于文本輸入 而言,其embedding序列輸出為??。其預訓練目標有兩大類:

語義對齊: 通過單模態編碼器(其實就是雙塔模型)進行圖文對比學習(Image-Text Contrastive Learning)進行圖文語義對齊   

語義融合:將語義對齊后的圖/文特征在多模態編碼器中進行跨模態交互,通過Masked Language Model(MLM)和圖文匹配(Image-Text Matching)任務進行圖文語義融合。

Fig 3.1 語義對齊去嘗試找到文本實體與視覺實體之間的關聯關系;語義融合嘗試找到復合實體之間的組合關系。語義對齊

語義對齊可以通過雙塔模型的大規模對比學習進行,其目標是讓圖片-文本對的相似度盡可能的高,也就是,其中的 是對[CLS]的線性映射,其將[CLS]特征維度映射到了多模態共同特征子空間。類似于MoCo [8,9],在ALBEF模型中,作者同樣采用了兩個圖片/文本樣本隊列和動量圖片/文本編碼器,這兩個隊列維護了最近的動量編碼器的 M 個表征(具體維護過程見博文[8]),這些來自于動量編碼器的特征表示為 。那么類似于MoCo中的做法進行多模態打分計算,如式子(3-1)所示

那么可以定義出圖-文/文-圖相關性,如式子(3-2)所示,其中的 N??是batch size(這一點是代碼實現,和論文有些偏差[10])

表示真實的標簽,通過交叉熵損失定義出圖文對比損失(Image-Text Contrastive Loss, ITC)

語義融合

ALBEF模型的底層是雙塔語義對齊,其上層是單塔語義融合,為了實現語義融合,論文中采用了Masked Language Model(MLM)損失進行建模。作者以 15 % 概率將輸入的Token進行替代,將其替代為特殊令牌[MASK],令 表示被掩膜后的文本,??表示對掩膜后的令牌的預測結果,而表示被掩膜令牌的真實標簽,那么MLM目的在于最小化以下交叉熵損失:

通過MLM損失建模,可以讓多模態實體之間不僅語義對齊,而且能找到各個實體之間的復合語義關系,如Fig 3.2所示,MLM損失約束模型去融合不同實體,挖掘他們之間的多模態關系,從而對被掩膜后的實體做出預測。

Fig 3.2 MLM損失約束模型去融合不同實體的語義關系,從而對被掩膜后的實體做出預測。

除了MLM損失,文章中還通過圖文匹配損失(Image-Text Matching,ITM)對難負樣本進行匹配學習,從而期望模型能夠對難負樣本有著更好的區分能力,從而彌補單塔模型無法進行難負樣本選取的缺點,以提升多模態模型的語義對齊和語義融合能力。作者挑選難負樣本的依據是根據雙塔模型的打分,從式子(3-2)中可以挑選出同一個Query下面最為難的Image(打分最高,但卻是預測錯誤的),也可以挑選出同個Image下最難的Query(論文中是根據打分大小設置概率進行采樣得到的)。由此可以得到 N 個正例和 2 N 個難負例構成了ITM任務的輸入,其損失如式子(3-5)所示。

最后的預訓練階段損失由以上三個損失構成,如式子(3-6)所示:

動量蒸餾(Momentum Distillation, MoD)

用于預訓練的圖文數據大多來自于互聯網 [3],通常都是所謂的弱標注數據集,文本中可能有些詞語和圖片的實體是毫無關系的,圖片也可能包含有文本中完全沒提到的東西。對于ITC損失而言,一個圖片的負樣本文本也有可能能夠匹配上這個圖片(特別是如果該圖文對數據來自于用戶點擊數據);對于MLM損失而言,被掩膜掉的令牌也許被其他令牌替代也能對圖像進行描述(甚至可能更合適)。作者認為,在ITC和MLM任務中采用one-hot標簽進行訓練會對所有的負例進行打壓,而不考慮這些負例倒底是不是真正的『負例』。為了解決這個問題,作者提出動量編碼器可以看成是單模態/多模態編碼器的一種指數滑動平均版本(exponential-moving-average),可以通過動量編碼器去生成ITC和MLM任務的『偽標簽』,筆者并沒有特別理解為什么可以通過動量編碼器去生成偽標簽,可能這樣做能使得標簽更為平滑,而不像one-hot標簽一樣吧。總而言之,通過動量編碼器,我們有動量編碼器打分:

將(3-7)中的替代式子(3-2)中的 s ?,我們得到偽標簽,那么 損失定義為:(實際代碼實現有些差別,可能要另一篇博文里面去寫了)

類似的, ?損失可以定義為:

讀后感

這篇文章比較復雜,最近筆者比較忙看了好久才大致看懂些,有些細節猜不透的去看了下代碼,發現代碼實現好像有些和論文有差別,后續有空再補充下代碼實現的閱讀筆記可能會更好些。總體來看,這篇文章結合了雙塔模型可以進行大規模對比學習,和單塔模型可以進行細粒度交互的優勢,提出了ALBEF模型對多模態數據進行語義對齊+語義融合,其思路是值得在業界進行嘗試的。

補充

筆者之前寫這篇博文的時候的確不太理解這里的操作邏輯,后面大概理解了為什么用動量編碼器可以生成所謂『偽標簽』,當數據量比較大的時候,編碼器可能在不同的step下見到同一個文本text與不同類型的圖片的數據對。考慮一種情況,文本text描述中存在兩個實體 鴨子和橙子,在某個數據對中{text,imageA}中imageA存在鴨子,而只存在橙子的imageB可能就被認為是負例了;在某個數據對{text,imageB}中存在橙子,而只存在鴨子的imageA可能就被視為負例了。通過動量更新編碼器,可以看成通過一個動量更新的過程中的時間平滑系數,將不同step下遇到的{text,imageA}, {text, imageB}樣本的標簽信息都考慮了,因此可以視為時候『偽標簽』信息。

Reference

[1]. Li, Junnan, Ramprasaath Selvaraju, Akhilesh Gotmare, Shafiq Joty, Caiming Xiong, and Steven Chu Hong Hoi. “Align before fuse: Vision and language representation learning with momentum distillation.” Advances in Neural Information Processing Systems 34 (2021).

[2]. https://blog.csdn.net/LoseInVain/article/details/121699533

[3]. https://blog.csdn.net/LoseInVain/article/details/120364242

[4]. https://fesian.blog.csdn.net/article/details/119516894

[5]. Huo, Yuqi, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen et al. “WenLan: Bridging vision and language by large-scale multi-modal pre-training.” arXiv preprint arXiv:2103.06561 (2021).

[6]. Fei, Nanyi, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu et al. “WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model.” arXiv preprint arXiv:2110.14378 (2021).

[7]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.

[8]. https://fesian.blog.csdn.net/article/details/119515146

[9]. He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9729-9738).

[10]. https://github.com/salesforce/ALBEF/issues/22

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 2
收藏 1
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 日日夜夜天天操 | 国产成人午夜片在线观看高清观看 | 在线观看国产中文字幕 | 狠狠色丁香婷婷综合久久来来去 | 一区二区天堂 | 在线精品亚洲一区二区 | 午夜国产免费 | 涂了春药被一群人伦爽99势 | 亚洲最大天堂无码精品区 | 久久99精品无码一区二区三区 | 免费羞羞视频无遮挡噼啪男男 | 欧美在线视频免费看 | 成全免费高清观看在线电视 | 亚洲国产精品日韩AV专区 | 99精品综合| 国产福利在线观看视频 | 人与禽交videos欧美 | 国产午夜日韩不卡一区 | 免费黄网站欧美 | 九九热线视频只有这里最精品 | 精品精品国产高清a毛片 | 毛片一级免费看 | 视频免费一区 | 国产视频九九 | 成人A片产无码免费奶头 | 无码一区自拍偷拍第二页 | 蜜桃久久一区二区三区 | 国产又爽又猛又粗的视频A片 | 狠狠做深爱婷婷久久综合一区 | 国产成人啪精品视频免费网站 | 91欧美亚洲 | 婷婷色怡春院 | 欧美黑人欧美精品刺激 | 亚洲一区二区在线视频观看 | 天天躁日日躁狠狠躁欧美老妇小说 | 青青青国产在线观看免费 | 日韩大片在线观看 | 久久AV无码乱码A片无码 | julia中文字幕久久精品 | 久久久久久无码精品无码国产人妻丝瓜 | 日韩第一夜|