99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優(yōu)質(zhì)創(chuàng)作者
作者動態(tài)
給定計算預算下的最佳LLM模型尺寸與預訓練數(shù)據(jù)量分配
3星期前
大模型推理時的尺度擴展定律
3星期前
世界多胞體與世界模型
3星期前
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數(shù)據(jù)增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

【論文極速讀】FILIP: 一種基于交互的細粒度圖文預訓練模型

FILIP [1] 提出是為了解決圖文匹配中的細粒度匹配問題。我們之前在博文 [2] 中曾經(jīng)討論過,在圖文雙塔匹配中,由于需要對圖片塔的向量提前進行刷庫,一些長尾的,形態(tài)較小的物體可能會在訓練過程中被忽略,導致圖文匹配的時候缺少對細粒度匹配的能力。為了解決這個問題,我們需要提供模型以圖片和文本在線交互(online interaction)的能力,將圖片以某種形式提取出每個區(qū)域的信息(ROI Detector檢測每個ROI區(qū)域,或者單純的劃分patch,如ViT所做的那樣),然后將文本和圖片每個區(qū)域進行交互,從而模型有能力挖掘出圖片中的一些細粒度信息。以第一種方式為例,如Fig 1.1所示,如果采用ROI Detector首先對圖片的ROI區(qū)域進行提取,如紅框所示,通過對文本『黃色桌子上的小黃人』進行在線匹配,即可實現(xiàn)對場景中的小黃人的細粒度匹配。

Fig 1.1 以ROI Detector的方式提取出圖片中的ROI區(qū)域,通過對文本和ROI區(qū)域進行在線交互(在線匹配),即可實現(xiàn)細粒度圖文匹配的目的。

當然,這個前提是有一個足夠好的ROI detector,并且其計算復雜度的代價也很高,對于在線應用比如圖片搜索來說是一個比較大的負擔。FILIP用了一種比較直接,也比較聰明的方法實現(xiàn)在線交互,其方法就是『遲交互(Late Interaction)』,想辦法盡可能把交互的操作后移,從而使得pipeline的前端結果可以刷庫,減少在線交互的代價。

如Fig 1.2所示,F(xiàn)ILIP的圖片編碼器是ViT [3-4],對輸入圖片進行簡單的分塊后,進行線性映射輸入到Transformer中,其輸出就是對應每個Image Patch的Embedding向量,文本側同樣采用Transformer,其輸出就是每個token的embedding。如果用表示圖片樣本,表示文本樣本,那么表示batch內(nèi)圖片的第i個樣本,表示batch內(nèi)文本的第i個樣本,具有同個下標的樣本對我們認為是一對正樣本,而下標不同的樣本對我們認為是一對負樣本。用表示圖片編碼器,表示文本編碼器,在不存在交互的雙塔匹配模型中,如CLIP和ALIGN中,第i個和第j個樣本間的相似度定義為:

其中,無論是圖片編碼器還是文本編碼器,均對同一個圖片/文本只產(chǎn)出一個特征向量,通過計算余弦相似度計算其圖文相似性,顯然這是一種全局(Global)的相似度計算方式。而在FILIP中,采用ViT和Text Transformer可以對每個圖片token和文本token產(chǎn)出『專屬』的embedding(可以認為是每個模態(tài)的細粒度局部信息),假設? 分別是第i個圖片樣本和第j個文本樣本的token數(shù)量,那么有 。 我們怎么計算第i個和第j個樣本間的相似度呢?此時就體現(xiàn)了遲交互的作用,對于第i ii個圖片的第k個token而言,分別計算其和第j jj個文本樣本的所有個token間的相似程度,并且挑選其中相似度最大的打分,作為第i個圖片第k 個token的打分代表,這個方式作者稱之為『逐令牌最大相似度(token-wise maximum similarity)』。

當然,對于圖片樣本i來說,這個只是第k個token的最大相似度打分,而我們有個圖片token,因此會對這個最大相似度打分進行求平均。

其中的標識了其最大相似度的索引,也就是 ,式子(1-3)是圖片-文本側的相似度度量,類似的,我們也可以定義出文本-圖片側的相似度度量。 注意到不一定等于,也就是說基于最大相似度的交互,其跨模態(tài)相似度不一定是對稱的,這一點和CLIP不同。

Fig 1.2 FILIP的框圖示意,采用了跨模態(tài)遲交互后,可以進行更細粒度的匹配。

我們發(fā)現(xiàn)這種對每個模態(tài)的token,求另外模態(tài)的最大相似度的方法,其實類似于Fig 1.1中的交互方法,只是其沒有采用ROI的方式進行匹配,而是以圖片patch和文本token依次匹配的方式,如Fig 1.3所示,顯然這種方式同樣可以實現(xiàn)細粒度的圖文匹配。在線上應用時候,需要對每張圖片都進行刷特征并且存入正排庫,刷特征的時候需要對圖片每個patch的特征都進行落盤,以便在線上進行交互時候使用。如公式(1-3)所示,線上交互時可以計算,然后以其平均值作為最終相似度(Query-圖片搜索應用直接用即可)。顯然,由于需要對個圖片patch特征都進行落盤到正排庫,需要非常大量的正排存儲資源,在實際落地的過程中也許會碰到一定的困難,需要進行工程上的優(yōu)化。

Fig 1.3 通過對圖片和文本分別進行分塊(對于文本是分詞,對于圖片是分patch),在遲交互階段采用的逐令牌最大相似度匹配,可以實現(xiàn)細粒度匹配。

作者采用了Prompt Learning的方式,對數(shù)據(jù)集采用了Prompt模版的優(yōu)化,本文就不展開了。在論文中作者對圖文細粒度匹配的結果進行了可視化,如Fig 1.4所示,此處的label分別為“Balloon(氣球)”,“Lifeboat(救生艇)”,“Small white butterfly(小白蝶)”,“Electric Iocomotive(電力機車)”,而label后面的數(shù)字表示label的某位單詞在label模版中的位置。舉個例子,此處的模版為

Label模版:a photo of a {label}

當label為"Small white butterfly"的時候,label模版即為“a photo of a small white butterfly”,small在該模版中的第5位,white在第6位而butterfly在第7位。按照前文描述的交互方式,我們求出每個圖片patch與label模版單詞,其中的最大相似度匹配的模版位置ID,然后將這些位置ID中為label位置ID的進行高亮,這樣就繪制出了如Fig 1.4所示的結果。我們可以發(fā)現(xiàn)這些label物體有些是非常細粒度的,如氣球在原圖中的視覺占比非常小,CLIP的結果和我們預期的一致,壓根沒有對這種細粒度物體進行響應。而FILIP的結果則能對圖中patch中有氣球部分的進行響應。FILIP不僅能對細粒度物體進行響應,對于大物體同樣效果不俗,如Fig 1.4©所示,這個蝴蝶占據(jù)了大半個圖片,此時FILIP匹配效果同樣能夠超過CLIP。

Fig 1.4 對比CLIP的結果,可以發(fā)現(xiàn)FILIP對于圖文細粒度匹配更有優(yōu)勢。

Reference

[1]. Yao, Lewei, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, and Chunjing Xu. “Filip: Fine-grained interactive language-image pre-training.” arXiv preprint arXiv:2111.07783 (2021).

[2]. https://blog.csdn.net/LoseInVain/article/details/122735603, 圖文多模態(tài)語義融合前的語義對齊——一種單雙混合塔多模態(tài)模型

[3]. https://blog.csdn.net/LoseInVain/article/details/116031656,將Transformer用在圖片上:Vision Transformer論文雜談

[4]. Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

聲明:本內(nèi)容為作者獨立觀點,不代表電子星球立場。未經(jīng)允許不得轉載。授權事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 3
收藏 5
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 爽死777影院 | 三级毛片视频 | 国产精品高潮呻吟av久久4虎 | 亚洲乱伦精品免费 | 性a一级 | 新版天堂资源中文www官网 | 温柔少妇的高潮呻吟 | 色拍拍在线精品视频 | 91精品爽啪蜜夜国产在线播放 | 老子午夜精品888无码不卡 | 日韩一二三区在线 | 无码免费久久国产 | 毛片无码一区二区三区a片视频 | 欧美色精品vr | 欧美日产国产新一区 | 亚洲黄网在线观看 | 秋霞福利网 | 亚洲av无码乱码在线观看富二代 | 中文字日产乱码六区中国有限公司 | 可以在线免费观看的av | 国产精品porn| 少妇粉嫩小泬喷水视频WWW | 成人短篇合集t×t | 国产视频xxx | 天堂AV无码大芭蕉伊人AV孕妇 | 天天插夜夜操 | 久久精品欧美精品日本韩国精品 | 9久9久9久女女女九九九一九 | WWW射我里面在线观看 | 91狠狠综合久久久 | 亚洲精品国产精品久久99 | 色视频在线观看免费视频 | 99久久夜色精品国产亚洲 | 69久久 | 日韩AV东京社区男人的天堂 | 黄瓜视频在线观看污 | 亚洲国产成人va在线观看 | 不卡av中文字幕手机看 | 变形金刚之超能勇士免费观看 | 福利国产 | 亚洲中文字幕无码久久2017 |