99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動態(tài)
給定計算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
3星期前
大模型推理時的尺度擴(kuò)展定律
3星期前
世界多胞體與世界模型
3星期前
獎勵模型中的尺度擴(kuò)展定律和獎勵劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

CatLIP,加速2.7倍!采用分類損失的CLIP水準(zhǔn)的預(yù)訓(xùn)練視覺編碼器

CLIP [2] 開創(chuàng)了一個圖文大規(guī)模預(yù)訓(xùn)練的時代,然而CLIP也具有不足之處,因此引出了一系列的改進(jìn)工作,具體可見 [3]。 針對CLIP在大規(guī)模數(shù)據(jù)下訓(xùn)練速度慢的問題,已有一些工作研究,如SigLIP [4] 嘗試用sigmoid損失去替換infoNCE損失,從而減少通信量,在提速的同時還能提高模型效果,具體可見博文 [5]。 本文介紹的CatLIP [1], 則是考慮將對比學(xué)習(xí)這種方式改為多標(biāo)簽分類任務(wù),從而進(jìn)一步減少通信量,并且能在各任務(wù)下達(dá)到CLIP水準(zhǔn)的視覺編碼表現(xiàn)。如Fig 1 (b) 所示,對于當(dāng)前batch給定的N個圖片-文本對,CLIP需要分別進(jìn)行圖片編碼器和文本編碼器的計算得到特征向量,然后組成N2個正負(fù)樣本對進(jìn)行損失計算。 而對于CatLIP來說,如Fig 1 (a) 所示,任務(wù)從CLIP的厘清N2個正負(fù)樣本對,變成了只需要對N個圖片進(jìn)行多標(biāo)簽分類,分類的多個類別來自于當(dāng)前圖片-文本對中的文本,為了提高泛化性,我們還需要對這文本進(jìn)行找近義詞的操作。 整個過程中,不再需要進(jìn)行特征向量的跨卡通信,不再需要訓(xùn)練文本編碼器,而只需要最基本的梯度信息跨卡通信(多機(jī)多卡訓(xùn)練難以避免的基礎(chǔ)通信代價)。從Fig 1.的實驗來看,CatLIP能在保持下游任務(wù)性能持平的情況下,提速2.7倍!

Fig 1. CatLIP和CLIP的流程對比,以及性能和訓(xùn)練速度對比,其中 表示模型參數(shù)可訓(xùn)練。

讓我們具體看下整個工作,筆者曾經(jīng)在博文 [3] 中談到過自己對CLIP的理解,CLIP主要是跨圖文模態(tài)語義對齊,進(jìn)一步說就是對視覺語義元素,包括實體(Entity),屬性(Attribution),關(guān)系(Relation)進(jìn)行語義對齊。其中最為主要的,可能就是“實體”和“屬性”了,至于“關(guān)系”這一個元素,則可以在語義融合階段進(jìn)行更加高效地學(xué)習(xí)。然而,有一個問題不禁在心中涌出:采用大規(guī)模對比學(xué)習(xí)的方式,去學(xué)習(xí)“實體”和“屬性”,性價比是否足夠高呢?

為了回答這個問題,有必要回顧下CLIP學(xué)習(xí)到語義對齊的原理,對比Image-Text Matching(ITM)和Mask Image Modeling(MIM)來說,CLIP是高效的語義對齊機(jī)制。 CLIP的模型結(jié)構(gòu)和正負(fù)樣本組成策略并不復(fù)雜,其負(fù)樣本構(gòu)成方式是經(jīng)典的batch negative方式,也即是從batch內(nèi)部去構(gòu)成負(fù)樣本,而CLIP的貢獻(xiàn)點在于能夠采用海量的來自于互聯(lián)網(wǎng)的圖文對數(shù)據(jù)(約4億條圖文對)和超大batch size(約32000)進(jìn)行預(yù)訓(xùn)練,并且為了能夠充分學(xué)習(xí),采用了大容量的模型結(jié)構(gòu)。為何CLIP的這種“樸素”學(xué)習(xí)方式可以有效進(jìn)行語義對齊呢?如Fig 2. 所示,在一次對比中,正樣本可以和海量的負(fù)樣本進(jìn)行對比,這種對比有兩種維度:

  • 圖-文對比:一個圖片對應(yīng)有一個匹配的文本(正樣本),和個不匹配的文本(負(fù)樣本),此時一次正負(fù)樣本對比,可以充分地厘清不同文本中的視覺語義對齊。如Fig 6.2中,以第一行視為正樣本,那么對于文本中的“幼犬、小狗、小狗寶寶”都是與正樣本圖片相符的,而其負(fù)樣本文本“小貓”則和正樣本圖片不負(fù)。因此一次性就厘清了“小狗,幼犬”和“小貓”的語義差別,如果我們的負(fù)樣本足夠大,那么就能夠在一次迭代過程中,厘清非常多的文本中的視覺概念,而這是MLM和ITM不能做到的。
  • 文-圖對比:和圖-文對比類似,一個文本對應(yīng)有一個匹配的圖片(正樣本),和N−1個不匹配的圖片(負(fù)樣本),同樣一次正負(fù)樣本的對比,可以厘清不同圖片之間的視覺語義對齊。同樣以第一行為正樣本,那么文本中的"幼犬、小狗、小狗寶寶"等字樣只和第一行圖片匹配,和其他圖片并不能有效匹配,因此能一次性厘清非常多圖片中的視覺概念。

也即是CLIP中對于語義概念,除了本身圖文對的正樣本監(jiān)督之外,都是依賴與負(fù)樣本的“對比”學(xué)習(xí)出來的,而這種模式主要在學(xué)習(xí)視覺實體和視覺屬性。這種學(xué)習(xí)機(jī)制,在學(xué)習(xí)初期可以有效地進(jìn)行視覺概念的厘清,但是到后期后,絕大部分的負(fù)樣本將會變成簡單負(fù)樣本(語義概念已在前期學(xué)習(xí)到了),使得學(xué)習(xí)變得緩慢且低效?;氐轿覀兊膯栴}:光是為了實體和屬性的對齊,采用大規(guī)模對比學(xué)習(xí)的方式去學(xué)習(xí)是不夠劃算的。

Fig 2. CLIP的對比學(xué)習(xí)方式,使得能夠在一次對比過程中,有效厘清正樣本和負(fù)樣本中的視覺語義概念。

而本文的CatLIP作者提出了一種方法,將對比學(xué)習(xí)任務(wù)改為多標(biāo)簽分類任務(wù),其中的多標(biāo)簽就是來自于圖文對中的文本描述,主要就是各種名詞性的實體,為了進(jìn)一步提高泛化性和zero-shot能力,作者還對這些實體進(jìn)行求同義詞。讓我們形式化表達(dá)下整個過程,假設(shè)當(dāng)前batch有N個圖文對(Ii,Ti),i=1,?,N,求同義詞的過程 可表示為ExtractSynset(T)={f(wi)|posi is a noun ∀i=1,?,m} ,其中的f(⋅)將原文本描述W中的名詞wi映射到WordNet中的同義詞集合S。這個過程中,不難知道同義詞中也會有不同的共現(xiàn)次數(shù),次數(shù)少的意味著這個同義詞是長冷的,為了減少多分類分類的代價,可以將其舍棄,本文設(shè)定共現(xiàn)次數(shù)大于閾值Vτ=500的才會保留下來。最終作者在DataComp-1.3BCC3M這兩個預(yù)訓(xùn)練數(shù)據(jù)集上提取了同義詞集合,可以看到:

  • 越大的預(yù)訓(xùn)練集合(13億 vs 3百萬),其同義詞集合的尺度就越大(將近40000 vs 將近10000),這代表越大的預(yù)訓(xùn)練數(shù)據(jù)具有更多的內(nèi)容豐富度和多樣性。
  • 采用閾值Vτ=500進(jìn)行篩選后,整個多標(biāo)簽分類任務(wù)的類別將在2000-25000左右。

Fig 3. 分析圖文對數(shù)據(jù)集中提取的WordNet同義詞集,較大的數(shù)據(jù)集(13億 vs 3百萬)通常包含更多數(shù)量的同義詞,表明較大數(shù)據(jù)集中的內(nèi)容多樣性增加。

作者對比了CatLIP和CLIP (圖像編碼器都是ViT B/16)在數(shù)據(jù)集CC3M上的預(yù)訓(xùn)練效果,采用ImageNet-1k的線性探測(Linear Probe)top-1準(zhǔn)確率作為指標(biāo)監(jiān)控,如Fig 4. 所示,可以發(fā)現(xiàn):

  • CatLIP不需訓(xùn)練文本編碼器,并且只需要對最基本的梯度進(jìn)行跨卡通信,訓(xùn)練速度快。
  • CatLIP的指標(biāo)隨著訓(xùn)練epoch的數(shù)量提高而遞增,而CLIP則會達(dá)到飽和,這意味著CLIP或許需要更大的預(yù)訓(xùn)練數(shù)據(jù)集。

Fig 4. 對比CatLIP和CLIP的預(yù)訓(xùn)練速度和效果。在CC3M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,采用ImageNet-1K的線性探測top-1準(zhǔn)確率作為指標(biāo)。

CC3M是一個只有3百萬圖文對的小型預(yù)訓(xùn)練數(shù)據(jù),作者也進(jìn)行了數(shù)據(jù)尺度放縮的試驗,將預(yù)訓(xùn)練數(shù)據(jù)集換成了DataComp-1.3B,一個具有13億圖文對的數(shù)據(jù)集,實驗結(jié)果如Fig 5.所示,通過放大預(yù)訓(xùn)練的數(shù)據(jù)量,CatLIP能夠得到可觀的、一致的性能提升。

Fig 5. CatLIP中的數(shù)據(jù)放縮試驗。通過在ImageNet-1k和Places365上進(jìn)行線性探測(LP)和全微調(diào)(FT),將圖像文本數(shù)據(jù)集從300萬個樣本擴(kuò)展到13億個樣本可以提高ViT B/16的遷移學(xué)習(xí)精度。

作者在原文還對模型尺度放縮的效果進(jìn)行了對比,同時用CatLIP在其他任務(wù)(如分類任務(wù)、語義分割、目標(biāo)檢測和實例分割等)進(jìn)行了效果驗證,結(jié)論是采用CatLIP的方式預(yù)訓(xùn)練的模型,在這些任務(wù)中都得到了持平或者更好的模型效果表現(xiàn)。在此就不展開了。最后貼一張CatLIP和其他同類模型的對比參考,任務(wù)是分類任務(wù)。

Fig 6. 使用監(jiān)督和弱監(jiān)督方法在不同數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型的遷移學(xué)習(xí)精度(分類任務(wù))。遷移學(xué)習(xí)是通過在下游分類任務(wù)上微調(diào)整個模型來實現(xiàn)的。


筆者讀后感

這篇論文給筆者帶來的啟發(fā),就是CLIP中語義對齊部分的實體語義對齊,可以拆分為簡單直白的多標(biāo)簽分類任務(wù)進(jìn)行建模,損失就是Binary Cross Entropy損失,這個的確能帶來訓(xùn)練速度上的大幅度提升。不過筆者還是有點疑惑的地方:

  1. 只對名詞進(jìn)行檢測并且求同義詞集合,一些視覺屬性,比如顏色、圖樣(條紋狀、格子狀等)等形容詞,是不是就沒法建模了?這個CLIP應(yīng)該是可以建模出來的。同理,關(guān)系類的視覺概念似乎也沒辦法建模了。
  2. 對于組合型視覺概念更加不友好了,雖然CLIP也對組合型的視覺概念不友好,但是還是能學(xué)習(xí)出高頻組合概念的,但是我理解在CatLIP中由于完全拆分為了多標(biāo)簽分類任務(wù),并且沒有對比的過程,已經(jīng)沒辦法建模組合概念了。
  3. 我直觀上感受是,CLIP是一個主要通過正負(fù)樣本對比去學(xué)習(xí)視覺概念的過程,這個過程如果設(shè)計好正負(fù)樣本,比較容易建模細(xì)粒度的視覺概念,CatLIP這種方式,可能沒辦法對細(xì)粒度的概念(比如比同義詞集合中的描述粒度還小的概念)進(jìn)行學(xué)習(xí)。

先存疑吧,后面繼續(xù)看看有沒有后續(xù)工作討論我的這些疑問的,也歡迎讀者評論區(qū)交流&指正~。~

Reference

[1]. Mehta, Sachin, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, and Mohammad Rastegari. "CatLIP: CLIP-level Visual Recognition Accuracy with 2.7 x Faster Pre-training on Web-scale Image-Text Data." arXiv preprint arXiv:2404.15653 (2024). aka CatLIP

[2]. Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry et al. "Learning transferable visual models from natural language supervision." In International conference on machine learning, pp. 8748-8763. PMLR, 2021. aka CLIP

[3].https://fesianxu.github.io/2023/03/04/story-of-multimodal-models-20230304/, 《視頻與圖片檢索中的多模態(tài)語義匹配模型:原理、啟示、應(yīng)用與展望》

[4]. Zhai, Xiaohua, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. "Sigmoid loss for language image pre-training." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 11975-11986. 2023. aka SigLIP

[5]. https://fesianxu.github.io/2024/09/08/sigmoid-language-image-pretrain-20240908/, 《SigLIP——采用sigmoid損失的圖文預(yù)訓(xùn)練方式》

聲明:本內(nèi)容為作者獨立觀點,不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 2
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 精品91在线视频 | 911色_911色sss主站色播 | 788好吊妞视频gaocom | 篱笆女人狗电视连续剧第一部 | 国产V精品V欧美V日韩V | 久久亚洲精品成人无码网站夜色 | 亚洲丁香婷婷久久一区二区 | 欧美日韩国产综合视频 | 日本中文字幕在线免费观看视频 | 午夜高清视频 | 99国产精品国产免费观看 | 亚洲富人天堂视频 | www国产成人免费观看视频深夜成人网 | 男人操女人逼免费视频 | 国产女教师高潮叫床视频网站 | 久久99精品久久久 | 日本精品久久久久中文字幕 | 亚洲国产精品一区二区久久亚洲午夜 | 欧美日韩一区免费 | 9l国产精品久久久久麻豆 | 国产熟睡乱子伦视频在线播放 | 激情亚洲AV无码日韩色 | 精品中文一区 | 丝袜无码一区二区三区 | 九九久久精品一区 | 色一情一乱一伦一区二区三区 | 久久国产a级久久美女毛片 日韩激情无码一级毛片 | 深夜福利成人 | 2017最新高清无码网站 | 欧美受xxxx黑人xyx爽 | 亚洲最新一区 | 欧美视频亚洲视频 | 真人插b免费视频播放 | 黄色一级视频看看 | 天天天操天天天干 | 激情aⅴ欧美一区二区欲海潮 | 波多野结衣伦理在线观看 | 成人中文字幕在线视频 | 成人综合婷婷国产精品久久蜜臀 | 18禁黄网站禁片无遮挡观看 | 男女性色大片免费网站 |