99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

語義標簽(Semantic label)與多模態模型的一些關系

在分類任務中,我們的標簽通常是“硬標簽(hard label)”,指的是對于某個樣本,要不是類別A,那么就是類別B,或者類別C等等,可以簡單用one-hot編碼表示,比如[0,1,0], [1,0,0]等,相信做過分類任務的朋友都不陌生。以ImageNet圖片分類為例子,人工進行圖片類別標注的過程并不是完全準確的,人也會犯錯,而且犯錯幾率不小。那么很可能某些圖片會被標注錯誤,而且圖片信息量巨大,其中可能出現多個物體。此時one-hot編碼的類別表示就難以進行完整的樣本描述。我們這個時候就會認識到,原來標注是對樣本進行描述,而描述存在粒度的粗細問題。one-hot編碼的標簽可以認為是粒度最為粗糙的一種,如果圖片中出現多個物體,而我們都對其進行標注,形成multi-hot編碼的標簽,如[0,1,1]等,那么此時粒度無疑更為精細了,如果我們對物體在圖片中的位置進行標注,形成包圍盒(bounding box,bbox),那么無疑粒度又進一步精細了。

也就是說,對于標注,我們會考慮兩個維度:1)標注信息量是否足夠,2)標注粒度是否足夠精細。然而,對于一般的xxx-hot標簽而言,除了標注其類別,是不具有其他語義(semantic)信息的,也就是說,我們很難知道類別A和類別B之間的區別,類別C與類別B之間的區別。因為人類壓根沒有告訴他,如Fig 1所示,基于one-hot標簽的類別分類任務,每個標簽可以視為是笛卡爾坐標系中彼此正交的軸上的基底,這意味著每個類別之間的歐式距離是一致的,也就是說,模型認為貓,狗,香蕉都是等價的類別,但是顯然,貓和狗都屬于動物,而香蕉屬于植物。基于one-hot標注,模型無法告訴我們這一點。

Fig 1. 在one-hot場景中,每個類別標簽之間的距離是一致的,但是顯然,貓和狗屬于動物類別,而香蕉屬于植物類別,這種標簽無法提供足夠的語義信息。

也就是說,貓和狗,相比于香蕉,有著更為接近的語義,也許Fig 2會是個更好的選擇。如果我們的標簽不再是one-hot的,而是所謂的語義標簽,或者在NLP領域稱之為分布式標簽(Distributing label, Distributing vector)或者嵌入標簽(embedding label, embedding vector),那么類別標簽之間的歐式距離就可以描述類別之間的相似程度,這個可視為是簡單的語義信息,然而很多高層語義信息都依賴于此。

Fig 2. 如果我們的標簽是語義標簽,那么此時類別標簽之間的歐式距離可以衡量類別之間的相似程度,這點可視為是簡單的語義信息。

獲取語義標簽不能依靠于人工標注,因為人無法很好很客觀地描述每個類別之間的相似程度,而且人工精細地標注這個做法在很多高級任務中,無法實現。因此,更為可行的方法是利用多模態信息融合,比如結合NLP和CV,我們知道一個類別稱之為“狗”,另一個類別稱之為“貓”,還有一個類別是“香蕉”,我們通過word embedding的方法,可以得到每個類別描述的詞向量,因為詞向量是基于共現矩陣或者上下文局部性原理得到的,因此大概率語義相關的類別會具有類似的詞向量,從而實現語義標簽的生成。

當然,這種語義標簽只能表達粗糙的,低層次的語義信息,比如類別之間的相似程度。如果涉及到更高層的語義呢?比如VQA,給定一個圖片,我們基于圖片給出一個問題,然后期望模型回答問題;比如Image Caption,給定圖片,然后模型需要嘗試用語言對圖片進行描述。這些任務都是需要很高層次的語義標注才能實現的。通常來說,此時人工標注能做到的就是給定一個圖片,讓多個人以相近的標準去進行描述,然后形成圖文對,讓模型進行學習。當然這種需要大量人力進行標注的工作量驚人,因此更好的方式是在互聯網挖掘海量的無標簽帶噪信息,比如同一個網頁的圖文我們認為是同一個主題的,比如朋友圈,微博的圖文評論等,這些帶有噪聲,但是又具有相關性的海量數據也是可以挖掘的。

當然,高層語義信息也依賴于底層語義的可靠,諸如目前很多transformer在多模態的應用,如ViLBERT [1],ERNIE-ViL [2]等,都依賴與詞向量的可靠,然后才談得上高層語義的可靠。從這個角度來看,其實從底層語義,底層CV&NLP任務到高層語義多模態任務,其實是有一脈相承的邏輯在的。我們將在以后的博文里面繼續探討多模態的一些想法。

Reference

[1]. Lu, Jiasen, Dhruv Batra, Devi Parikh, and Stefan Lee. “Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks.” arXiv preprint arXiv:1908.02265 (2019).

[2]. Yu, F., Tang, J., Yin, W., Sun, Y., Tian, H., Wu, H., & Wang, H. (2020). Ernie-vil: Knowledge enhanced vision-language representations through scene graph. arXiv preprint arXiv:2006.16934.

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 3
收藏 5
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 欧美日韩国产高清 | 国产精品资源一区二区三区 | 国产精品午夜爆乳美女 | 亚洲无码一区二区三区 | 人妻系列综合第一页 | 最新日韩AV网址在线观看 | 日韩一区二区三区福利视频 | 91狠狠综合 | 成人免费在线网站 | 成人国产亚洲精品A区天堂 欧美四虎影院 | 欧美日韩国产高清一区二区三区 | 99视频国产精品免费观看 | 在线啪啪 | 99超碰在线人人 | 亚洲综合欧美色五月俺也去 | 波多野结衣成人在线观看 | 污污网站国产精品白丝袜 | 久久久久久无码精品无码国产人妻丝瓜 | 久久日韩国产精品免费 | 99精品国产在热久久无毒不卡 | 国内精品久久久人妻中文字幕 | 蜜臀av免费一区二区三区久久乐 | 一级级黄| 国产精品久久久久久久毛片动漫 | 大地资源二在线观看官网 | 国产性色强伦免费视频 | 中文字幕一区日韩精品欧美 | 中文字幕视频在线 | 国产亚洲精品欧洲在线观看 | 午夜久久福利 | 亚洲中文字幕国产综合 | 欧美一级日韩一级亚洲一级 | 伊人逼逼| 97在线观看免费版高清 | 亚洲丁香婷婷久久一区二区 | 国产无套激情在线视频 | 无码区日韩特区永久免费系列 | 久色欧美 | 热久久综合网 | 免费精品国产福利片 | 欧美日产国产新一区 |