語義標簽(Semantic label)與多模態模型的一些關系

徐土豆 2024-12-07 14:24 125 閱讀 3 贊 5 收藏 0 評論

在分類任務中，我們的標簽通常是“硬標簽（hard label）”，指的是對于某個樣本，要不是類別A，那么就是類別B，或者類別C等等，可以簡單用one-hot編碼表示，比如[0,1,0], [1,0,0]等，相信做過分類任務的朋友都不陌生。以ImageNet圖片分類為例子，人工進行圖片類別標注的過程并不是完全準確的，人也會犯錯，而且犯錯幾率不小。那么很可能某些圖片會被標注錯誤，而且圖片信息量巨大，其中可能出現多個物體。此時one-hot編碼的類別表示就難以進行完整的樣本描述。我們這個時候就會認識到，原來標注是對樣本進行描述，而描述存在粒度的粗細問題。one-hot編碼的標簽可以認為是粒度最為粗糙的一種，如果圖片中出現多個物體，而我們都對其進行標注，形成multi-hot編碼的標簽，如[0,1,1]等，那么此時粒度無疑更為精細了，如果我們對物體在圖片中的位置進行標注，形成包圍盒（bounding box，bbox），那么無疑粒度又進一步精細了。

也就是說，對于標注，我們會考慮兩個維度：1）標注信息量是否足夠，2）標注粒度是否足夠精細。然而，對于一般的xxx-hot標簽而言，除了標注其類別，是不具有其他語義（semantic）信息的，也就是說，我們很難知道類別A和類別B之間的區別，類別C與類別B之間的區別。因為人類壓根沒有告訴他，如Fig 1所示，基于one-hot標簽的類別分類任務，每個標簽可以視為是笛卡爾坐標系中彼此正交的軸上的基底，這意味著每個類別之間的歐式距離是一致的，也就是說，模型認為貓，狗，香蕉都是等價的類別，但是顯然，貓和狗都屬于動物，而香蕉屬于植物。基于one-hot標注，模型無法告訴我們這一點。

Fig 1. 在one-hot場景中，每個類別標簽之間的距離是一致的，但是顯然，貓和狗屬于動物類別，而香蕉屬于植物類別，這種標簽無法提供足夠的語義信息。

也就是說，貓和狗，相比于香蕉，有著更為接近的語義，也許Fig 2會是個更好的選擇。如果我們的標簽不再是one-hot的，而是所謂的語義標簽，或者在NLP領域稱之為分布式標簽（Distributing label, Distributing vector）或者嵌入標簽（embedding label, embedding vector），那么類別標簽之間的歐式距離就可以描述類別之間的相似程度，這個可視為是簡單的語義信息，然而很多高層語義信息都依賴于此。

Fig 2. 如果我們的標簽是語義標簽，那么此時類別標簽之間的歐式距離可以衡量類別之間的相似程度，這點可視為是簡單的語義信息。

獲取語義標簽不能依靠于人工標注，因為人無法很好很客觀地描述每個類別之間的相似程度，而且人工精細地標注這個做法在很多高級任務中，無法實現。因此，更為可行的方法是利用多模態信息融合，比如結合NLP和CV，我們知道一個類別稱之為“狗”，另一個類別稱之為“貓”，還有一個類別是“香蕉”，我們通過word embedding的方法，可以得到每個類別描述的詞向量，因為詞向量是基于共現矩陣或者上下文局部性原理得到的，因此大概率語義相關的類別會具有類似的詞向量，從而實現語義標簽的生成。

當然，這種語義標簽只能表達粗糙的，低層次的語義信息，比如類別之間的相似程度。如果涉及到更高層的語義呢？比如VQA，給定一個圖片，我們基于圖片給出一個問題，然后期望模型回答問題；比如Image Caption，給定圖片，然后模型需要嘗試用語言對圖片進行描述。這些任務都是需要很高層次的語義標注才能實現的。通常來說，此時人工標注能做到的就是給定一個圖片，讓多個人以相近的標準去進行描述，然后形成圖文對，讓模型進行學習。當然這種需要大量人力進行標注的工作量驚人，因此更好的方式是在互聯網挖掘海量的無標簽帶噪信息，比如同一個網頁的圖文我們認為是同一個主題的，比如朋友圈，微博的圖文評論等，這些帶有噪聲，但是又具有相關性的海量數據也是可以挖掘的。

當然，高層語義信息也依賴于底層語義的可靠，諸如目前很多transformer在多模態的應用，如ViLBERT [1]，ERNIE-ViL [2]等，都依賴與詞向量的可靠，然后才談得上高層語義的可靠。從這個角度來看，其實從底層語義，底層CV&NLP任務到高層語義多模態任務，其實是有一脈相承的邏輯在的。我們將在以后的博文里面繼續探討多模態的一些想法。

Reference

[1]. Lu, Jiasen, Dhruv Batra, Devi Parikh, and Stefan Lee. “Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks.” arXiv preprint arXiv:1908.02265 (2019).

[2]. Yu, F., Tang, J., Yin, W., Sun, Y., Tian, H., Wu, H., & Wang, H. (2020). Ernie-vil: Knowledge enhanced vision-language representations through scene graph. arXiv preprint arXiv:2006.16934.

聲明：本內容為作者獨立觀點，不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴，請聯系：editor@netbroad.com

覺得內容不錯的朋友，別忘了一鍵三連哦！

贊 3

關注 52

成為作者賺取收益

全部留言

0/200

成為第一個和作者交流的人吧

99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

語義標簽(Semantic label)與多模態模型的一些關系