在分類任務中,我們的標簽通常是“硬標簽(hard label)”,指的是對于某個樣本,要不是類別A,那么就是類別B,或者類別C等等,可以簡單用one-hot編碼表示,比如[0,1,0], [1,0,0]等,相信做過分類任務的朋友都不陌生。以ImageNet圖片分類為例子,人工進行圖片類別標注的過程并不是完全準確的,人也會犯錯,而且犯錯幾率不小。那么很可能某些圖片會被標注錯誤,而且圖片信息量巨大,其中可能出現多個物體。此時one-hot編碼的類別表示就難以進行完整的樣本描述。我們這個時候就會認識到,原來標注是對樣本進行描述,而描述存在粒度的粗細問題。one-hot編碼的標簽可以認為是粒度最為粗糙的一種,如果圖片中出現多個物體,而我們都對其進行標注,形成multi-hot編碼的標簽,如[0,1,1]等,那么此時粒度無疑更為精細了,如果我們對物體在圖片中的位置進行標注,形成包圍盒(bounding box,bbox),那么無疑粒度又進一步精細了。
也就是說,對于標注,我們會考慮兩個維度:1)標注信息量是否足夠,2)標注粒度是否足夠精細。然而,對于一般的xxx-hot標簽而言,除了標注其類別,是不具有其他語義(semantic)信息的,也就是說,我們很難知道類別A和類別B之間的區別,類別C與類別B之間的區別。因為人類壓根沒有告訴他,如Fig 1所示,基于one-hot標簽的類別分類任務,每個標簽可以視為是笛卡爾坐標系中彼此正交的軸上的基底,這意味著每個類別之間的歐式距離是一致的,也就是說,模型認為貓,狗,香蕉都是等價的類別,但是顯然,貓和狗都屬于動物,而香蕉屬于植物。基于one-hot標注,模型無法告訴我們這一點。
Fig 1. 在one-hot場景中,每個類別標簽之間的距離是一致的,但是顯然,貓和狗屬于動物類別,而香蕉屬于植物類別,這種標簽無法提供足夠的語義信息。
也就是說,貓和狗,相比于香蕉,有著更為接近的語義,也許Fig 2會是個更好的選擇。如果我們的標簽不再是one-hot的,而是所謂的語義標簽,或者在NLP領域稱之為分布式標簽(Distributing label, Distributing vector)或者嵌入標簽(embedding label, embedding vector),那么類別標簽之間的歐式距離就可以描述類別之間的相似程度,這個可視為是簡單的語義信息,然而很多高層語義信息都依賴于此。
Fig 2. 如果我們的標簽是語義標簽,那么此時類別標簽之間的歐式距離可以衡量類別之間的相似程度,這點可視為是簡單的語義信息。
獲取語義標簽不能依靠于人工標注,因為人無法很好很客觀地描述每個類別之間的相似程度,而且人工精細地標注這個做法在很多高級任務中,無法實現。因此,更為可行的方法是利用多模態信息融合,比如結合NLP和CV,我們知道一個類別稱之為“狗”,另一個類別稱之為“貓”,還有一個類別是“香蕉”,我們通過word embedding的方法,可以得到每個類別描述的詞向量,因為詞向量是基于共現矩陣或者上下文局部性原理得到的,因此大概率語義相關的類別會具有類似的詞向量,從而實現語義標簽的生成。
當然,這種語義標簽只能表達粗糙的,低層次的語義信息,比如類別之間的相似程度。如果涉及到更高層的語義呢?比如VQA,給定一個圖片,我們基于圖片給出一個問題,然后期望模型回答問題;比如Image Caption,給定圖片,然后模型需要嘗試用語言對圖片進行描述。這些任務都是需要很高層次的語義標注才能實現的。通常來說,此時人工標注能做到的就是給定一個圖片,讓多個人以相近的標準去進行描述,然后形成圖文對
當然,高層語義信息也依賴于底層語義的可靠,諸如目前很多transformer在多模態的應用,如ViLBERT [1],ERNIE-ViL [2]等,都依賴與詞向量的可靠,然后才談得上高層語義的可靠。從這個角度來看,其實從底層語義,底層CV&NLP任務到高層語義多模態任務,其實是有一脈相承的邏輯在的。我們將在以后的博文里面繼續探討多模態的一些想法。
Reference
[1]. Lu, Jiasen, Dhruv Batra, Devi Parikh, and Stefan Lee. “Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks.” arXiv preprint arXiv:1908.02265 (2019).
[2]. Yu, F., Tang, J., Yin, W., Sun, Y., Tian, H., Wu, H., & Wang, H. (2020). Ernie-vil: Knowledge enhanced vision-language representations through scene graph. arXiv preprint arXiv:2006.16934.