本文是筆者在學(xué)習(xí)Geometric deep learning的過程中的一些筆記和想法,較為零散,主要紀錄了非歐幾里德結(jié)構(gòu)數(shù)據(jù)和歐幾里德結(jié)構(gòu)數(shù)據(jù)之間的區(qū)別,后續(xù)會引出圖卷積網(wǎng)絡(luò)模型。
本文轉(zhuǎn)載自徐飛翔的“《學(xué)習(xí)geometric deep learning筆記系列》第一篇,Non-Euclidean Structure Data之我見”。
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。
總的來說,數(shù)據(jù)類型可以分為兩大類,分別是:歐幾里德結(jié)構(gòu)數(shù)據(jù)(Euclidean Structure Data) 以及 非歐幾里德結(jié)構(gòu)數(shù)據(jù)(Non-Euclidean Structure Data),接下來談自己對這兩類數(shù)據(jù)的認識。
歐幾里德結(jié)構(gòu)樣本
在我們?nèi)粘I钪?,最常見到的媒體介質(zhì)莫過于是圖片(image)和視頻(video)以及語音(voice)了,這些數(shù)據(jù)有一個特點就是:“排列整齊”。什么叫做排列整齊呢?舉例子來說,圖片可以用矩陣來表達其像素,就如同下圖所示[2]:
對于某個節(jié)點,我們很容易可以找出其鄰居節(jié)點,就在旁邊嘛,不偏不倚。而且,圖片數(shù)據(jù)天然的,節(jié)點和鄰居節(jié)點有著統(tǒng)計上的相關(guān)性,因此能夠找出鄰居節(jié)點意味著可以很容易地定義出卷積這個操作出來,而我們在深度學(xué)習(xí)的過程中知道,卷積這個操作是提取局部特征以及層次全局特征的利器,因此圖片可以很容易定義出卷積操作出來,并且在深度網(wǎng)絡(luò)中進行進一步操作。
而且,因為這類型的數(shù)據(jù)排列整齊,不同樣本之間可以容易的定義出“距離”這個概念出來。我們且思考,假設(shè)現(xiàn)在有兩個圖片樣本,盡管其圖片大小可能不一致,但是總是可以通過空間下采樣的方式將其統(tǒng)一到同一個尺寸的,然后直接逐個像素點進行相減后取得平方和,求得兩個樣本之間的歐幾里德距離是完全可以進行的。如下式所見:
因此,不妨把圖片樣本的不同像素點看成是高維歐幾里德空間中的某個維度,因此一張
的圖片可以看成是
維的歐幾里德樣本空間中的一個點,而不同樣本之間的距離就體現(xiàn)在了樣本點之間的距離了。
這就是稱之為歐幾里德結(jié)構(gòu)數(shù)據(jù)的原因了。 同樣的,視頻可以在時間軸上進行采樣做到統(tǒng)一的目的,而音頻也是一樣的。因此它們都是符合歐幾里德距離定義的類型的樣本。
非歐幾里德結(jié)構(gòu)樣本
非歐幾里德結(jié)構(gòu)的樣本總得來說有兩大類型[1],分別是圖(Graph)數(shù)據(jù)[3]和流形數(shù)據(jù)[4],如Fig 2和Fig 3所示:
這兩類數(shù)據(jù)有個特點就是,排列不整齊,比較的隨意。具體體現(xiàn)在:對于數(shù)據(jù)中的某個點,難以定義出其鄰居節(jié)點出來,或者是不同節(jié)點的鄰居節(jié)點的數(shù)量是不同的[5],這個其實是一個特別麻煩的問題,因為這樣就意味著難以在這類型的數(shù)據(jù)上定義出和圖像等數(shù)據(jù)上相同的卷積操作出來,而且因為每個樣本的節(jié)點排列可能都不同,比如在生物醫(yī)學(xué)中的分子篩選中,顯然這個是一個Graph數(shù)據(jù)的應(yīng)用,但是我們都明白,不同的分子結(jié)構(gòu)的原子連接數(shù)量,方式可能都是不同的,因此難以定義出其歐幾里德距離出來,這個是和我們的歐幾里德結(jié)構(gòu)數(shù)據(jù)明顯不同的。因此這類型的數(shù)據(jù)不能看成是在歐幾里德樣本空間中的一個樣本點了,而是要想辦法將其嵌入(embed)到合適的歐幾里德空間后再進行度量。而我們現(xiàn)在流行的Graph Neural Network便可以進行這類型的操作。這就是我們的后話了。
另外,歐幾里德結(jié)構(gòu)數(shù)據(jù)所謂的“排列整齊”也可以視為是一種特殊的非歐幾里德結(jié)構(gòu)數(shù)據(jù),比如說是一種特殊的Graph數(shù)據(jù),如下圖所示[5]:
因此,用Graph Neural Network的方法同樣可以應(yīng)用在歐幾里德結(jié)構(gòu)數(shù)據(jù)上,比如文獻[6]中report的結(jié)果來看,的確這樣是可行的。事實上,只要是賦范空間中的數(shù)據(jù),都可以建立數(shù)據(jù)節(jié)點與數(shù)據(jù)節(jié)點之間的某種關(guān)聯(lián),都可以嘗試用非歐幾里德結(jié)構(gòu)數(shù)據(jù)的深度方法進行實驗。[7]
那么什么叫做賦范空間中的數(shù)據(jù)呢?賦范空間,指的就是定義了范數(shù)的向量空間,我認為,指的是數(shù)據(jù)中的每個樣本的單元的特征維度都是一致的,比如,一張圖片的像素一般都是RGB三個維度的,不同像素之間可以進行求范數(shù)的操作,再比如,一個Graph上的某個節(jié)點和另外一個節(jié)點的維度都是相同的,因此也可以定義出范數(shù)出來。不過這個是我一家之言,如有其他見解,請在評論區(qū)指出。
該系列的后續(xù):
-
《Geometric Deep Learning學(xué)習(xí)筆記》第二篇, 在Graph上定義卷積操作,圖卷積網(wǎng)絡(luò)
-
《Geometric Deep Learning學(xué)習(xí)筆記》第三篇,GCN的空間域理解,Message Passing以及其含義