99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優質創作者
所在專題目錄 查看專題
數據,模型,算法共同決定深度學習模型效果
一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss
參數和非參數模型——當談到參數我在說些什么?
在深度學習中,對于特征融合方式的思考——論pointwise addition和concatenate的異同
損失函數的可視化——淺論模型的參數空間與正則
曲線擬合問題與L2正則
作者動態 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配
3星期前
大模型推理時的尺度擴展定律
3星期前
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

數據,模型,算法共同決定深度學習模型效果

本文轉自徐飛翔的“數據,模型,算法共同決定深度學習模型效果

版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。

在文獻[1]中對few-shot learning進行了很好地總結,其中提到了一個比較有意思的觀點,這里和大家分享下。先拋開few-shot learning的概念,我們先從幾個基本的機器學習的概念進行分析。

期望風險最小化(expected risk minimization): 假設數據分布已知,其中是特征, 是標簽,在給定了特定損失函數 的情況下,對于某個模型假設,我們期望機器學習算法能夠最小化其期望風險,期望風險定義為:

假如模型的參數集合為,那么我們的目標是:

經驗風險最小化(empirical risk minimization): 實際上,數據分布通常不可知,那么我們就不能對其進行積分了,我們一般對該分布進行采樣,得到若干個具有標簽的樣本,我們將其數量記為,那么我們用采樣結果對這個分布進行近似,因此,我們追求最小化經驗風險,這里的經驗(experience)的意思也就是指的是采樣得到的數據集:

此處的經驗風險(3)就可以近似期望風險(1)的近似進行最小化了(當然,在實踐中通常需要加上正則項)。

我們進行以下三種表示:

其中(4)表示最小化期望風險得到的理論上最優的假設,(5)表示在指定的假設空間 中最小化期望風險得到的約束最優假設,(6)表示在指定的數據量為的數據集上進行優化,并且在指定的假設空間 下最小化經驗風險得到的最優假設?。

因為我們沒辦法知道,因此我們沒辦法求得 ,那么作為近似, 是在假定了特定假設空間時候的近似,而 是在特定的數據集和特定假設空間里面的近似。進行簡單的代數變換,我們有(7):

其中用 , 。表征了在期望損失下,在給定的假設空間下的最優假設 能多接近最佳假設。而 表示了在給定假設空間下,對經驗風險進行優化,而不是對期望風險進行優化造成的影響。不失特別的,我們用?表示整個訓練集,有 。

我們不難發現,整個深度模型算法的效果,最后取決于假設空間和訓練集中數據量 。換句話說,為了減少總損失,我們可以從以下幾種角度進行考慮:

    數據,也就是

    模型,其決定了假設空間。

    算法,如何在指定的假設空間 中去搜索最佳假設以擬合 ?。

通常來說,如果 ?數據量很大,那么我們就有充足的監督信息,在指定的假設空間 中,最小化 得到的就可以提供對 的一個良好近似。然而,在few-shot learning (FSL)中,某些類別的樣本數特別少,不足以支撐起對良好假設的一個近似。其經驗風險項 和期望風險項可能有著很大的距離,從而導致假設?過擬合。事實上,這個是在FSL中的核心問題,即是 經驗風險最小假設 變得不再可靠。整個過程如Fig 1所示,左圖有著充足的樣本,因此其經驗風險最小假設相當接近,在 設計合理的情況下,可以更好地近似。而右圖則不同,都比較遠,跟別說和 了。

Fig 1. 樣本充足和樣本缺乏,在學習過程中結果的示意圖。

為了解決在數據量缺少的情況下的不可靠的經驗風險問題,也就是FSL問題,我們必須要引入先驗知識,考慮到從數據,模型,算法這三個角度分別引入先驗知識,現有的FSL工作可以被分為以下幾種:

數據。在這類型方法中,我們利用先驗知識去對 ?進行數據增廣(data augment),從數據量提高到,通常> I" />。隨后標準的機器學習算法就可以在已經增廣過后的數據集上進行。因此,我們可以得到更為精確的假設 ?。如Fig 2 (a)所示。模型。這類型方法通過先驗知識去約束了假設空間  的復雜度,得到了各位窄小的假設空間 。如Fig 2 (b) 所示。灰色區域已經通過先驗知識給排除掉了,因此模型不會考慮往這些方向進行更新,因此,往往需要更少的數據就可以達到更為可靠的經驗風險假設。    算法。這類型的方法考慮使用先驗知識,指導如何對 進行搜索。先驗知識可以通過提供一個好的參數初始化,或者指導參數的更新步,進而影響參數搜索策略。對于后者來說,其導致的搜索更新步由先驗知識和經驗風險最小項共同決定。

Fig 2. 分別從數據,模型和算法三個角度去引入先驗知識。

Reference

[1]. Wang Y, Yao Q, Kwok J, et al. Generalizing from a few examples: A survey on few-shot learning[M]//arXiv: 1904.05046. 2019.

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 4
收藏 3
關注 52
成為作者 賺取收益
全部留言
0/200
  • dy-J4n9lg5Q 2021-05-19 13:29
    對我很有幫助
    回復
主站蜘蛛池模板: 久99热| 亚洲日韩亚洲另类激情文学一 | 黑人巨茎大战欧美白妇 | 国产福利萌白酱在线观看视频 | 久久国产午夜精品理论片推荐 | 国内精品免费久久久久软件 | 国语对白嫖老妇胖老太 | 久久久国产一区二区 | YY111111少妇影院免费观看 | 欧美日韩国产高清一区二区三区 | 中文字幕视频一区二区三区久 | 精品无人码麻豆乱码1区2区 | 噜噜噜av在线观看 | 午夜亚洲视频 | 四虎国产| 国产在线观看第一页 | 亚洲成成熟女人专区 | 亚洲国产果冻传媒av在线观看 | 最新看片国产精品免费在线 | 免费视频mv在线观看 | 噜噜色.com | 受被攻c哭高h视频在线观看 | 日韩精品在线一区二区 | 沈樵精品国产成av片 | 欧美亚洲一级片 | 欧美在线视频免费 | 靠比视频免费观看 | 亚洲情XO亚洲色XO无码 | 国产一区三区三区 | 特级黄色片免费看 | 午夜视频老司机 | 色窝窝色蝌蚪在线视频 | 免费黄网在线 | 久久久无码精品成人A片小说 | 成年免费大片黄在线观看一级 | 成人午夜福利视频网址 | 三级黄色的视频 | 97视频在线 | 免费艹逼 | 在线精品亚洲一区二区动态图 | 日本一区二区三区免费软件 |