一種克服深度神經(jīng)網(wǎng)絡(luò)中多模型遺忘的新方法

2019-06-03 10:50:25 編輯：來(lái)源：

導(dǎo)讀近年來(lái)，研究人員開(kāi)發(fā)了深度神經(jīng)網(wǎng)絡(luò)，可以執(zhí)行各種任務(wù)，包括視覺(jué)識(shí)別和自然語(yǔ)言處理(NLP)任務(wù)。盡管這些模型中的許多都取得了顯著的成果

近年來(lái)，研究人員開(kāi)發(fā)了深度神經(jīng)網(wǎng)絡(luò)，可以執(zhí)行各種任務(wù)，包括視覺(jué)識(shí)別和自然語(yǔ)言處理(NLP)任務(wù)。盡管這些模型中的許多都取得了顯著的成果，但由于所謂的“災(zāi)難性遺忘”，它們通常只能在一項(xiàng)特定任務(wù)上表現(xiàn)良好。

從本質(zhì)上講，災(zāi)難性遺忘意味著當(dāng)最初在任務(wù)A上訓(xùn)練的模型后來(lái)在任務(wù)B上進(jìn)行訓(xùn)練時(shí)，其在任務(wù)A上的表現(xiàn)將顯著下降。在arXiv上發(fā)表的一篇論文中，Swisscom和EPFL的研究人員發(fā)現(xiàn)了一種新的遺忘方法，并提出了一種新的方法，可以通過(guò)統(tǒng)計(jì)學(xué)上合理的重量塑性損失來(lái)幫助克服它。

“當(dāng)我們第一次開(kāi)始研究我們的項(xiàng)目時(shí)，自動(dòng)設(shè)計(jì)神經(jīng)架構(gòu)對(duì)于大多數(shù)公司而言計(jì)算成本昂貴且不可行，”該研究的主要研究人員Yassine Benyahia和Kaicheng Yu通過(guò)電子郵件告訴TechXplore。“我們研究的最初目的是確定減少這種費(fèi)用的新方法。當(dāng)項(xiàng)目開(kāi)始時(shí)，Google的一篇論文聲稱(chēng)使用稱(chēng)為重量分擔(dān)的新方法大大減少了構(gòu)建神經(jīng)架構(gòu)所需的時(shí)間和資源。使autoML對(duì)沒(méi)有巨大GPU集群的研究人員可行，鼓勵(lì)我們更深入地研究這個(gè)話題。“

EWC與WPL的比較。每個(gè)子圖中的橢圓表示對(duì)應(yīng)于低誤差的參數(shù)區(qū)域。(左上)兩種方法都以單個(gè)模型開(kāi)始，參數(shù)θA= {θs，θ1}，在單個(gè)數(shù)據(jù)集D1上訓(xùn)練。(左下)EWC基于p(θA| D1)對(duì)所有參數(shù)進(jìn)行調(diào)整，以在新數(shù)據(jù)集D2上訓(xùn)練相同的初始模型。(右上)相比之下，WPL利用初始數(shù)據(jù)集D1并僅基于p(θA| D1)和v>Ωv對(duì)共享參數(shù)θs進(jìn)行正則化，而參數(shù)θ2可以自由移動(dòng)。圖片來(lái)源：Benyahia，Yu等人。

在研究基于神經(jīng)網(wǎng)絡(luò)的模型時(shí)，Benyahia，Yu和他們的同事發(fā)現(xiàn)了體重分擔(dān)的問(wèn)題。當(dāng)他們按順序訓(xùn)練兩個(gè)模型(例如A和B)時(shí)，模型A的性能下降，而模型B的性能上升，反之亦然。他們表明，這種被稱(chēng)為“多模型遺忘”的現(xiàn)象可能會(huì)阻礙幾種自動(dòng)mL方法的表現(xiàn)，包括Google的高效神經(jīng)架構(gòu)搜索(ENAS)。

“我們意識(shí)到，體重分享導(dǎo)致模型相互影響，這導(dǎo)致架構(gòu)搜索過(guò)程更接近隨機(jī)，”Benyahia和Yu解釋說(shuō)。“我們?cè)诩軜?gòu)搜索方面也有自己的儲(chǔ)備，只有最終的結(jié)果才能明白，而且沒(méi)有良好的框架來(lái)公平地評(píng)估架構(gòu)搜索的質(zhì)量。我們的方法可以幫助解決這個(gè)遺忘問(wèn)題，如它與幾乎所有最近的autoML論文所依賴的核心方法有關(guān)，我們認(rèn)為這種影響對(duì)社區(qū)來(lái)說(shuō)是巨大的。“

在他們的研究中，研究人員模擬了多模型在數(shù)學(xué)上的遺忘并得出了一種新的損失，稱(chēng)為重量可塑性損失。這種損失可以通過(guò)根據(jù)模型的共享參數(shù)的先前模型的重要性來(lái)規(guī)范學(xué)習(xí)模型的共享參數(shù)來(lái)大大減少多模型遺忘。

從嚴(yán)格到松散的收斂。研究人員使用共享參數(shù)對(duì)模型A和B進(jìn)行MNIST實(shí)驗(yàn)，并在訓(xùn)練模型B(基線，綠色)之前報(bào)告模型A的準(zhǔn)確性，并在訓(xùn)練模型B時(shí)使用(橙色)或不使用(藍(lán)色)訓(xùn)練模型A和B的準(zhǔn)確性)WPL。在(a)中，它們顯示了嚴(yán)格收斂的結(jié)果：A最初訓(xùn)練為收斂。然后，他們放松了這個(gè)假設(shè)并將A訓(xùn)練到其最佳準(zhǔn)確度的55%(b)，43%(c)和38%(d)。當(dāng)A訓(xùn)練至少達(dá)到最優(yōu)性的40%時(shí)，WPL非常有效; 在下面，F(xiàn)isher信息變得太不準(zhǔn)確，無(wú)法提供可靠的重要性權(quán)重。因此，即使權(quán)重不是最優(yōu)的，WPL也有助于減少多模型遺忘。WPL減少(a)和(b)的遺忘率高達(dá)99.99%，(c)減少高達(dá)2%。信用：

“基本上，由于神經(jīng)網(wǎng)絡(luò)的過(guò)度參數(shù)化，我們的損失會(huì)減少首先對(duì)最終損失”不太重要“的參數(shù)，并保持更重要的參數(shù)不變，”Benyahia和Yu說(shuō)。“模型A的性能因此不受影響，而模型B的性能不斷提高。在小型數(shù)據(jù)集上，我們的模型可以減少高達(dá)99%的遺忘，而對(duì)于autoML方法，在訓(xùn)練過(guò)程中高達(dá)80%。”

在一系列測(cè)試中，研究人員證明了他們的方法在減少多模型遺忘方面的有效性，無(wú)論是在順序訓(xùn)練兩個(gè)模型還是進(jìn)行神經(jīng)結(jié)構(gòu)搜索的情況下。他們的研究結(jié)果表明，在神經(jīng)結(jié)構(gòu)搜索中增加重量可塑性可以顯著提高NLP和計(jì)算機(jī)視覺(jué)任務(wù)上多個(gè)模型的性能。

由Benyahia，Yu和他們的同事進(jìn)行的研究揭示了災(zāi)難性遺忘的問(wèn)題，特別是當(dāng)多個(gè)模型按順序訓(xùn)練時(shí)發(fā)生的問(wèn)題。在用數(shù)學(xué)方法對(duì)這個(gè)問(wèn)題進(jìn)行建模之后，研究人員引入了一種可以克服它的解決方案，或者至少可以大大降低其影響。

神經(jīng)架構(gòu)搜索中的誤差差異。對(duì)于每個(gè)體系結(jié)構(gòu)，研究人員計(jì)算RNN誤差差異err2-err1，其中err1是在訓(xùn)練該體系結(jié)構(gòu)之后的錯(cuò)誤，并且err2是在當(dāng)前時(shí)期訓(xùn)練所有體系結(jié)構(gòu)之后的錯(cuò)誤。它們繪制了(a)所有采樣模型的平均差異，(b)具有最低err1的5個(gè)模型的平均差異，以及(c)所有模型的最大差異。在(d)中，他們將采樣架構(gòu)的平均獎(jiǎng)勵(lì)繪制為訓(xùn)練迭代的函數(shù)。盡管WPL最初導(dǎo)致較低的獎(jiǎng)勵(lì)，但由于等式(8)中的權(quán)重α較大，通過(guò)減少遺忘，以后允許控制器對(duì)更好的架構(gòu)進(jìn)行采樣，如下半部分中的較高獎(jiǎng)勵(lì)所示。圖片來(lái)源：Benyahia，Yu等人。

“在多模式遺忘中，我們的指導(dǎo)原則是在公式中思考而不僅僅是通過(guò)簡(jiǎn)單的直覺(jué)或啟發(fā)式思考，”Benyahia和Yu說(shuō)。“我們堅(jiān)信，這種'公式思考'可以引導(dǎo)研究人員獲得偉大的發(fā)現(xiàn)。這就是為什么進(jìn)一步的研究，我們的目標(biāo)是將這種方法應(yīng)用于機(jī)器學(xué)習(xí)的其他領(lǐng)域。此外，我們計(jì)劃將我們的損失調(diào)整到最近的狀態(tài)最先進(jìn)的autoML方法，以證明其有效解決我們觀察到的體重分擔(dān)問(wèn)題。“

標(biāo)簽：神經(jīng)網(wǎng)絡(luò)