增強(qiáng)的模仿學(xué)習(xí)算法使用人類的注視數(shù)據(jù)

2022-07-10 00:25:02 編輯：孔倩瑗來源：

導(dǎo)讀過去的心理學(xué)研究表明，當(dāng)人們?cè)谧鋈髦位驘犸嫷热粘９ぷ鲿r(shí)，人類的目光可以對(duì)他們的意圖進(jìn)行編碼。類似地，人們發(fā)現(xiàn)，人類的凝視可以提高

過去的心理學(xué)研究表明，當(dāng)人們?cè)谧鋈髦位驘犸嫷热粘９ぷ鲿r(shí)，人類的目光可以對(duì)他們的意圖進(jìn)行編碼。類似地，人們發(fā)現(xiàn)，人類的凝視可以提高模仿學(xué)習(xí)方法的性能，這種方法允許機(jī)器人通過模仿人類演示者來學(xué)習(xí)如何完成任務(wù)。

受到之前這些發(fā)現(xiàn)的啟發(fā)，德克薩斯大學(xué)奧斯汀分校和塔夫茨大學(xué)的研究人員最近設(shè)計(jì)了一種新的策略，利用與人類目光相關(guān)的數(shù)據(jù)來增強(qiáng)模仿學(xué)習(xí)算法。他們?cè)赼rXiv上發(fā)表的一篇論文中概述了他們開發(fā)的方法，該方法利用人類演示者的目光，將模仿學(xué)習(xí)算法的注意力引向他們認(rèn)為重要的領(lǐng)域，基于人類用戶會(huì)關(guān)注這些領(lǐng)域的事實(shí)。

“深度學(xué)習(xí)算法必須學(xué)會(huì)識(shí)別視覺場(chǎng)景中的重要特征，比如視頻游戲中的人物或敵人，同時(shí)也要學(xué)會(huì)如何利用這些特征進(jìn)行決策，”德克薩斯大學(xué)奧斯汀分校的斯科特·尼克姆教授在接受TechXplore采訪時(shí)表示。“我們的方法讓這變得更容易，利用人類的目光作為線索，表明場(chǎng)景中的哪些視覺元素對(duì)決策最重要。”

研究人員設(shè)計(jì)的方法需要使用與人類目光相關(guān)的信息作為指導(dǎo)，將深度學(xué)習(xí)模型的注意力引向它正在分析的數(shù)據(jù)中特別重要的特征。這種與視線相關(guān)的指導(dǎo)被編碼在訓(xùn)練過程中應(yīng)用于深度學(xué)習(xí)模型的損失函數(shù)中。

“先前的研究探索的目光的使用數(shù)據(jù)來提高模仿學(xué)習(xí)方法通常集成凝視數(shù)據(jù)通過訓(xùn)練算法可學(xué)的參數(shù),使學(xué)習(xí)計(jì)算昂貴,要求凝視訓(xùn)練和測(cè)試信息,時(shí)間,”名叫Akanksha薩蘭,德克薩斯大學(xué)奧斯丁分校博士生參與這項(xiàng)研究,對(duì)TechXplore說。“我們希望探索其他途徑，在不增加可學(xué)習(xí)參數(shù)的情況下，利用人類注視數(shù)據(jù)輕松地增強(qiáng)現(xiàn)有的模仿學(xué)習(xí)方法。”

Niekum, Saran和他們的同事開發(fā)的策略可以應(yīng)用于大多數(shù)現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的架構(gòu)。使用一個(gè)輔助的注視丟失組件，引導(dǎo)架構(gòu)走向更有效的策略，他們的方法最終可以提高各種深度學(xué)習(xí)算法的性能。

相對(duì)于其他利用目光相關(guān)數(shù)據(jù)來指導(dǎo)深度學(xué)習(xí)模型的策略，這種新方法有幾個(gè)優(yōu)勢(shì)。兩個(gè)最值得注意的是，它不需要在測(cè)試時(shí)訪問注視數(shù)據(jù)和添加可學(xué)習(xí)的附加參數(shù)。

研究人員在一系列實(shí)驗(yàn)中評(píng)估了他們的方法，用它來增強(qiáng)不同的深度學(xué)習(xí)架構(gòu)，然后在雅達(dá)利游戲中測(cè)試他們的表現(xiàn)。他們發(fā)現(xiàn)，這大大提高了三種不同的模仿學(xué)習(xí)算法的性能，超過了使用人類注視數(shù)據(jù)的基線方法。此外，研究人員的方法與另一種策略的表現(xiàn)相匹配，即在訓(xùn)練期間和測(cè)試期間使用與目光相關(guān)的數(shù)據(jù)，但這需要增加可學(xué)習(xí)參數(shù)的數(shù)量。

薩蘭說:“我們的研究結(jié)果表明，以前提出的一些方法的好處來自于可學(xué)習(xí)參數(shù)數(shù)量的增加，而不是僅僅使用凝視數(shù)據(jù)。”“我們的方法在不增加現(xiàn)有模仿學(xué)習(xí)技術(shù)參數(shù)的情況下，顯示出類似的改進(jìn)。”

在進(jìn)行他們的實(shí)驗(yàn)時(shí)，研究人員還觀察到，在一個(gè)特定的場(chǎng)景中，物體的運(yùn)動(dòng)并不能完全解釋凝視所編碼的信息。在未來，他們開發(fā)的策略可以用來提高模仿學(xué)習(xí)算法在各種不同任務(wù)上的性能。研究人員希望他們的工作也將為進(jìn)一步的研究提供信息，這些研究旨在利用與人類目光相關(guān)的數(shù)據(jù)來推進(jìn)計(jì)算技術(shù)。

“雖然我們的方法在測(cè)試期間減少了計(jì)算需求，但它需要在訓(xùn)練期間調(diào)整超參數(shù)以獲得良好的性能，”Saran說。“在訓(xùn)練過程中，通過編碼人類注視行為的其他直覺來減輕這種負(fù)擔(dān)，將是未來工作的一個(gè)方面。”

到目前為止，Saran和她的同事開發(fā)的方法被證明是非常有前途的，但是有幾個(gè)方法可以進(jìn)一步改進(jìn)。例如，它目前還沒有對(duì)所有與人類目光相關(guān)的數(shù)據(jù)進(jìn)行建模，而這些數(shù)據(jù)可能有利于模仿學(xué)習(xí)的應(yīng)用。研究人員希望在未來的研究中關(guān)注這些其他方面。

薩蘭說:“最后，凝視和動(dòng)作的暫時(shí)聯(lián)系還沒有被探索過，這可能對(duì)獲得更多的績(jī)效效益至關(guān)重要。”“我們也在利用人類老師的其他線索來加強(qiáng)模仿學(xué)習(xí)，比如人類的聲音伴音演示。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！