Elon Musk支持的OpenAI正在教授機(jī)器人如何像人類一樣學(xué)習(xí)

2019-05-27 17:21:12 編輯：來(lái)源：

導(dǎo)讀總部位于舊金山的非營(yíng)利性研究實(shí)驗(yàn)室OpenAI，由Elon Musk支持，今天宣布其機(jī)器人工作的研究里程碑。該成就是一種新算法，它允許人類通過(guò)首

總部位于舊金山的非營(yíng)利性研究實(shí)驗(yàn)室OpenAI，由Elon Musk支持，今天宣布其機(jī)器人工作的研究里程碑。該成就是一種新算法，它允許人類通過(guò)首先在虛擬現(xiàn)實(shí)中執(zhí)行任務(wù)來(lái)將任務(wù)傳達(dá)給AI。該方法基于所謂的一次性模仿學(xué)習(xí)，這是一種OpenAI開(kāi)發(fā)的技術(shù)，允許軟件僅使用一個(gè)示例來(lái)指導(dǎo)機(jī)器人模仿物理動(dòng)作。

在這種情況下，OpenAI正試圖教一個(gè)機(jī)器人手臂如何堆疊一系列彩色立方體形狀的塊。佩戴VR耳機(jī)的人首先在虛擬環(huán)境中手動(dòng)執(zhí)行任務(wù)。OpenAI然后有它的視覺(jué)網(wǎng)絡(luò) - 一種在數(shù)十萬(wàn)個(gè)模擬圖像上訓(xùn)練的神經(jīng)網(wǎng)絡(luò) - 觀察動(dòng)作。這部分過(guò)程基于之前的OpenAI研究，該研究側(cè)重于使用具有不斷變化的變量的模擬數(shù)據(jù)來(lái)訓(xùn)練AI。

因?yàn)槭占鎸?shí)世界的圖像是密集的，昂貴的和耗時(shí)的，所以與模擬數(shù)據(jù)實(shí)現(xiàn)類似的效果更快且更有效。在這種情況下，OpenAI選擇不使用其設(shè)置的真實(shí)照片，而是選擇為其算法提供大量的桌面虛擬圖像和具有不同風(fēng)格的背景，光照效果和紋理的塊。這樣做允許算法在分析來(lái)自機(jī)器人的攝像機(jī)饋送時(shí)，在沒(méi)有看過(guò)它的情況下理解場(chǎng)景。

然后，OpenAI的算法從視覺(jué)網(wǎng)絡(luò)中收集信息，并將其提供給第二個(gè)神經(jīng)網(wǎng)絡(luò)，稱為仿制網(wǎng)絡(luò)，引導(dǎo)機(jī)器人手臂。它懷疑該行動(dòng)的意圖應(yīng)該是什么，然后通過(guò)預(yù)測(cè)人類演員在類似情況下會(huì)做什么來(lái)模仿它。當(dāng)然，棘手的部分是塊每次都有不同的顏色和排列，但軟件可以堆疊三個(gè)獨(dú)立的雙立方體堆棧，無(wú)論初始設(shè)置如何：

所有這一切都只使用模擬數(shù)據(jù)完成，而不是通過(guò)顯示機(jī)器人視頻或真實(shí)世界示例的照片。“我們的機(jī)器人現(xiàn)在已經(jīng)學(xué)會(huì)了執(zhí)行任務(wù)，即使它的動(dòng)作必須與演示中的動(dòng)作不同，”OpenAI技術(shù)人員Josh Tobin在一個(gè)用于演示新算法的視頻中解釋道。“通過(guò)對(duì)任務(wù)的單一演示，我們可以在許多不同的初始條件下復(fù)制它。教導(dǎo)機(jī)器人如何構(gòu)建不同的塊安排只需要一次額外的演示。“

這里的長(zhǎng)期目標(biāo)是讓AI能夠快速學(xué)習(xí)新的行為，并利用這些知識(shí)來(lái)適應(yīng)環(huán)境中不可預(yù)測(cè)的變化。托賓說(shuō)：“嬰兒天生具有模仿其他人所做的事情的能力。” “模仿可以讓人類快速學(xué)習(xí)新的行為。我們希望我們的機(jī)器人能夠以這種方式學(xué)習(xí)。“