2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
就像人類一樣,當(dāng)機(jī)器人做出決定時(shí),通常會(huì)有很多選擇和成百上千的潛在結(jié)果。機(jī)器人已經(jīng)能夠模擬這些結(jié)果中的少數(shù)幾個(gè),從而找出哪種行動(dòng)方式最有可能導(dǎo)致成功。但是,如果其他選擇之一同樣有可能成功并且更安全呢?
海軍研究辦公室授予史蒂文斯技術(shù)學(xué)院(MIT)機(jī)械工程師培訓(xùn)的布倫丹·恩格洛特(Brendan Englot)2020年青年科學(xué)家獎(jiǎng)508美元,693美元,以利用經(jīng)典人工智能工具的新變體使機(jī)器人能夠預(yù)測(cè)許多行動(dòng)的結(jié)果以及發(fā)生的可能性。該框架將使機(jī)器人通過了解哪些選項(xiàng)是最安全,最有效且最不可能失敗的方法,找出實(shí)現(xiàn)目標(biāo)的最佳方法。
恩格洛特說:“如果機(jī)器人完成任務(wù)的最快方法是走在懸崖的邊緣,那會(huì)犧牲速度的安全性。”恩格洛特將率先使用這種工具(分布式強(qiáng)化學(xué)習(xí))來訓(xùn)練機(jī)器人。“我們不希望機(jī)器人掉下懸崖,因此我們?yōu)樗麄兲峁┝祟A(yù)測(cè)和管理完成所需任務(wù)所涉及風(fēng)險(xiǎn)的工具。”
多年來,強(qiáng)化學(xué)習(xí)已被用來訓(xùn)練機(jī)器人在水,陸地和空中自主導(dǎo)航。但是該AI工具有局限性,因?yàn)樗鼘?shí)際上是基于可能的每個(gè)動(dòng)作的單個(gè)預(yù)期結(jié)果來做出決策的,而實(shí)際上通常還會(huì)發(fā)生許多其他可能的結(jié)果。Englot正在使用分布式強(qiáng)化學(xué)習(xí),這是一種AI算法,機(jī)器人可以使用它來評(píng)估所有可能的結(jié)果,預(yù)測(cè)每個(gè)動(dòng)作成功的可能性并選擇最成功的權(quán)宜之計(jì),同時(shí)保持機(jī)器人的安全。
在將算法運(yùn)用于實(shí)際機(jī)器人之前,Englot的首要任務(wù)是完善算法。Englot和他的團(tuán)隊(duì)創(chuàng)建了許多決策環(huán)境來測(cè)試他們的算法。他們經(jīng)常求助于該領(lǐng)域最受歡迎的游戲場(chǎng)之一:Atari游戲。
例如,當(dāng)您玩吃豆人時(shí),您就是決定吃豆人行為方式的算法。您的目標(biāo)是獲取迷宮中的所有點(diǎn),如果可以的話,獲取一些水果。但是周圍有鬼魂可以殺死你。每秒鐘,您被迫做出決定。你直走,向左還是向右?哪條路徑可以使您獲得最多的點(diǎn)和點(diǎn),同時(shí)又使您遠(yuǎn)離幽靈?
Englot的AI算法使用分布強(qiáng)化學(xué)習(xí),將代替人類玩家,模擬一切可能的動(dòng)作來安全地瀏覽其景觀。
那么,您如何獎(jiǎng)勵(lì)機(jī)器人呢?Englot和他的團(tuán)隊(duì)將為不同的結(jié)果分配分?jǐn)?shù),即,如果它掉下懸崖,機(jī)器人將獲得-100的分?jǐn)?shù)。如果采用較慢但安全的方法,則繞行的每一步可能會(huì)得到-1分。但是,如果成功達(dá)到目標(biāo),則可能會(huì)獲得+50。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。