2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
麻省理工學(xué)院和微軟研究人員開發(fā)的一種新型模型確定了自主系統(tǒng)從訓(xùn)練樣本中“學(xué)習(xí)”的實(shí)例,這些實(shí)例與現(xiàn)實(shí)世界中實(shí)際發(fā)生的事實(shí)不符。工程師可以使用該模型來(lái)提高人工智能系統(tǒng)的安全性,例如無(wú)人駕駛車輛和自動(dòng)機(jī)器人。
例如,為無(wú)人駕駛汽車提供動(dòng)力的AI系統(tǒng)在虛擬模擬中被廣泛訓(xùn)練,以便為幾乎所有在路上的事件準(zhǔn)備車輛。但有時(shí)汽車會(huì)在現(xiàn)實(shí)世界中出現(xiàn)意外錯(cuò)誤,因?yàn)槭录l(fā)生應(yīng)該但不會(huì)改變汽車的行為。
考慮一輛未經(jīng)過(guò)培訓(xùn)的無(wú)人駕駛汽車,更重要的是沒(méi)有必要的傳感器,以區(qū)分截然不同的場(chǎng)景,例如大型白色轎車和道路上帶有紅色閃光燈的救護(hù)車。如果汽車在高速公路上行駛,救護(hù)車在警報(bào)器上輕彈,那么汽車可能不會(huì)知道減速和停車,因?yàn)樗⒉徽J(rèn)為救護(hù)車與大型白色轎車不同。
在去年的Autonomous Agents和Multiagent Systems會(huì)議以及即將召開的人工智能促進(jìn)會(huì)議上發(fā)表的一篇論文中,研究人員描述了一個(gè)利用人類輸入來(lái)揭示這些訓(xùn)練“盲點(diǎn)”的模型。
與傳統(tǒng)方法一樣,研究人員通過(guò)模擬訓(xùn)練設(shè)置了AI系統(tǒng)。但是,當(dāng)人們?cè)诂F(xiàn)實(shí)世界中行動(dòng)時(shí),人類密切監(jiān)視系統(tǒng)的行為,在系統(tǒng)制造或即將發(fā)生任何錯(cuò)誤時(shí)提供反饋。然后,研究人員將訓(xùn)練數(shù)據(jù)與人體反饋數(shù)據(jù)相結(jié)合,并使用機(jī)器學(xué)習(xí)技術(shù)生成一個(gè)模型,該模型可以精確定位系統(tǒng)最有可能需要更多關(guān)于如何正確行動(dòng)的信息。
研究人員使用視頻游戲驗(yàn)證了他們的方法,模擬人員校正了屏幕角色的學(xué)習(xí)路徑。但下一步是將該模型與傳統(tǒng)的自動(dòng)駕駛汽車和機(jī)器人培訓(xùn)和測(cè)試方法相結(jié)合,并提供人工反饋。
“這個(gè)模型幫助自治系統(tǒng)更好地了解他們不知道的東西,”第一作者Ramya Ramakrishnan說(shuō),他是計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的研究生。“很多時(shí)候,當(dāng)部署這些系統(tǒng)時(shí),他們訓(xùn)練有素的模擬與現(xiàn)實(shí)環(huán)境不匹配[并且]他們可能會(huì)犯錯(cuò)誤,例如發(fā)生事故。我們的想法是利用人類以安全的方式彌合模擬與現(xiàn)實(shí)世界之間的差距,這樣我們就可以減少其中的一些錯(cuò)誤。“
這兩篇論文的共同作者是:Julie Shah,航空航天系副教授,CSAIL交互式機(jī)器人小組負(fù)責(zé)人; 來(lái)自微軟研究院的Ece Kamar,Debadeepta Dey和Eric Horvitz。Besmira Nushi是即將發(fā)表的論文的另一位合著者。
一些傳統(tǒng)的訓(xùn)練方法確實(shí)在實(shí)際測(cè)試運(yùn)行期間提供人工反饋,但僅用于更新系統(tǒng)的操作。這些方法不能識(shí)別盲點(diǎn),這對(duì)于在現(xiàn)實(shí)世界中更安全的執(zhí)行可能是有用的。
研究人員的方法首先通過(guò)模擬訓(xùn)練建立人工智能系統(tǒng),在那里它將產(chǎn)生一個(gè)“政策”,基本上將每種情況都映射到模擬中可以采取的最佳行動(dòng)。然后,系統(tǒng)將部署在現(xiàn)實(shí)世界中,人類在系統(tǒng)行為不可接受的區(qū)域提供錯(cuò)誤信號(hào)。
人類可以通過(guò)多種方式提供數(shù)據(jù),例如通過(guò)“示范”和“修正”。在示威中,人類在現(xiàn)實(shí)世界中行動(dòng),而系統(tǒng)則觀察并比較人類的行為與在那種情況下所做的事情。例如,對(duì)于無(wú)人駕駛汽車,如果計(jì)劃行為偏離人的行為,人類將手動(dòng)控制汽車,同時(shí)系統(tǒng)產(chǎn)生信號(hào)。與人類行為的匹配和不匹配提供了系統(tǒng)可能以可接受或不可接受的方式行動(dòng)的嘈雜指示。
或者,人類可以提供校正,人類監(jiān)視系統(tǒng)在現(xiàn)實(shí)世界中的行為。當(dāng)自動(dòng)駕駛汽車沿著其計(jì)劃的路線行駛時(shí),人可以坐在駕駛座上。如果汽車的行為是正確的,人類什么都不做。然而,如果汽車的動(dòng)作是不正確的,那么人可能會(huì)接收到車輪,該車輪發(fā)出一個(gè)信號(hào),表明系統(tǒng)在該特定情況下沒(méi)有采取不可接受的行為。
一旦編譯了來(lái)自人的反饋數(shù)據(jù),系統(tǒng)基本上具有情況列表,并且對(duì)于每種情況,多個(gè)標(biāo)簽說(shuō)明其行為是可接受的或不可接受的。單一情況可以接收許多不同的信號(hào),因?yàn)橄到y(tǒng)將許多情況視為相同。例如,自動(dòng)駕駛汽車可能會(huì)在大型汽車旁邊多次巡航而不會(huì)減速和拉動(dòng)。但是,在一個(gè)例子中,一輛救護(hù)車,與系統(tǒng)看起來(lái)完全相同,巡航。自動(dòng)駕駛汽車不會(huì)停車并接收反饋信號(hào),系統(tǒng)采取了不可接受的行動(dòng)。
“在這一點(diǎn)上,系統(tǒng)已經(jīng)被人類發(fā)出了多個(gè)相互矛盾的信號(hào):一些人旁邊有一輛大型汽車,而且一切都很好,還有一輛救護(hù)車在同一個(gè)位置,但那不是很好。系統(tǒng)稍微注意到它做錯(cuò)了什么,但它不知道為什么,“Ramakrishnan說(shuō)。“因?yàn)榇砣苏讷@得所有這些矛盾的信號(hào),下一步就是匯編信息,問(wèn)我'在這種情況下,我收到這些混合信號(hào)時(shí),我有多大可能犯錯(cuò)?'”
最終目標(biāo)是將這些模棱兩可的情況標(biāo)記為盲點(diǎn)。但這不僅僅是為每種情況簡(jiǎn)單地計(jì)算可接受和不可接受的行動(dòng)。例如,如果系統(tǒng)在救護(hù)車情況下執(zhí)行了9次中的9次正確動(dòng)作,那么簡(jiǎn)單的多數(shù)投票就會(huì)將這種情況標(biāo)記為安全。
“但由于不可接受的行為遠(yuǎn)比可接受的行動(dòng)少得多,該系統(tǒng)最終會(huì)學(xué)會(huì)將所有情況預(yù)測(cè)為安全,這可能非常危險(xiǎn),”Ramakrishnan說(shuō)。
為此,研究人員使用了Dawid-Skene算法,這是一種通常用于眾包處理標(biāo)簽噪聲的機(jī)器學(xué)習(xí)方法。該算法將一系列情況作為輸入,每個(gè)情況都有一組嘈雜的“可接受”和“不可接受”的標(biāo)簽。然后,它聚合所有數(shù)據(jù),并使用一些概率計(jì)算來(lái)識(shí)別預(yù)測(cè)盲點(diǎn)標(biāo)簽中的模式和預(yù)測(cè)安全情況的模式。使用該信息,它為每種情況輸出單個(gè)聚合的“安全”或“盲點(diǎn)”標(biāo)簽以及該標(biāo)簽中的置信水平。值得注意的是,該算法可以在例如90%的時(shí)間內(nèi)可接受地執(zhí)行的情況下學(xué)習(xí),這種情況仍然模糊不清以至于值得“盲點(diǎn)”。
最后,該算法產(chǎn)生一種“熱圖”,其中來(lái)自系統(tǒng)原始訓(xùn)練的每種情況被指定為從低到高的概率,成為系統(tǒng)的盲點(diǎn)。
“當(dāng)系統(tǒng)部署到現(xiàn)實(shí)世界中時(shí),它可以使用這種學(xué)習(xí)模型更謹(jǐn)慎,更智能地行動(dòng)。如果學(xué)習(xí)模型預(yù)測(cè)狀態(tài)是一個(gè)具有高概率的盲點(diǎn),系統(tǒng)可以向人類查詢可接受的動(dòng)作,從而允許更安全的執(zhí)行,“Ramakrishnan說(shuō)。
計(jì)算機(jī)與信息科學(xué)教授埃里克·伊頓(Eric Eaton)的研究重點(diǎn)是:“這項(xiàng)研究很好地發(fā)現(xiàn)了模擬器和現(xiàn)實(shí)世界之間何時(shí)存在不匹配,直接從專家對(duì)行為者行為的反饋中推動(dòng)發(fā)現(xiàn)。”在賓夕法尼亞大學(xué)的機(jī)器人學(xué)。他補(bǔ)充說(shuō),該研究“具有很好的潛力,可以讓機(jī)器人預(yù)測(cè)何時(shí)可能會(huì)在新的情況下采取不正確的行動(dòng),而不是專家(人)操作員。接下來(lái)的挑戰(zhàn)將是利用這些發(fā)現(xiàn)的盲點(diǎn)并利用它們來(lái)改善機(jī)器人的內(nèi)部表現(xiàn),以更好地匹配現(xiàn)實(shí)世界。“
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。