2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
自谷歌,斯坦福,加州大學(xué)伯克利分校和OpenAI的研究人員發(fā)表論文“人工智能安全中的具體問(wèn)題”以來(lái),已有將近兩年的時(shí)間了,但它仍然是人工智能安全最重要的部分之一。即使在兩年之后,它也代表了研究人員在開(kāi)發(fā)人工智能時(shí)面臨的一些問(wèn)題。在論文中,作者探討了事故問(wèn)題- 人工智能系統(tǒng)中的意外和有害行為,他們討論了不同的策略和正在進(jìn)行的研究工作,以防止這些潛在的問(wèn)題。具體而言,作者提出了解決問(wèn)題 - 避免負(fù)面影響,獎(jiǎng)勵(lì)黑客攻擊,可擴(kuò)展監(jiān)督,安全探索以及對(duì)分布式變更的穩(wěn)健性 - 這些都是以經(jīng)過(guò)培訓(xùn)的機(jī)器人清潔辦公室為例進(jìn)行說(shuō)明的。
我們?cè)谶@里重新審視這五個(gè)主題,從論文中總結(jié)它們,提醒我們這些問(wèn)題仍然是AI研究人員正在努力解決的主要問(wèn)題。
避免負(fù)面影響
在為AI系統(tǒng)設(shè)計(jì)目標(biāo)函數(shù)時(shí),設(shè)計(jì)人員會(huì)指定目標(biāo),但不會(huì)指定系統(tǒng)要遵循的確切步驟。這使得AI系統(tǒng)能夠提出新穎且更有效的策略來(lái)實(shí)現(xiàn)其目標(biāo)。
但如果目標(biāo)函數(shù)沒(méi)有明確定義,AI開(kāi)發(fā)自己的策略的能力可能會(huì)導(dǎo)致意想不到的有害副作用??紤]一個(gè)機(jī)器人,其目標(biāo)功能是將盒子從一個(gè)房間移動(dòng)到另一個(gè)房間。目標(biāo)似乎很簡(jiǎn)單,但有很多方法可能會(huì)出錯(cuò)。例如,如果一個(gè)花瓶在機(jī)器人的路徑中,機(jī)器人可能會(huì)將其擊倒以完成目標(biāo)。由于目標(biāo)函數(shù)沒(méi)有提到任何關(guān)于花瓶的東西,機(jī)器人不知道要避開(kāi)它。人們認(rèn)為這是常識(shí),但人工智能系統(tǒng)并不分享我們對(duì)世界的理解。將目標(biāo)表述為“完成任務(wù)X”是不夠的;設(shè)計(jì)者還需要指定完成任務(wù)的安全標(biāo)準(zhǔn)。
一個(gè)簡(jiǎn)單的解決方案就是每當(dāng)它對(duì)“環(huán)境”產(chǎn)生影響時(shí)對(duì)機(jī)器人進(jìn)行處罰 - 例如敲擊花瓶或刮擦木地板。但是,這種策略可以有效地抵消機(jī)器人,使其無(wú)用,因?yàn)樗胁僮鞫夹枰c環(huán)境進(jìn)行某種程度的交互(從而影響環(huán)境)。更好的策略可以是定義允許AI系統(tǒng)影響環(huán)境的“預(yù)算”。這將有助于在不中和AI系統(tǒng)的情況下最小化意外影響。此外,這種預(yù)算代理影響的策略非常通用,可以在多個(gè)任務(wù)中重復(fù)使用,從清潔,駕駛到金融交易,再到AI系統(tǒng)可能做的任何事情。
另一種方法是訓(xùn)練藥劑識(shí)別有害的副作用,以便它可以避免導(dǎo)致這種副作用的行為。在這種情況下,代理將被訓(xùn)練為兩個(gè)任務(wù):由目標(biāo)函數(shù)指定的原始任務(wù)和識(shí)別副作用的任務(wù)。這里的關(guān)鍵思想是,即使主要目標(biāo)不同,甚至在不同的環(huán)境中運(yùn)行,兩個(gè)任務(wù)也可能具有非常相似的副作用。例如,房屋清潔機(jī)器人和房屋涂裝機(jī)器人都不應(yīng)該在工作時(shí)撞倒花瓶。類似地,清潔機(jī)器人不應(yīng)損壞地板,無(wú)論其在工廠還是在房屋中操作。這種方法的主要優(yōu)點(diǎn)是,一旦代理人學(xué)會(huì)避免對(duì)一項(xiàng)任務(wù)的副作用,它就可以在對(duì)另一項(xiàng)任務(wù)進(jìn)行訓(xùn)練時(shí)傳授這些知識(shí)。
盡管設(shè)計(jì)限制副作用的方法很有用,但這些策略本身并不充分。在真實(shí)環(huán)境中部署之前,AI系統(tǒng)仍需要經(jīng)過(guò)大量測(cè)試和關(guān)鍵評(píng)估。
獎(jiǎng)勵(lì)黑客
有時(shí)人工智能會(huì)在系統(tǒng)設(shè)計(jì)中出現(xiàn)某種“黑客”或漏洞,以獲得無(wú)法獲得的獎(jiǎng)勵(lì)。由于AI經(jīng)過(guò)培訓(xùn)可以最大限度地提高其獎(jiǎng)勵(lì),因此尋找這樣的漏洞和“快捷方式”對(duì)于AI來(lái)說(shuō)是一個(gè)非常公平和有效的策略。例如,假設(shè)辦公室清潔機(jī)器人只有在辦公室看不到任何垃圾時(shí)才能獲得獎(jiǎng)勵(lì)。機(jī)器人可以簡(jiǎn)單地關(guān)閉其視覺(jué)傳感器,而不是清理場(chǎng)所,從而實(shí)現(xiàn)不看垃圾的目標(biāo)。但這顯然是一個(gè)錯(cuò)誤的成功。這種“游戲”系統(tǒng)的嘗試更有可能在具有模糊定義的獎(jiǎng)勵(lì)的復(fù)雜系統(tǒng)中體現(xiàn)出來(lái)。復(fù)雜系統(tǒng)為代理提供了多種與環(huán)境交互的方式,從而為代理提供了更多自由,
就像負(fù)面副作用問(wèn)題一樣,這個(gè)問(wèn)題也是客觀錯(cuò)誤指定的一種表現(xiàn)形式。人工智能的正式目標(biāo)或最終目標(biāo)的定義不足以捕捉創(chuàng)建系統(tǒng)背后的非正式“意圖” - 即設(shè)計(jì)者實(shí)際上希望系統(tǒng)做什么。在某些情況下,這種差異會(huì)導(dǎo)致不理想的結(jié)果(當(dāng)清潔機(jī)器人關(guān)閉其視覺(jué)傳感器時(shí));在其他情況下,它會(huì)導(dǎo)致有害的結(jié)果(當(dāng)清潔機(jī)器人擊倒花瓶時(shí))。
減輕此問(wèn)題的一種可能方法是擁有“獎(jiǎng)勵(lì)代理”,其唯一的任務(wù)是標(biāo)記給予學(xué)習(xí)代理的獎(jiǎng)勵(lì)是否有效。獎(jiǎng)勵(lì)代理確保學(xué)習(xí)代理(我們的示例中的清潔機(jī)器人)不利用系統(tǒng),而是完成所需的目標(biāo)。在前面的例子中,“獎(jiǎng)勵(lì)代理人”可以由人類設(shè)計(jì)師訓(xùn)練以檢查房間是否有垃圾(比清潔房間更容易)。如果清潔機(jī)器人關(guān)閉其視覺(jué)傳感器并聲稱獲得高回報(bào),則“獎(jiǎng)勵(lì)代理”將獎(jiǎng)勵(lì)標(biāo)記為無(wú)效。然后,設(shè)計(jì)者可以查看標(biāo)記為“無(wú)效”的獎(jiǎng)勵(lì),并對(duì)目標(biāo)函數(shù)進(jìn)行必要的更改以修復(fù)漏洞。
可擴(kuò)展的監(jiān)督
當(dāng)代理人學(xué)習(xí)執(zhí)行復(fù)雜任務(wù)時(shí),人工監(jiān)督和反饋比僅從環(huán)境中獲得獎(jiǎng)勵(lì)更有幫助。獎(jiǎng)勵(lì)通常被建模,以便它們傳達(dá)任務(wù)完成的程度,但它們通常不會(huì)提供關(guān)于代理人行為的安全影響的充分反饋。即使代理成功完成任務(wù),它也可能無(wú)法僅從獎(jiǎng)勵(lì)中推斷出其行為的副作用。在理想的環(huán)境中,每當(dāng)代理執(zhí)行操作時(shí),人員都會(huì)提供細(xì)粒度的監(jiān)督和反饋。雖然這將為代理人提供關(guān)于環(huán)境的更多信息,但這種策略需要人類花費(fèi)太多時(shí)間和精力。
解決這個(gè)問(wèn)題的一個(gè)有希望的研究方向是半監(jiān)督學(xué)習(xí),其中代理仍然在所有動(dòng)作(或任務(wù))上進(jìn)行評(píng)估,但僅針對(duì)那些動(dòng)作(或任務(wù))的一小部分樣本獲得獎(jiǎng)勵(lì)。例如,清潔機(jī)器人將采取不同的行動(dòng)來(lái)清潔房間。如果機(jī)器人執(zhí)行有害行為 - 例如損壞地板 - 它會(huì)對(duì)該特定動(dòng)作產(chǎn)生負(fù)面回報(bào)。任務(wù)完成后,機(jī)器人將對(duì)其所有操作的整體效果進(jìn)行評(píng)估(并且不會(huì)針對(duì)每個(gè)操作單獨(dú)評(píng)估,例如從樓層拾取物品),并根據(jù)整體性能給予獎(jiǎng)勵(lì)。
另一個(gè)有前景的研究方向是分層強(qiáng)化學(xué)習(xí)在不同的學(xué)習(xí)代理之間建立層次結(jié)構(gòu)。該想法可以以下列方式應(yīng)用于清潔機(jī)器人。將有一個(gè)主管機(jī)器人,其任務(wù)是將一些工作(例如,清潔一個(gè)特定房間的任務(wù))分配給清潔機(jī)器人并向其提供反饋和獎(jiǎng)勵(lì)。主管機(jī)器人本身只需要很少的動(dòng)作 - 為清潔機(jī)器人分配一個(gè)房間,檢查房間是否干凈并提供反饋 - 并且不需要大量的獎(jiǎng)勵(lì)數(shù)據(jù)來(lái)進(jìn)行有效的訓(xùn)練。清潔機(jī)器人執(zhí)行更復(fù)雜的清潔房間任務(wù),并從主管機(jī)器人獲得頻繁的反饋。同一個(gè)主管機(jī)器人也可能忽略了多個(gè)清潔劑的培訓(xùn)。例如,主管機(jī)器人可以將任務(wù)委派給各個(gè)清潔機(jī)器人,并直接向他們提供獎(jiǎng)勵(lì)/反饋。主管機(jī)器人本身只能采取少量抽象行為,因此可以從稀疏的獎(jiǎng)勵(lì)中學(xué)習(xí)。
安全探索
培訓(xùn)AI代理的一個(gè)重要部分是確保它探索和理解其環(huán)境。雖然在短期內(nèi)探索環(huán)境似乎是一個(gè)糟糕的策略,但從長(zhǎng)遠(yuǎn)來(lái)看,這可能是一個(gè)非常有效的策略。想象一下,清潔機(jī)器人已經(jīng)學(xué)會(huì)識(shí)別垃圾。它撿起一塊垃圾,走出房間,把它扔到外面的垃圾桶里,回到房間里,尋找另一塊垃圾并重復(fù)。雖然這種策略有效,但可能有另一種策略可以更好地運(yùn)作。如果代理花時(shí)間探索其環(huán)境,可能會(huì)發(fā)現(xiàn)房間內(nèi)有一個(gè)較小的垃圾箱。而不是一次一件地來(lái)回,代理商可以先將所有垃圾收集到較小的垃圾箱中,然后單程將垃圾扔進(jìn)外面的垃圾箱。除非代理旨在探索其環(huán)境,否則它將無(wú)法發(fā)現(xiàn)這些節(jié)省時(shí)間的策略。
然而,在探索時(shí),代理人也可能采取一些可能損害自身或環(huán)境的行動(dòng)。例如,假設(shè)清潔機(jī)器人在地板上看到一些污漬。該代理決定嘗試一些新策略,而不是用拖把擦洗污漬。它試圖用鋼絲刷刮掉污漬并在此過(guò)程中損壞地板。列出所有可能的故障模式并對(duì)代理進(jìn)行硬編碼以保護(hù)自己免受攻擊是很困難的。但是,減少傷害的一種方法是在最壞的情況下優(yōu)化學(xué)習(xí)代理的性能。在設(shè)計(jì)目標(biāo)函數(shù)時(shí),設(shè)計(jì)者不應(yīng)假設(shè)代理將始終在最佳條件下運(yùn)行。可以添加一些明確的獎(jiǎng)勵(lì)信號(hào)以確保代理不執(zhí)行某些災(zāi)難性行為,
另一種解決方案可能是減少代理對(duì)模擬環(huán)境的探索或限制代理可以探索的程度。這是一種類似的預(yù)算代理影響的方法,以避免負(fù)面影響,但需要注意的是,現(xiàn)在我們要預(yù)算代理可以探索環(huán)境的程度?;蛘?,AI的設(shè)計(jì)者可以通過(guò)演示在不同場(chǎng)景下最佳行為的演示來(lái)避免探索的需要。
分配變化的穩(wěn)健性
在現(xiàn)實(shí)生活環(huán)境中部署AI代理的一個(gè)復(fù)雜挑戰(zhàn)是代理可能最終處于以前從未體驗(yàn)過(guò)的情況。這種情況本質(zhì)上更難以處理,并可能導(dǎo)致代理人采取有害行動(dòng)。請(qǐng)考慮以下情況:清潔機(jī)器人已經(jīng)過(guò)培訓(xùn),可以在處理所有先前的挑戰(zhàn)時(shí)清潔辦公空間。但今天,一名員工帶著一家小工廠留在辦公室。由于清潔機(jī)器人之前沒(méi)有看過(guò)任何植物,因此可能認(rèn)為該植物是垃圾并將其丟棄。因?yàn)锳I不承認(rèn)這是以前看不見(jiàn)的情況,所以它繼續(xù)表現(xiàn)為好像什么都沒(méi)有改變。一個(gè)有前景的研究方向側(cè)重于確定代理何時(shí)遇到新的方案,以便它認(rèn)識(shí)到它更有可能犯錯(cuò)誤。雖然這并沒(méi)有解決為不可預(yù)見(jiàn)的情況準(zhǔn)備AI系統(tǒng)的根本問(wèn)題,但它有助于在錯(cuò)誤發(fā)生之前檢測(cè)問(wèn)題。另一個(gè)研究方向強(qiáng)調(diào)將知識(shí)從熟悉的場(chǎng)景轉(zhuǎn)移到新場(chǎng)景中。
結(jié)論
簡(jiǎn)而言之,總體趨勢(shì)是增加人工智能系統(tǒng)的自主權(quán),隨著自主權(quán)的增加,錯(cuò)誤的可能性增加。與人工智能安全相關(guān)的問(wèn)題更可能體現(xiàn)在人工智能系統(tǒng)直接控制其物理和/或數(shù)字環(huán)境而無(wú)需人為循環(huán)的情況下 - 自動(dòng)化工業(yè)流程,自動(dòng)化金融交易算法,人工智能支持的社交媒體活動(dòng)政黨,自動(dòng)駕駛汽車(chē),清潔機(jī)器人等。挑戰(zhàn)可能是巨大的,但一線希望是人工智能安全中的具體問(wèn)題幫助AI社區(qū)了解這些挑戰(zhàn)并就核心問(wèn)題達(dá)成一致。從那里,研究人員可以開(kāi)始探索策略,以確保我們?nèi)找嫦冗M(jìn)的系統(tǒng)保持安全和有益。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。