您的位置: 首頁(yè) >科技 >

我們?nèi)绾谓虒?dǎo)人工智能系統(tǒng)按照人類目標(biāo)和價(jià)值觀行事

2022-09-09 17:04:41 編輯:詹杰固 來(lái)源:
導(dǎo)讀 人工智能安全的核心在于價(jià)值對(duì)齊問(wèn)題,許多研究人員使用逆強(qiáng)化學(xué)習(xí)(IRL)等技術(shù)與人工智能系統(tǒng)進(jìn)行交互,以教授人類價(jià)值觀。從理論上講,通...

人工智能安全的核心在于價(jià)值對(duì)齊問(wèn)題,許多研究人員使用逆強(qiáng)化學(xué)習(xí)(IRL)等技術(shù)與人工智能系統(tǒng)進(jìn)行交互,以教授人類價(jià)值觀。從理論上講,通過(guò)IRL,人工智能系統(tǒng)可以通過(guò)觀察人類行為和接收人類反饋來(lái)了解人類的價(jià)值以及如何最好地幫助他們。

但人類行為并不總是反映人類的價(jià)值觀,而人的反饋往往是有偏見(jiàn)的。我們說(shuō)當(dāng)我們放松時(shí)我們想要健康的食物,但是當(dāng)我們感到壓力時(shí)我們需要油膩的食物。我們不僅經(jīng)常無(wú)法按照我們的價(jià)值觀生活,而且我們的許多價(jià)值觀相互矛盾。例如,我們重視睡眠時(shí)間為8小時(shí),但我們經(jīng)常睡得少,因?yàn)槲覀円卜浅V匾暸ぷ鳎疹櫤⒆?,保持健康的人際關(guān)系。

AI系統(tǒng)可以通過(guò)觀察人類來(lái)學(xué)習(xí)很多東西,但由于我們的不一致,一些研究人員擔(dān)心使用IRL訓(xùn)練的系統(tǒng)將從根本上無(wú)法區(qū)分值對(duì)齊和未對(duì)齊的行為。隨著人工智能系統(tǒng)變得越來(lái)越強(qiáng)大,這可能變得特別危險(xiǎn):通過(guò)觀察人類來(lái)推斷錯(cuò)誤的價(jià)值觀或目標(biāo)可能導(dǎo)致這些系統(tǒng)采取有害行為。

區(qū)分偏見(jiàn)和價(jià)值觀

人類未來(lái)研究所的研究員Owain Evans和研究非盈利組織Ought的總裁AndreasStuhlmüller探討了IRL在人工智能系統(tǒng)教學(xué)中的局限性。特別是,他們的研究揭示了認(rèn)知偏差如何使AI難以通過(guò)互動(dòng)學(xué)習(xí)來(lái)學(xué)習(xí)人類偏好。

埃文斯詳細(xì)說(shuō)明:“我們希望代理人追求一些目標(biāo),我們希望這套目標(biāo)與人類目標(biāo)相吻合。那么問(wèn)題是,如果代理人只是觀察人類并試圖從他們的行為中找出目標(biāo),那么有多少偏見(jiàn)是一個(gè)問(wèn)題?“

在某些情況下,AIs將能夠理解常見(jiàn)偏差的模式。埃文斯和Stuhlmüller討論偏見(jiàn)的心理文學(xué)在他們的論文,學(xué)習(xí)無(wú)知,不一致代理的首選項(xiàng),并在他們的上網(wǎng)本,agentmodels.org。在agentmodels.org中討論的常見(jiàn)模式的一個(gè)例子是“時(shí)間不一致。”時(shí)間不一致是指人們的價(jià)值觀和目標(biāo)根據(jù)您提出要求而改變的想法。換句話說(shuō),“你更喜歡未來(lái)的自我與未來(lái)的自我喜歡的事情之間存在著不一致。”

時(shí)間不一致的例子無(wú)處不在。例如,如果你在睡覺(jué)前問(wèn)他們,大多數(shù)人都重視早起和鍛煉。但到了早上,當(dāng)天氣寒冷而且黑暗,他們沒(méi)有得到那8小時(shí)的睡眠時(shí),他們常常重視床單的舒適性和放松的美德。從早起,到避免酗酒,吃得健康,省錢,人們往往對(duì)未來(lái)的自我期望更多,而不是未來(lái)的自我愿意。

通過(guò)系統(tǒng)的,可預(yù)測(cè)的模式,如時(shí)間不一致,IRL可以在AI系統(tǒng)中取得進(jìn)展。但通常我們的偏見(jiàn)并不那么清楚。根據(jù)埃文斯的說(shuō)法,破譯哪些行為與某人的價(jià)值觀相吻合,以及哪些行為源于偏見(jiàn)是困難的,甚至是不可能的。

“假設(shè)你承諾打掃房子,但你得到最后一分鐘與朋友聚會(huì),你無(wú)法抗拒,”他建議道。“這是偏見(jiàn),還是你現(xiàn)在的生活價(jià)值?這是僅使用逆強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練AI的問(wèn)題 - 它將如何決定什么是偏差和價(jià)值?“

學(xué)習(xí)“正確”的價(jià)值觀

盡管存在這個(gè)難題,但理解人類價(jià)值觀和偏好對(duì)于人工智能系統(tǒng)至關(guān)重要,開(kāi)發(fā)人員對(duì)培訓(xùn)他們的機(jī)器以了解這些偏好非常有實(shí)際意義。

今天,流行的網(wǎng)站已經(jīng)使用人工智能來(lái)學(xué)習(xí)人類的偏好。例如,通過(guò)YouTube和亞馬遜,機(jī)器學(xué)習(xí)算法會(huì)觀察您的行為并預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。但是,雖然這些建議通常很有用,但卻會(huì)產(chǎn)生意想不到的后果。

以北卡羅來(lái)納大學(xué)信息與圖書(shū)館學(xué)院副教授Zeynep Tufekci為例。在觀看了集會(huì)的視頻以了解更多關(guān)于他的選民的吸引力之后,Tufekci開(kāi)始在她的“自動(dòng)播放”隊(duì)列中看到民族主義宣傳和大屠殺否認(rèn)視頻。她很快意識(shí)到Y(jié)ouTube的算法經(jīng)過(guò)優(yōu)化以保持用戶的參與度,可以預(yù)見(jiàn)的是,當(dāng)用戶觀看更多視頻時(shí),會(huì)有更多極端內(nèi)容。這導(dǎo)致她稱之為“偉大的激進(jìn)者”。

YouTube算法中的這種價(jià)值錯(cuò)位預(yù)示著使用更先進(jìn)的AI系統(tǒng)進(jìn)行交互式學(xué)習(xí)的危險(xiǎn)。設(shè)計(jì)師必須能夠優(yōu)化它們以理解我們更深層次的價(jià)值觀并改善我們的生活,而不是優(yōu)化先進(jìn)的人工智能系統(tǒng)以吸引我們的短期愿望和我們對(duì)極端的吸引力。

埃文斯建議我們希望人工智能系統(tǒng)可以比人類更好地推理我們的決策,了解我們何時(shí)做出有偏見(jiàn)的決策,并“幫助我們更好地追求我們的長(zhǎng)期偏好。”然而,這將需要AI提出的建議第一次臉紅對(duì)人類來(lái)說(shuō)似乎很糟糕。

人們可以想象一個(gè)人工智能系統(tǒng)對(duì)商業(yè)計(jì)劃提出了明智的,違反直覺(jué)的修改,而人類只是覺(jué)得它很荒謬?;蛘咭苍S人工智能建議稍微長(zhǎng)一點(diǎn),無(wú)壓力的駕駛路線到第一次約會(huì),但焦慮的駕駛員無(wú)論如何都采取更快的路線,不相信。

為了幫助人們?cè)谶@些場(chǎng)景中理解AI,Evans和Stuhlmüller研究了AI系統(tǒng)如何以人類可理解的方式進(jìn)行推理,并最終可以改進(jìn)人類推理。

一種方法(由Paul Christiano發(fā)明)被稱為“放大”,人類使用AI來(lái)幫助他們更深入地思考決策。埃文斯解釋說(shuō):“你想要一個(gè)與我們完全一樣的思維系統(tǒng),但它能夠更快,更高效,更可靠地完成。但它應(yīng)該是一種思維,如果你把它分解成小步驟,人類就能理解并遵循。“

第二個(gè)概念被稱為“因素認(rèn)知” - 將復(fù)雜任務(wù)分解為小的,可理解的步驟的想法。根據(jù)埃文斯的說(shuō)法,目前尚不清楚一般因素的認(rèn)知能否成功。有時(shí)人類可以將他們的推理分解為小步驟,但通常我們依賴直覺(jué),這更難分解。

指定問(wèn)題

Evans和Stuhlmüller已經(jīng)開(kāi)始了一項(xiàng)關(guān)于擴(kuò)增和因子認(rèn)知的研究項(xiàng)目,但他們還沒(méi)有解決交互式學(xué)習(xí)中人類偏見(jiàn)的問(wèn)題 - 相反,他們已經(jīng)著手為其他研究人員精確地解決這些復(fù)雜問(wèn)題。

“這更像是以比以前人們更精確的方式展示這個(gè)問(wèn)題,”埃文斯說(shuō)。“我們最終獲得了有趣的結(jié)果,但從某種意義上說(shuō),我們的結(jié)果之一就是意識(shí)到這很困難,并且理解為什么這很困難。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。