研究人員在擺脫數(shù)據(jù)方面取得了有限的成功

2022-08-25 04:11:20 編輯：仲俊瑤來(lái)源：

導(dǎo)讀人工智能系統(tǒng)有著奇怪的記憶。機(jī)器拼命地依賴(lài)于他們已經(jīng)訓(xùn)練過(guò)的數(shù)據(jù)，因此難以刪除它的部分內(nèi)容。實(shí)際上，它們通常必須使用較新的較小數(shù)據(jù)...

人工智能系統(tǒng)有著奇怪的記憶。機(jī)器拼命地依賴(lài)于他們已經(jīng)訓(xùn)練過(guò)的數(shù)據(jù)，因此難以刪除它的部分內(nèi)容。實(shí)際上，它們通常必須使用較新的較小數(shù)據(jù)集從頭開(kāi)始重新訓(xùn)練。

在個(gè)人可以根據(jù)歐洲的GDPR規(guī)則等隱私措施要求將其個(gè)人數(shù)據(jù)從公司數(shù)據(jù)庫(kù)中刪除的時(shí)代，這并不好。如何從已經(jīng)過(guò)培訓(xùn)的機(jī)器學(xué)習(xí)中刪除一個(gè)人的敏感信息?一個(gè)2017年的研究論文通過(guò)法律和政策的學(xué)者暗示，甚至是不可能的。

“刪除很困難，因?yàn)榇蠖鄶?shù)機(jī)器學(xué)習(xí)模型都是復(fù)雜的黑盒子，因此不清楚數(shù)據(jù)點(diǎn)或數(shù)據(jù)點(diǎn)是如何被真正使用的，”斯坦福大學(xué)生物醫(yī)學(xué)數(shù)據(jù)科學(xué)助理教授James Zou告訴The。注冊(cè)。

為了省略特定數(shù)據(jù)，通常必須使用較新的較小數(shù)據(jù)集重新訓(xùn)練模型。這是一個(gè)痛苦，因?yàn)樗ㄙM(fèi)金錢(qián)和時(shí)間。

由斯坦福大學(xué)博士生Antonio Ginart領(lǐng)導(dǎo)的這項(xiàng)研究研究了試圖刪除機(jī)器學(xué)習(xí)模型中數(shù)據(jù)的問(wèn)題，并設(shè)法制作了兩個(gè)“可證明刪除有效的算法”來(lái)刪除六個(gè)不同數(shù)據(jù)集中的數(shù)據(jù)，用于k均值聚類(lèi)模型，一種開(kāi)發(fā)分類(lèi)器的機(jī)器學(xué)習(xí)方法。結(jié)果已經(jīng)公布，本周在一份文件中的arXiv。

訣竅是評(píng)估從訓(xùn)練模型中刪除數(shù)據(jù)的影響。在某些情況下，它可能會(huì)導(dǎo)致系統(tǒng)性能下降。

“首先，快速檢查刪除數(shù)據(jù)點(diǎn)是否會(huì)對(duì)機(jī)器學(xué)習(xí)模型產(chǎn)生任何影響 - 有些設(shè)置沒(méi)有效果，因此我們可以非常有效地執(zhí)行此檢查。其次，看看要?jiǎng)h除的數(shù)據(jù)是否只影響學(xué)習(xí)系統(tǒng)的某些本地組件，只是在本地更新，“鄒解釋說(shuō)。

在某些情況下，當(dāng)數(shù)據(jù)可以更容易分離時(shí)，它似乎對(duì)于k-means聚類(lèi)模型是可行的。但是，對(duì)于像現(xiàn)代深度學(xué)習(xí)模型那樣不具有確定性的系統(tǒng)，刪除數(shù)據(jù)非常困難。

鄒說(shuō)，這并非完全不可能。“我們還沒(méi)有工具，但我們希望在未來(lái)幾個(gè)月內(nèi)開(kāi)發(fā)這些刪除工具。”

標(biāo)簽：

免責(zé)聲明：本文由用戶(hù)上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！