通過預處理或后處理數(shù)據(jù) 人類可以介入以糾正機器學習模型

2022-07-18 23:10:40 編輯：吳蓮宇來源：

導讀人工智能(AI)的主要問題之一是人工部分。另一個是智能。雖然我們想假裝我們正在設置機器人智能，以擺脫人類的偏見和其他缺點，但實際上...

人工智能(AI)的主要問題之一是“人工”部分。另一個是“智能”。雖然我們想假裝我們正在設置機器人智能，以擺脫人類的偏見和其他缺點，但實際上，我們經(jīng)常將故障一次轉移到AI中，一次一個數(shù)據(jù)集。

數(shù)據(jù)科學家漢娜·戴維斯(Hannah Davis)指出了這一點，認為“數(shù)據(jù)集就是世界觀”，充滿了主觀含義。但是她并沒有留下AI希望垂死的希望，而是提供了一些方法來改善我們告知AI的數(shù)據(jù)。

人工智能一直都是關于人的

擺正我們有多“數(shù)據(jù)驅(qū)動”的姿勢已變得十分必要，而AI完全依賴于要使用的數(shù)據(jù)，這已成定局。例如，機器學習算法的奇跡之一就是它們能夠以多快的速度篩選大量數(shù)據(jù)以發(fā)現(xiàn)模式并做出相應的響應。但是，必須對此類模型進行培訓，這就是為什么數(shù)據(jù)科學家傾向于將其聚集在已建立的高質(zhì)量數(shù)據(jù)集周圍。

不幸的是，正如戴維斯指出的那樣，這些數(shù)據(jù)集不是中立的：

[A]數(shù)據(jù)集是世界觀。它涵蓋了收集和收集數(shù)據(jù)人員的世界觀，無論他們是研究人員，藝術家還是公司。它涵蓋了標簽商的世界觀，無論它們是手動，不知不覺地還是通過諸如Mechanical Turk之類的第三方服務對數(shù)據(jù)進行標簽，該服務都有其自身的人口統(tǒng)計學偏差。它涵蓋了組織者創(chuàng)建的固有分類法的世界觀，這些組織在許多情況下是其動機與高質(zhì)量生活直接不相容的公司。

看到問題了嗎?機器學習模型僅與提供它們的數(shù)據(jù)集一樣聰明，并且這些數(shù)據(jù)集受到塑造它們的人的限制。正如一位《衛(wèi)報》編輯感嘆的那樣，這可能會導致機器更快地犯下我們相同的錯誤：“人工智能的承諾是，它將使機器具有從數(shù)據(jù)中發(fā)現(xiàn)模式的能力，并能比人類更快更好地做出決策。。如果他們更快地做出更糟糕的決定會怎樣?”

進一步使事情復雜化的是，我們自己的錯誤和偏見又由機器學習模型決定。正如Manjunath Bhat所寫的那樣：“人們以數(shù)據(jù)的形式消費事實。但是，可以對數(shù)據(jù)進行突變，轉換和更改，而這一切都是為了使其易于使用。我們別無選擇，只能生活在高度情境化的世界觀的范圍內(nèi)。”換句話說，我們沒有清楚地看到數(shù)據(jù)。我們的偏見塑造了我們輸入到機器學習模型中的模型，這些模型又反過來塑造了可供我們使用和解釋的數(shù)據(jù)。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！