通常用于訓(xùn)練AI系統(tǒng)檢測(cè)表情的數(shù)據(jù)集偏向某些人口群體

2020-07-28 08:34:58 編輯：來(lái)源：國(guó)際品牌資訊

導(dǎo)讀研究人員聲稱(chēng)，通常用于訓(xùn)練AI系統(tǒng)以檢測(cè)幸福，憤怒和驚奇等表情的數(shù)據(jù)集偏向某些人口群體。在A(yíng)rxiv org上發(fā)表的預(yù)印本研究中，與劍橋大學(xué)

研究人員聲稱(chēng)，通常用于訓(xùn)練AI系統(tǒng)以檢測(cè)幸福，憤怒和驚奇等表情的數(shù)據(jù)集偏向某些人口群體。在A(yíng)rxiv.org上發(fā)表的預(yù)印本研究中，與劍橋大學(xué)和中東技術(shù)大學(xué)有關(guān)聯(lián)的合著者在兩個(gè)開(kāi)源語(yǔ)料庫(kù)中發(fā)現(xiàn)了偏斜的證據(jù)：真實(shí)世界的面部表情數(shù)據(jù)庫(kù)(RAF-DB)和CelebA。

機(jī)器學(xué)習(xí)算法之所以變得偏頗，部分原因在于它們提供了訓(xùn)練樣本，這些樣本優(yōu)化了針對(duì)多數(shù)人群的目標(biāo)。除非明確修改，否則它們?cè)谏贁?shù)群體(即以較少的樣本代表的人群)中表現(xiàn)較差。在面部表情分類(lèi)之類(lèi)的領(lǐng)域中，很難補(bǔ)償偏斜，因?yàn)橛?xùn)練集很少包含有關(guān)種族，性別和年齡等屬性的信息。但是，即使是那些做提供的屬性通常分布不均。

RAF-DB包含來(lái)自互聯(lián)網(wǎng)的數(shù)以萬(wàn)計(jì)的圖像，包括面部表情和屬性注釋?zhuān)鳦elebA擁有202,599張圖像，包含10,177人的4??0種屬性注釋。為了確定兩者之間存在偏差的程度，研究人員對(duì)隨機(jī)子集進(jìn)行了采樣，并對(duì)齊并裁剪了圖像，以使面部在方向上保持一致。然后，他們使用分類(lèi)器來(lái)衡量準(zhǔn)確性(模型得到的預(yù)測(cè)分?jǐn)?shù)的正確性)和公平性(分類(lèi)器是否對(duì)性別，年齡和種族等屬性公平)，即分類(lèi)器應(yīng)在整個(gè)過(guò)程中提供相似的結(jié)果不同的人口群體。

研究人員報(bào)告說(shuō)，在RAF-DB的圖像子集中，絕大多數(shù)受試者-77.4%-是白人，而15.5%是亞洲人，只有7.1%是非裔美國(guó)人。該子集也顯示出性別偏斜，女性為56.3%，男性為43.7%。準(zhǔn)確的范圍從少數(shù)族裔的低(亞裔女性為59.1%，非裔女性為61.6%)到多數(shù)(白種人為65.3%)不等，在公平性指標(biāo)上，研究人員發(fā)現(xiàn)其種族低(88.1%)，但總體性別比例較高(97.3%)。

在CelebA子集上，研究人員訓(xùn)練了一個(gè)更簡(jiǎn)單的分類(lèi)器，以區(qū)分兩類(lèi)人：微笑的人和不微笑的人。他們指出，該數(shù)據(jù)集存在較大的偏差，只有38.6%的不笑男只有61.4%的不笑男。研究人員稱(chēng)，分類(lèi)器對(duì)年輕女性的準(zhǔn)確率為93.7%，但對(duì)老年男性(90.7%)和女性(92.1%)的準(zhǔn)確性較低，盡管這在統(tǒng)計(jì)學(xué)上不顯著，但表明分布不均。

迄今為止，存在著各種各樣的面部表情識(shí)別任務(wù)數(shù)據(jù)集。然而，實(shí)際上，這些數(shù)據(jù)集都沒(méi)有考慮到包含在敏感屬性(例如性別，年齡和種族)方面在整個(gè)人群中均勻分布的圖像和視頻而獲得的，”合著者寫(xiě)道。

許多人認(rèn)為，面部表情數(shù)據(jù)集的明顯偏見(jiàn)凸顯了監(jiān)管的必要性。至少有一家專(zhuān)門(mén)從事情感識(shí)別的AI初創(chuàng)公司Emteq呼吁制定法律以防止濫用技術(shù)。心理科學(xué)協(xié)會(huì)(Association for Psychological Science)委托進(jìn)行的一項(xiàng)研究指出，由于情感是以多種方式表達(dá)的，因此很難從表情中推斷出人們的感受。紐約大學(xué)研究機(jī)構(gòu)AI Now Institute則在研究AI對(duì)社會(huì)的影響。該機(jī)構(gòu)在

標(biāo)簽： AI系統(tǒng)