谷歌首次在谷歌翻譯解決性別偏見的人工智能

2022-09-01 16:40:31 編輯：嵇韻厚來源：

導讀谷歌今天宣布在谷歌翻譯中發(fā)布了從英語到西班牙語、芬蘭語、匈牙利語和波斯語到英語的性別翻譯，該翻譯利用了一種新的范式，通過重寫或后期...

谷歌今天宣布在谷歌翻譯中發(fā)布了從英語到西班牙語、芬蘭語、匈牙利語和波斯語到英語的性別翻譯，該翻譯利用了一種新的范式，通過重寫或后期編輯最初的翻譯來解決性別偏見。這家科技巨頭聲稱，這種方法比之前支持谷歌Translate將性別特定性的土耳其語翻譯成英語的技術更具可擴展性，主要是因為它不依賴于數(shù)據(jù)密集型的性別中立檢測器。

谷歌Research的高級軟件工程師梅爾文·約翰遜寫道:“自從我們推出以來，我們已經(jīng)取得了顯著的進步，我們提高了性別翻譯的質(zhì)量，并將其擴大到4對以上的語言對。”“我們致力于進一步解決谷歌翻譯中的性別偏見，并計劃將這項工作擴展到文檔級翻譯。”

正如約翰遜所解釋的那樣，用于將突厥語翻譯成英語的性別分類器很難適應新語言，因此無法使用神經(jīng)機器翻譯(NMT)系統(tǒng)獨立地生成男性化和女性化的翻譯。此外，在多達40%的符合條件的查詢中，它無法顯示針對性別的翻譯，因為除了與性別相關的現(xiàn)象外，這兩種翻譯通常并不完全相同。

相比之下，這種基于重寫的新方法首先生成翻譯，然后對其進行審查，以確定在哪些情況下，性別中立的源短語生成了性別特定的翻譯。如果是這樣的話，一個句子層次的改寫者會拋出一個替代的性別化翻譯，第一個和重寫的翻譯都會被審查，以確保性別是唯一的區(qū)別。

根據(jù)谷歌，構建改寫器涉及生成數(shù)百萬個由詞組對組成的訓練示例，每個詞組都包含陽性和陰性的翻譯。因為數(shù)據(jù)不容易獲得,谷歌翻譯團隊必須想出候選人重寫交換性別代詞從男性女性(或者相反),從一個大單語數(shù)據(jù)集。重寫這個語料庫,工程師運用內(nèi)部語言模型訓練在數(shù)以百萬計的英語句子選擇最好的候選人,進了訓練數(shù)據(jù),從一個女性男性化的輸入輸出,反之亦然。

在合并來自兩個方向的訓練數(shù)據(jù)之后，團隊使用它來訓練一個基于單層轉換的序列到序列模型。然后，他們在訓練數(shù)據(jù)中引入標點符號和大小寫變體，以增強模型的魯棒性，從而使最終的模型在99%的情況下都能可靠地生成所要求的陽性或陰性重寫。

谷歌度量稱為偏見減少評估,衡量之間的相對減少偏見新的翻譯系統(tǒng)和現(xiàn)有系統(tǒng)(“偏見”被定義為在性別選擇翻譯未指明的來源),約翰遜說,新方法導致偏見減少≥90%翻譯來自匈牙利、芬蘭,波斯英語?，F(xiàn)有的突厥語-英語翻譯系統(tǒng)的偏差減少率從60%提高到95%，該系統(tǒng)引發(fā)性別差異翻譯的平均準確率為97%。在，當它決定顯示性別特定的翻譯時，97%的正確率。

改進后的谷歌翻譯系統(tǒng)推出的幾個月前，谷歌通過其云視覺API取消了在圖像中將人標記為“男人”或“女人”的功能。另外，在2018年1月，谷歌屏蔽了Smart Compose(一項Gmail功能，當用戶鍵入句子時，它會自動為用戶推薦句子)和基于性別的代詞。

對語言翻譯和計算機視覺采取中性態(tài)度，是谷歌在減輕人工智能系統(tǒng)偏見方面所做的更大努力的一部分。這家山景城(Mountain View)的公司利用其人工智能道德團隊開發(fā)的測試來發(fā)現(xiàn)偏見，并禁止其預測技術中出現(xiàn)咒罵、種族歧視、提及商業(yè)競爭對手和悲劇事件等字眼。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！