2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
谷歌今天宣布在谷歌翻譯中發(fā)布了從英語到西班牙語、芬蘭語、匈牙利語和波斯語到英語的性別翻譯,該翻譯利用了一種新的范式,通過重寫或后期編輯最初的翻譯來解決性別偏見。這家科技巨頭聲稱,這種方法比之前支持谷歌Translate將性別特定性的土耳其語翻譯成英語的技術更具可擴展性,主要是因為它不依賴于數(shù)據密集型的性別中立檢測器。
谷歌Research的高級軟件工程師梅爾文·約翰遜寫道:“自從我們推出以來,我們已經取得了顯著的進步,我們提高了性別翻譯的質量,并將其擴大到4對以上的語言對。”“我們致力于進一步解決谷歌翻譯中的性別偏見,并計劃將這項工作擴展到文檔級翻譯。”
正如約翰遜所解釋的那樣,用于將突厥語翻譯成英語的性別分類器很難適應新語言,因此無法使用神經機器翻譯(NMT)系統(tǒng)獨立地生成男性化和女性化的翻譯。此外,在多達40%的符合條件的查詢中,它無法顯示針對性別的翻譯,因為除了與性別相關的現(xiàn)象外,這兩種翻譯通常并不完全相同。
相比之下,這種基于重寫的新方法首先生成翻譯,然后對其進行審查,以確定在哪些情況下,性別中立的源短語生成了性別特定的翻譯。如果是這樣的話,一個句子層次的改寫者會拋出一個替代的性別化翻譯,第一個和重寫的翻譯都會被審查,以確保性別是唯一的區(qū)別。
根據谷歌,構建改寫器涉及生成數(shù)百萬個由詞組對組成的訓練示例,每個詞組都包含陽性和陰性的翻譯。因為數(shù)據不容易獲得,谷歌翻譯團隊必須想出候選人重寫交換性別代詞從男性女性(或者相反),從一個大單語數(shù)據集。重寫這個語料庫,工程師運用內部語言模型訓練在數(shù)以百萬計的英語句子選擇最好的候選人,進了訓練數(shù)據,從一個女性男性化的輸入輸出,反之亦然。
在合并來自兩個方向的訓練數(shù)據之后,團隊使用它來訓練一個基于單層轉換的序列到序列模型。然后,他們在訓練數(shù)據中引入標點符號和大小寫變體,以增強模型的魯棒性,從而使最終的模型在99%的情況下都能可靠地生成所要求的陽性或陰性重寫。
谷歌度量稱為偏見減少評估,衡量之間的相對減少偏見新的翻譯系統(tǒng)和現(xiàn)有系統(tǒng)(“偏見”被定義為在性別選擇翻譯未指明的來源),約翰遜說,新方法導致偏見減少≥90%翻譯來自匈牙利、芬蘭,波斯英語?,F(xiàn)有的突厥語-英語翻譯系統(tǒng)的偏差減少率從60%提高到95%,該系統(tǒng)引發(fā)性別差異翻譯的平均準確率為97%。在,當它決定顯示性別特定的翻譯時,97%的正確率。
改進后的谷歌翻譯系統(tǒng)推出的幾個月前,谷歌通過其云視覺API取消了在圖像中將人標記為“男人”或“女人”的功能。另外,在2018年1月,谷歌屏蔽了Smart Compose(一項Gmail功能,當用戶鍵入句子時,它會自動為用戶推薦句子)和基于性別的代詞。
對語言翻譯和計算機視覺采取中性態(tài)度,是谷歌在減輕人工智能系統(tǒng)偏見方面所做的更大努力的一部分。這家山景城(Mountain View)的公司利用其人工智能道德團隊開發(fā)的測試來發(fā)現(xiàn)偏見,并禁止其預測技術中出現(xiàn)咒罵、種族歧視、提及商業(yè)競爭對手和悲劇事件等字眼。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。