第一個白盒測試模型在自動駕駛汽車中發(fā)現(xiàn)了數(shù)千個錯誤

2019-06-24 15:34:13 編輯：來源：

導讀如何在黑匣子中找到系統(tǒng)中的錯誤?這是完善深度學習系統(tǒng)(如自動駕駛汽車)背后的挑戰(zhàn)之一。深度學習系統(tǒng)基于以人腦為模型的人工神經(jīng)網(wǎng)絡，神

如何在黑匣子中找到系統(tǒng)中的錯誤?這是完善深度學習系統(tǒng)(如自動駕駛汽車)背后的挑戰(zhàn)之一。深度學習系統(tǒng)基于以人腦為模型的人工神經(jīng)網(wǎng)絡，神經(jīng)元像網(wǎng)狀物一樣連接在一起。這種類似網(wǎng)絡的神經(jīng)結(jié)構使機器能夠以非線性方法處理數(shù)據(jù) - 基本上是通過所謂的訓練數(shù)據(jù)來教導自己分析信息。

當輸入在被“訓練”之后呈現(xiàn)給系統(tǒng)時 - 就像呈現(xiàn)給自動駕駛汽車平臺的典型雙車道公路的圖像 - 系統(tǒng)通過其復雜邏輯系統(tǒng)運行分析來識別它。這個過程主要發(fā)生在一個黑盒子里，并沒有被包括系統(tǒng)創(chuàng)建者在內(nèi)的任何人完全理解。

任何錯誤也會出現(xiàn)在黑匣子中，因此難以識別并修復它們。這種不透明性對識別角落案例行為提出了特殊挑戰(zhàn)。拐角情況是在正常操作參數(shù)之外發(fā)生的事件。角落案例：自動駕駛汽車系統(tǒng)可能被編程為在大多數(shù)情況下識別雙車道高速公路中的曲線。但是，如果照明比正常情況更低或更亮，系統(tǒng)可能無法識別它并且可能發(fā)生錯誤。最近的一個例子是2016年特斯拉墜毀事故的部分原因......

Lehigh大學的Yinzhi Cao和哥倫比亞大學的Junfeng Yang和Suman Jana以及哥倫比亞大學的博士學位將光線投射到深度學習系統(tǒng)的黑匣子中。學生Kexin Pei已經(jīng)使用DeepXplore實現(xiàn)了這項系統(tǒng)的首次自動化白盒測試。在真實世界的數(shù)據(jù)集上評估DeepXplore，研究人員能夠揭示成千上萬個獨特的錯誤角落行為。他們將于10月29日在中國上海舉行的2017年兩年一次的ACM操作系統(tǒng)原理研討會(SOSP)會議上發(fā)表他們的研究成果：第一場：蟲狩獵。

“我們的DeepXplore工作提出了第一個稱為'神經(jīng)元覆蓋'的測試覆蓋率指標，以經(jīng)驗性地了解測試輸入集是否提供了對深度神經(jīng)網(wǎng)絡的決策邏輯和行為的良好覆蓋與良好覆蓋，”Cao，計算機科學助理教授說。和工程。

除了將神經(jīng)元覆蓋作為指標引入外，研究人員還演示了在更傳統(tǒng)的系統(tǒng)中檢測邏輯錯誤的技術 - 稱為差分測試 - 如何應用于深度學習系統(tǒng)。

“DeepXplore解決了另一個需要許多手動標記的測試輸入的困難挑戰(zhàn)。它通過交叉檢查多個DNN并巧妙地搜索導致深度神經(jīng)網(wǎng)絡不一致結(jié)果的輸入來實現(xiàn)，”計算機科學副教授楊說。“例如，考慮到自動駕駛汽車攝像頭拍攝的圖像，如果兩個網(wǎng)絡認為汽車應該向左轉(zhuǎn)，第三個認為汽車應該向右轉(zhuǎn)，那么角落情況可能在第三個深度神經(jīng)網(wǎng)絡中。不需要手動標記來檢測這種不一致。“

該團隊評估了DeepXplore的真實數(shù)據(jù)集，包括Udacity自駕車挑戰(zhàn)數(shù)據(jù)，ImageNet和MNIST的圖像數(shù)據(jù)，Drebin的Android惡意軟件數(shù)據(jù)，Contagio / VirusTotal的PDF惡意軟件數(shù)據(jù)，以及在這些數(shù)據(jù)集上培訓的生產(chǎn)質(zhì)量深度神經(jīng)網(wǎng)絡，如這些在Udacity自駕車挑戰(zhàn)中名列前茅。

他們的研究結(jié)果顯示，DeepXplore 在15個最先進的深度學習模型中發(fā)現(xiàn)了成千上萬個不正確的角落案例行為(例如，自動駕駛汽車撞到護欄)，共有132個，057個神經(jīng)元在五個流行的數(shù)據(jù)集上訓練大約162 GB的數(shù)據(jù)。

該團隊已將其開源軟件公開供其他研究人員使用，并推出了一個網(wǎng)站DeepXplore，讓人們上傳自己的數(shù)據(jù)，以了解測試過程的工作原理。

更神經(jīng)元的覆蓋范圍

根據(jù)會議后發(fā)表的論文(參見此處的初步版本)，DeepXplore旨在生成最大化深度學習(DL)系統(tǒng)神經(jīng)元覆蓋范圍的輸入。

作者寫道：“在高層次上，DL系統(tǒng)的神經(jīng)元覆蓋與傳統(tǒng)系統(tǒng)的代碼覆蓋類似，這是衡量傳統(tǒng)軟件中輸入所執(zhí)行代碼量的標準指標。但是，代碼覆蓋本身并不是估算DL系統(tǒng)覆蓋范圍的良好指標，因為與傳統(tǒng)軟件不同，DL系統(tǒng)中的大多數(shù)規(guī)則不是由程序員手動編寫，而是從訓練數(shù)據(jù)中學習。

“我們發(fā)現(xiàn)，對于我們測試的大多數(shù)深度學習系統(tǒng)，即使是一個隨機選擇的測試輸入也能夠?qū)崿F(xiàn)100%的代碼覆蓋率 - 但是，神經(jīng)元的覆蓋率不到10%，”計算機科學助理教授Jana補充說。。

DeepXplore生成的輸入平均比相同數(shù)量的隨機選擇的輸入和對抗輸入(攻擊者有意設計導致模型犯錯的機器學習模型的輸入)平均高出34.4%和33.2%的神經(jīng)元覆蓋率。

差分測試應用于深度學習

Cao和Yang展示了具有相似功能的多個深度學習系統(tǒng)(例如Google，Tesla和Uber的自動駕駛汽車)如何用作交叉引用的神諭，以識別錯誤的角落情況而無需人工檢查。例如，如果一輛自動駕駛汽車決定向左轉(zhuǎn)，而另一輛則為同一輸入向右轉(zhuǎn)，則其中一輛可能不正確。這種差分測試技術過去已成功應用于檢測邏輯錯誤，而無需各種傳統(tǒng)軟件中的手??動規(guī)范。

在他們的論文中，他們展示了如何將差異測試應用于深度學習系統(tǒng)。

最后，研究人員的新穎測試方法可用于重新訓練系統(tǒng)以提高分類準確性。在測試過程中，通過對DeepXplore生成的輸入重新訓練深度學習模型與在相同數(shù)量的隨機選擇或?qū)馆斎肷线M行重新訓練相比，他們實現(xiàn)了分類準確度提高了3%。

“DeepXplore能夠生成大量輸入，自動高效地導致深層神經(jīng)網(wǎng)絡錯誤分類，”Yang補充說。“這些輸入可以反饋到培訓過程中，以提高準確性。”

Cao補充說：“我們的最終目標是能夠測試一個系統(tǒng)，比如自動駕駛汽車，并告訴創(chuàng)作者它是否真正安全，在什么條件下。”

標簽：自動駕駛汽車