DeepMind研究人員開發(fā)神經算術邏輯單元

2019-06-12 17:00:27 編輯：來源：

導讀在許多物種中可以觀察到表示和操縱數量的能力，包括昆蟲，哺乳動物和人類。這表明基本的定量推理是智力的重要組成部分，具有幾個進化優(yōu)勢。

在許多物種中可以觀察到表示和操縱數量的能力，包括昆蟲，哺乳動物和人類。這表明基本的定量推理是智力的重要組成部分，具有幾個進化優(yōu)勢。

此功能在機器中非常有價值，可以更快，更有效地完成涉及數字操作的任務。然而，到目前為止，經過訓練來表示和操縱數字信息的神經網絡很少能夠在訓練過程中遇到的值范圍之外得到很好的推廣。

Google DeepMind的一組研究人員最近開發(fā)了一種新的架構來解決這一局限，在神經網絡訓練的數值范圍內外實現更好的泛化。他們的研究預先發(fā)布在arXiv上，可以為開發(fā)更先進的機器學習工具提供信息，以完成定量推理任務。

“當標準的神經架構被訓練成數字時，它們往往難以計入更高的數量，”該項目首席研究員Andrew Trask告訴Tech Xplore。“我們探索了這個局限，并發(fā)現它也擴展到其他算術函數，導致我們的假設，即神經網絡學習類似于他們如何學習單詞的數字，作為一個有限的詞匯。這可以防止他們正確地推斷需要以前看不見的函數(更高)我們的目標是提出一種可以進行更好推斷的新架構。“

研究人員設計了一種架構，通過將數值表示為使用原始算術運算符(由學習門控制)操縱的線性激活，鼓勵更系統(tǒng)的數字推斷。他們稱這個新模塊為神經算術邏輯單元(NALU)，其靈感來自傳統(tǒng)處理器中的算術邏輯單元。

“數字通常使用單熱或分布式表示在神經網絡中編碼，而數字上的函數是在一系列具有非線性激活的層中學習的，”特拉斯克解釋說。“我們建議數字應該存儲為標量，在每個神經元中存儲一個數字。例如，如果你想存儲數字42，你應該只有一個包含'42'的激活的神經元，而不是一系列0-1神經元編碼它。“

研究人員還改變了神經網絡在這些數字上學習函數的方式。他們沒有使用可以學習任何功能的標準體系結構，而是設計了一種體系結構，該體系結構向前傳播預定義的一組函數，這些函數被視為可能有用(例如，加法，乘法或除法)，使用神經架構來學習這些注意機制。功能。

“這些關注機制隨后決定何時何地應用每種可能有用的功能而不是學習該功能本身，”特拉斯克說。“這是創(chuàng)建具有理想的數學函數學習偏差的深度神經網絡的一般原則。”

他們的測試表明，NALU增強神經網絡可以學習執(zhí)行各種任務，例如時間跟蹤，對數字圖像執(zhí)行算術功能，將數字語言翻譯成實值標量，執(zhí)行計算機代碼和計算圖像中的對象。

與傳統(tǒng)架構相比，它們的模塊在訓練期間呈現的數值范圍內外都獲得了明顯更好的泛化。雖然NALU可能不是每項任務的理想解決方案，但他們的研究提供了一種通用設計策略，用于創(chuàng)建在特定功能類別上表現良好的模型。

“一個概念深層神經網絡應該從一組預定義的功能選擇和學會理事在使用它們的注意力機制是一個非?？蓴U展的想法，”特拉斯克解釋。“在這項工作中，我們探索了簡單的算術函數(加法，減法，乘法和除法)，但是我們對將來在更強大的函數上學習注意機制的潛力感到興奮，也許會帶來我們觀察到的相同的外推結果。各種各樣的領域。“

標簽： DeepMind