2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在許多物種中可以觀察到表示和操縱數(shù)量的能力,包括昆蟲,哺乳動(dòng)物和人類。這表明基本的定量推理是智力的重要組成部分,具有幾個(gè)進(jìn)化優(yōu)勢(shì)。
此功能在機(jī)器中非常有價(jià)值,可以更快,更有效地完成涉及數(shù)字操作的任務(wù)。然而,到目前為止,經(jīng)過(guò)訓(xùn)練來(lái)表示和操縱數(shù)字信息的神經(jīng)網(wǎng)絡(luò)很少能夠在訓(xùn)練過(guò)程中遇到的值范圍之外得到很好的推廣。
Google DeepMind的一組研究人員最近開發(fā)了一種新的架構(gòu)來(lái)解決這一局限,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)值范圍內(nèi)外實(shí)現(xiàn)更好的泛化。他們的研究預(yù)先發(fā)布在arXiv上,可以為開發(fā)更先進(jìn)的機(jī)器學(xué)習(xí)工具提供信息,以完成定量推理任務(wù)。
“當(dāng)標(biāo)準(zhǔn)的神經(jīng)架構(gòu)被訓(xùn)練成數(shù)字時(shí),它們往往難以計(jì)入更高的數(shù)量,”該項(xiàng)目首席研究員Andrew Trask告訴Tech Xplore。“我們探索了這個(gè)局限,并發(fā)現(xiàn)它也擴(kuò)展到其他算術(shù)函數(shù),導(dǎo)致我們的假設(shè),即神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)類似于他們?nèi)绾螌W(xué)習(xí)單詞的數(shù)字,作為一個(gè)有限的詞匯。這可以防止他們正確地推斷需要以前看不見(jiàn)的函數(shù)(更高)我們的目標(biāo)是提出一種可以進(jìn)行更好推斷的新架構(gòu)。“
研究人員設(shè)計(jì)了一種架構(gòu),通過(guò)將數(shù)值表示為使用原始算術(shù)運(yùn)算符(由學(xué)習(xí)門控制)操縱的線性激活,鼓勵(lì)更系統(tǒng)的數(shù)字推斷。他們稱這個(gè)新模塊為神經(jīng)算術(shù)邏輯單元(NALU),其靈感來(lái)自傳統(tǒng)處理器中的算術(shù)邏輯單元。
“數(shù)字通常使用單熱或分布式表示在神經(jīng)網(wǎng)絡(luò)中編碼,而數(shù)字上的函數(shù)是在一系列具有非線性激活的層中學(xué)習(xí)的,”特拉斯克解釋說(shuō)。“我們建議數(shù)字應(yīng)該存儲(chǔ)為標(biāo)量,在每個(gè)神經(jīng)元中存儲(chǔ)一個(gè)數(shù)字。例如,如果你想存儲(chǔ)數(shù)字42,你應(yīng)該只有一個(gè)包含'42'的激活的神經(jīng)元,而不是一系列0-1神經(jīng)元編碼它。“
研究人員還改變了神經(jīng)網(wǎng)絡(luò)在這些數(shù)字上學(xué)習(xí)函數(shù)的方式。他們沒(méi)有使用可以學(xué)習(xí)任何功能的標(biāo)準(zhǔn)體系結(jié)構(gòu),而是設(shè)計(jì)了一種體系結(jié)構(gòu),該體系結(jié)構(gòu)向前傳播預(yù)定義的一組函數(shù),這些函數(shù)被視為可能有用(例如,加法,乘法或除法),使用神經(jīng)架構(gòu)來(lái)學(xué)習(xí)這些注意機(jī)制。功能。
“這些關(guān)注機(jī)制隨后決定何時(shí)何地應(yīng)用每種可能有用的功能而不是學(xué)習(xí)該功能本身,”特拉斯克說(shuō)。“這是創(chuàng)建具有理想的數(shù)學(xué)函數(shù)學(xué)習(xí)偏差的深度神經(jīng)網(wǎng)絡(luò)的一般原則。”
他們的測(cè)試表明,NALU增強(qiáng)神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)執(zhí)行各種任務(wù),例如時(shí)間跟蹤,對(duì)數(shù)字圖像執(zhí)行算術(shù)功能,將數(shù)字語(yǔ)言翻譯成實(shí)值標(biāo)量,執(zhí)行計(jì)算機(jī)代碼和計(jì)算圖像中的對(duì)象。
與傳統(tǒng)架構(gòu)相比,它們的模塊在訓(xùn)練期間呈現(xiàn)的數(shù)值范圍內(nèi)外都獲得了明顯更好的泛化。雖然NALU可能不是每項(xiàng)任務(wù)的理想解決方案,但他們的研究提供了一種通用設(shè)計(jì)策略,用于創(chuàng)建在特定功能類別上表現(xiàn)良好的模型。
“一個(gè)概念深層神經(jīng)網(wǎng)絡(luò)應(yīng)該從一組預(yù)定義的功能選擇和學(xué)會(huì)理事在使用它們的注意力機(jī)制是一個(gè)非??蓴U(kuò)展的想法,”特拉斯克解釋。“在這項(xiàng)工作中,我們探索了簡(jiǎn)單的算術(shù)函數(shù)(加法,減法,乘法和除法),但是我們對(duì)將來(lái)在更強(qiáng)大的函數(shù)上學(xué)習(xí)注意機(jī)制的潛力感到興奮,也許會(huì)帶來(lái)我們觀察到的相同的外推結(jié)果。各種各樣的領(lǐng)域。“
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。