您的位置: 首頁 >科技 >

研究人員針對協(xié)作眾包平臺openml.org的用戶測試了該系統(tǒng)

2019-06-21 16:56:26 編輯: 來源:
導(dǎo)讀 數(shù)據(jù)科學(xué)近期的巨大增長 - 無論是作為學(xué)科還是應(yīng)用程序 - 都可以部分歸功于其強(qiáng)大的解決問題能力:它可以預(yù)測信用卡交易何時是欺詐性的

數(shù)據(jù)科學(xué)近期的巨大增長 - 無論是作為學(xué)科還是應(yīng)用程序 - 都可以部分歸功于其強(qiáng)大的解決問題能力:它可以預(yù)測信用卡交易何時是欺詐性的,幫助企業(yè)主找出何時發(fā)送優(yōu)惠券通過預(yù)測學(xué)生何時輟學(xué),以最大化客戶響應(yīng)或促進(jìn)教育干預(yù)。

然而,要獲得這些數(shù)據(jù)驅(qū)動的解決方案,數(shù)據(jù)科學(xué)家必須通過一系列復(fù)雜的步驟來處理原始數(shù)據(jù),每個步驟都需要許多人為驅(qū)動的決策。決定建模技術(shù)的過程的最后一步尤其重要。有數(shù)百種技術(shù)可供選擇 - 從神經(jīng)網(wǎng)絡(luò)到支持向量機(jī) - 并且選擇最好的技術(shù)可能意味著數(shù)百萬美元的額外收入,或者發(fā)現(xiàn)關(guān)鍵醫(yī)療設(shè)備中的缺陷與缺失它之間的差異。

上周在IEEE國際大數(shù)據(jù)大會上發(fā)表的一篇名為“ATM:一種用于自動機(jī)器學(xué)習(xí)的分布式,協(xié)作,可擴(kuò)展系統(tǒng)”的論文中,來自麻省理工學(xué)院和密歇根州立大學(xué)的研究人員提出了一種自動選擇模型的新系統(tǒng)。一步,甚至改善人的表現(xiàn)。該系統(tǒng)稱為自動調(diào)諧模型(ATM),利用基于云的計算對建模選項執(zhí)行高吞吐量搜索,并針對特定問題找到最佳可能的建模技術(shù)。它還調(diào)整了模型的超參數(shù) - 一種優(yōu)化算法的方法 - 這可以對性能產(chǎn)生重大影響。ATM現(xiàn)在可用作企業(yè)作為開源平臺。

為了將ATM與人類表演者進(jìn)行比較,研究人員針對協(xié)作眾包平臺openml.org的用戶測試了該系統(tǒng)。在這個平臺上,數(shù)據(jù)科學(xué)家們共同努力解決問題,通過相互建立工作找到最佳解決方案。ATM從該平臺分析了47個數(shù)據(jù)集,并且能夠提供比人類在30%的時間內(nèi)提出的解決方案更好的解決方案。當(dāng)它無法超越人類時,它就會非常接近,而且至關(guān)重要的是,它的工作速度比人類快得多。雖然open-ml用戶平均需要100天才能提供接近最優(yōu)的解決方案,但ATM可以在不到一天的時間內(nèi)得到答案。

賦予數(shù)據(jù)科學(xué)家權(quán)力

這種速度和準(zhǔn)確性為數(shù)據(jù)科學(xué)家提供了急需的安心,他們經(jīng)常受到“假設(shè)”的困擾。“有很多選擇,”密歇根州立大學(xué)計算機(jī)科學(xué)與工程系教授,該論文的資深作者Arun Ross說。“如果數(shù)據(jù)科學(xué)家選擇支持向量機(jī)作為建模技術(shù),那么神經(jīng)網(wǎng)絡(luò)或不同模型是否會帶來更好的準(zhǔn)確性的問題總會在她腦海中浮現(xiàn)。”

在過去幾年中,模型選擇/調(diào)整的問題已成為機(jī)器學(xué)習(xí)的一個全新子領(lǐng)域的焦點,稱為Auto-ML。Auto-ML解決方案旨在為數(shù)據(jù)科學(xué)家提供針對給定機(jī)器學(xué)習(xí)任務(wù)的最佳模型。只有一個問題:競爭的Auto-ML方法產(chǎn)生不同的結(jié)果,并且它們的方法通常是不透明的。換句話說,在尋求解決一個選擇問題時,社區(qū)創(chuàng)造了另一個更復(fù)雜的問題。麻省理工學(xué)院信息與決策系統(tǒng)實驗室(LIDS)的主要研究科學(xué)家,該論文的高級作者Kalyan Veeramachaneni說:“'假設(shè)'問題仍然存在。” “它只是轉(zhuǎn)移到'如果我們使用不同的Auto-ML方法怎么辦?'”

ATM系統(tǒng)的工作方式不同,使用按需云計算在一夜之間生成并比較數(shù)百(甚至數(shù)千)個模型。為了搜索技術(shù),研究人員使用智能選擇機(jī)制。系統(tǒng)并行測試數(shù)千個模型,對每個模型進(jìn)行評估,并為那些有希望的技術(shù)分配更多的計算資源。糟糕的解決方案被淘汰,而最好的選擇上升到頂部。

ATM不是盲目地選擇“最佳”并將其提供給用戶,而是將結(jié)果顯示為分布,允許并排比較不同的方法。通過這種方式,羅斯說,ATM加速了測試和比較不同建模方法的過程,而沒有自動化人類直覺,這仍然是數(shù)據(jù)科學(xué)過程的重要組成部分。

開源,社區(qū)驅(qū)動的方法

通過簡化模型選擇流程,Veeramachaneni和他的團(tuán)隊旨在讓數(shù)據(jù)科學(xué)家能夠在更具影響力的部分工作。“我們希望我們的系統(tǒng)能夠讓專家們花更多的時間來理解數(shù)據(jù),問題的制定和特征工程,”Veeramachaneni說。

為此,研究人員正在開源ATM,使其可供想要使用它的企業(yè)使用。它們還包括一些條款,允許研究人員整合新的模型選擇技術(shù),從而不斷改進(jìn)平臺。ATM可以在單個機(jī)器,本地計算集群或云中的按需集群上運(yùn)行,并且可以同時處理多個數(shù)據(jù)集和多個用戶。

“中小型數(shù)據(jù)科學(xué)團(tuán)隊可以通過幾步建立和開始生產(chǎn)模型,”Veeramachaneni說。其中沒有一個是“假設(shè)”。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。