Daniel Rubin博士將開發(fā)新的AI算法

2022-07-17 01:28:40 編輯：封發(fā)育來源：

導(dǎo)讀在SIIM20虛擬會議期間的一次網(wǎng)絡(luò)研討會上，斯坦福大學(xué)生物醫(yī)學(xué)數(shù)據(jù)科學(xué)教授兼生物醫(yī)學(xué)信息學(xué)總監(jiān)Daniel Rubin博士指出，開發(fā)健壯的AI...

在SIIM20虛擬會議期間的一次網(wǎng)絡(luò)研討會上，斯坦福大學(xué)生物醫(yī)學(xué)數(shù)據(jù)科學(xué)教授兼生物醫(yī)學(xué)信息學(xué)總監(jiān)Daniel Rubin博士指出，開發(fā)健壯的AI算法面臨挑戰(zhàn)。

魯賓解釋說，大多數(shù)AI模型僅由一兩個機構(gòu)的數(shù)據(jù)構(gòu)建而成，可能不會推廣到以前從未見過的數(shù)據(jù)。它可能無法區(qū)分患者人群的差異以及成像設(shè)備或參數(shù)的差異，并且罕見疾病可能不足。魯賓說：“這些數(shù)據(jù)可能無法代表現(xiàn)實世界。”

最近的一項研究對來自三個用于檢測的不同機構(gòu)的近16萬張胸部X射線進行了研究，發(fā)現(xiàn)結(jié)果基于用于訓(xùn)練和測試的數(shù)據(jù)集而有所不同。

“總的來說，可靠性是一個問題，取決于如何訓(xùn)練數(shù)據(jù)，”魯賓說。

解決該問題的一種方法是擴充數(shù)據(jù)，并在其他圖像上訓(xùn)練模型。

“最終，這還不夠，”魯賓說。“您確實需要獲取盡可能多的帶注釋的數(shù)據(jù)。而且，不可能獲得無數(shù)的質(zhì)量注釋數(shù)據(jù)，因為在完成本研究并試圖說服放射科醫(yī)生注釋病例后，將這些注釋完成是非常昂貴的。您知道他們免費為這些注釋做些什么。”

可以使用尚未注釋的圖像生成所謂的“弱數(shù)據(jù)”，并為其生成標(biāo)簽。魯賓引用了最近的一項研究，即針對200,000個帶有弱標(biāo)簽的案例的算法要比針對20,000個帶有高質(zhì)量標(biāo)簽的案例進行訓(xùn)練的算法更好。

魯賓說：“您擁有的數(shù)據(jù)越多，性能越好”。

最好從多個站點收集數(shù)據(jù)，但這具有挑戰(zhàn)性，涉及與存儲和合法性有關(guān)的問題。魯賓說，一種解決方案是聯(lián)合學(xué)習(xí)，即“將模型帶入數(shù)據(jù)，而不是將數(shù)據(jù)帶入模型”。但是，集中式數(shù)據(jù)通常更好，跨站點數(shù)據(jù)的異質(zhì)性會降低聯(lián)合學(xué)習(xí)，跨站點的標(biāo)簽存在差異，并且并非所有機構(gòu)都具有足夠的IT硬件。

哈佛大學(xué)醫(yī)學(xué)院放射學(xué)副教授，麻省總醫(yī)院神經(jīng)科學(xué)助理Jayashree Kalpathy-Cramer指出，在算法啟動和運行時進入障礙很低，尤其是在時代。盡管如今創(chuàng)建AI算法非常容易，但是創(chuàng)建寬泛，健壯，公正，公正，自我意識并提供不確定性度量的AI算法卻很困難。

Kalpathy-Cramer說：“大多數(shù)出版物對數(shù)據(jù)集的偏見都非常大，因為與正常病例或相比，它們對COVID病例使用了不同的數(shù)據(jù)集。”“我們最終看到的是，這些應(yīng)該以如此高的水平執(zhí)行的算法實際上只是在學(xué)習(xí)數(shù)據(jù)集之間的差異。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！