2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。
麻省理工學院的計算機科學家們希望通過自動完成通常手工完成的關鍵步驟來加速人工智能的使用,從而改善醫(yī)療決策,而且隨著某些數(shù)據(jù)集變得越來越大,這一過程變得越來越費力。
預測分析領域為幫助臨床醫(yī)生診斷和治療患者提供了越來越大的希望。機器學習模型可以通過培訓來發(fā)現(xiàn)患者數(shù)據(jù)中的模式,以幫助進行敗血癥護理,設計更安全的化療方案,并預測患者患乳腺癌或死于ICU的風險,僅舉幾例。
通常,訓練數(shù)據(jù)集由許多病態(tài)和健康的受試者組成,但每個受試者的數(shù)據(jù)相對較少。然后,專家必須在數(shù)據(jù)集中找到那些對預測很重要的方面 - 或“特征”。
這種“特征工程”可能是一項費力且昂貴的過程。但隨著可穿戴傳感器的興起,它變得更具挑戰(zhàn)性,因為研究人員可以更長時間地監(jiān)測患者的生物識別,跟蹤睡眠模式,步態(tài)和語音活動。經(jīng)過一周的監(jiān)測,專家可以為每個科目提供數(shù)十億個數(shù)據(jù)樣本。
在本周舉行的機器學習醫(yī)療保健會議上發(fā)表的一篇論文中,麻省理工學院的研究人員展示了一種自動學習預測聲帶疾病特征的模型。這些功能來自大約100個科目的數(shù)據(jù)集,每個科目都有大約一周的語音監(jiān)測數(shù)據(jù)和數(shù)十億個樣本 - 換句話說,每個科目都有少量科目和大量數(shù)據(jù)。數(shù)據(jù)集包含從安裝在受試者頸部的小型加速計傳感器捕獲的信號。
在實驗中,該模型使用從這些數(shù)據(jù)中自動提取的特征,以高精度對具有和不具有聲帶結節(jié)的患者進行分類。這些是在喉部發(fā)展的病變,通常是由于聲音濫用的模式,如傳出歌曲或大喊大叫。重要的是,該模型在沒有大量手工標記數(shù)據(jù)的情況下完成了這項任務。
“收集長時間序列數(shù)據(jù)集變得越來越容易。但你有醫(yī)生需要運用他們的知識來標記數(shù)據(jù)集,“主要作者Jose Javier Gonzalez Ortiz說,他是麻省理工學院計算機科學與人工智能實驗室(CSAIL)的博士生。“我們希望為專家刪除該手冊部分,并將所有特征工程卸載到機器學習模型中。”
該模型可以適應于學習任何疾病或病癥的模式。但研究人員說,檢測與聲帶結節(jié)相關的日常聲音使用模式的能力是開發(fā)預防,診斷和治療疾病的改進方法的重要一步。這可能包括設計新的方法來識別和警告人們可能具有破壞性的聲音行為。
多年來,麻省理工學院的研究人員與喉部手術和語音康復中心合作,開發(fā)和分析來自傳感器的數(shù)據(jù),以便在所有醒著的時間內跟蹤受試者的語音使用情況。傳感器是一個加速度計,其節(jié)點粘在頸部并連接到智能手機。當人們談話時,智能手機從加速度計中的位移收集數(shù)據(jù)。
在他們的工作中,研究人員收集了一周的數(shù)據(jù) - 稱為“時間序列”數(shù)據(jù) - 來自104名受試者,其中一半被診斷出患有聲帶結節(jié)。對于每個患者,還存在匹配對照,意味著具有相似年齡,性別,職業(yè)和其他因素的健康受試者。
傳統(tǒng)上,專家需要手動識別可能對模型有用的特征以檢測各種疾病或病癥。這有助于防止醫(yī)療保健中常見的機器學習問題:過度擬合。那時,在訓練中,模型“記憶”主題數(shù)據(jù)而不是僅僅學習臨床相關的特征。在測試中,這些模型經(jīng)常無法在以前看不見的主題中辨別出類似的模式。
“而不是學習具有臨床意義的特征,一個模型看到了模式,并說,'這是莎拉,我知道莎拉是健康的,這是彼得,他有一個聲帶結節(jié)。' 所以,它只是記住主題的模式。然后,當它看到安德魯?shù)臄?shù)據(jù)時,它有一個新的聲音使用模式,它無法弄清楚這些模式是否與分類匹配,“Gonzalez Ortiz說。
因此,主要的挑戰(zhàn)是在自動化手動特征工程的同時防止過度擬合。為此,研究人員強迫該模型學習沒有主題信息的特征。對于他們的任務,這意味著捕捉主體說話的所有時刻和他們的聲音的強度。
當他們的模型遍歷主題數(shù)據(jù)時,它被編程為定位發(fā)聲段,其僅包含大約10%的數(shù)據(jù)。對于這些發(fā)聲窗口中的每一個,該模型計算頻譜圖,頻譜圖是隨時間變化的頻譜的視覺表示,其通常用于語音處理任務。然后將譜圖存儲為數(shù)千個值的大矩陣。
但這些矩陣龐大且難以處理。因此,自動編碼器 - 一種優(yōu)化用于從大量數(shù)據(jù)生成有效數(shù)據(jù)編碼的神經(jīng)網(wǎng)絡 - 首先將頻譜圖壓縮為30個值的編碼。然后,它將該編碼解壓縮為單獨的頻譜圖。
基本上,模型必須確保解壓縮的頻譜圖與原始頻譜圖輸入非常相似。在這樣做時,它被迫學習每個主題的整個時間序列數(shù)據(jù)上每個譜圖段輸入的壓縮表示。壓縮表示是幫助訓練機器學習模型進行預測的功能。
在訓練中,模型學會將這些特征映射到“患者”或“控制”?;颊邔⒕哂斜瓤刂聘嗟陌l(fā)聲模式。在對先前看不見的對象進行測試時,該模型類似地將所有頻譜圖片段壓縮成一組減少的特征。然后,它的大多數(shù)規(guī)則:如果受試者的發(fā)聲區(qū)段大多不正常,則將它們歸類為患者; 如果他們大多數(shù)是正常的,他們被歸類為控制。
在實驗中,該模型與需要手動特征工程的最先進模型一樣精確地執(zhí)行。重要的是,研究人員的模型在訓練和測試中都能準確地進行,表明它從數(shù)據(jù)中學習臨床相關模式,而不是學科特定信息。
接下來,研究人員希望監(jiān)測各種治療方法 - 如手術和聲帶治療 - 如何影響聲音行為。如果患者的行為隨著時間的推移從異常變?yōu)檎?,那么他們很可能會改善。他們還希望在心電圖數(shù)據(jù)上使用類似的技術,用于跟蹤心臟的肌肉功能。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。