您的位置: 首頁 >科技 >

真正大數(shù)據(jù)的微妙藝術(shù)Recursion Pharma映射身體

2022-06-28 03:52:00 編輯:鞏嬌育 來源:
導(dǎo)讀 通過一種稱為細(xì)胞繪畫的技術(shù),Recursion Pharmaceuticals正在創(chuàng)造一個真實(shí)的身體細(xì)胞形態(tài)圖。但那只是一個開始; 真正困難的部分是知道

通過一種稱為細(xì)胞繪畫的技術(shù),Recursion Pharmaceuticals正在創(chuàng)造一個真實(shí)的身體細(xì)胞形態(tài)圖。但那只是一個開始; 真正困難的部分是知道如何通過機(jī)器學(xué)習(xí)提問圖像的問題,以及如何管理數(shù)PB的數(shù)據(jù)。當(dāng)機(jī)器學(xué)習(xí)應(yīng)用于特定的工業(yè)領(lǐng)域時,定義目標(biāo)是最突出的問題之一。你想知道什么?在生物科學(xué)領(lǐng)域,這可能是一個非常棘手的問題,因?yàn)榱昵暗膭?chuàng)業(yè)公司Recursion Pharmaceuticals從經(jīng)驗(yàn)中學(xué)到了很多東西。數(shù)據(jù)量迅速擴(kuò)大,并且知道如何構(gòu)建一個能夠從數(shù)據(jù)中獲得洞察力的目標(biāo)是一件藝術(shù)。

“它仍然是一個大數(shù)據(jù)問題,”Recursion的首席技術(shù)專家Mason Victors表示,該公司位于猶他州鹽湖城。他在接受ZDNet采訪時說:“我們已經(jīng)選擇了大量的生物學(xué)技術(shù)來開發(fā)我們的平臺多年。” 這帶來了挑戰(zhàn)。

該公司每周收集65TB的數(shù)據(jù),并存儲在谷歌的云計算設(shè)施中。遞歸在四年多一點(diǎn)的時間內(nèi)積累了大約2.5 PB的信息。

遞歸試圖做兩件互補(bǔ)但又雄心勃勃的事情。名義上,Recursion的使命是找到治療疾病的方法,以減少昂貴的開發(fā)渠道。

細(xì)胞繪畫圖像遞歸-2019.png

用多種熒光染料染色的人腎細(xì)胞的圖像。在Recursion采用的細(xì)胞繪制方法中,目標(biāo)是識別機(jī)器學(xué)習(xí)程序隨后可以分析的少數(shù)幾個或幾千個細(xì)胞特征。

遞歸藥物

作為聯(lián)合創(chuàng)始人兼首席執(zhí)行官克里斯吉布森在接受ZDNet采訪時解釋說,該公司的“二十年”愿景是能夠“預(yù)測任何大小分子對任何的影響”。細(xì)胞。這是他和勝利者所稱的所有人類細(xì)胞生物學(xué)的地圖,盡可能多的細(xì)節(jié)關(guān)于細(xì)胞的“形態(tài)”,它們的形狀和結(jié)構(gòu)。

遞歸已經(jīng)為這個非常大的數(shù)據(jù)科學(xué)項目獲得了大量資金。它最近在由英國投資基金B(yǎng)aillie Gifford領(lǐng)導(dǎo)的C輪融資中獲得了1.21億美元的風(fēng)險資金,迄今為止總投資額達(dá)2億美元。

在管理創(chuàng)建所有人體細(xì)胞圖的雄心勃勃的項目的同時尋找治療方法是一種平衡行為,其中目標(biāo)函數(shù)可以很簡單,但數(shù)據(jù)管理可能非常復(fù)雜。

另外:人工智能先驅(qū)Sejnowski說這完全是關(guān)于漸變的

大數(shù)據(jù)

數(shù)據(jù)和人工智能市場格局2019:下一波混合出現(xiàn)

數(shù)字化轉(zhuǎn)型:一家如何使用人工智能,大數(shù)據(jù)和聊天機(jī)制來創(chuàng)建新服務(wù)

將大數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)見解

黑客攻擊:數(shù)十年的數(shù)據(jù)消失,無法實(shí)現(xiàn)復(fù)蘇(ZDNet YouTube)

FaceApp是一個測試。我們沒通過(CNET)

如何作為數(shù)據(jù)科學(xué)家失敗:3個常見錯誤(TechRepublic)

它開始于一個稱為“細(xì)胞繪畫”的程序,它覆蓋盡可能多的熒光模具中的細(xì)胞,以顯示細(xì)胞結(jié)構(gòu)的各個方面。細(xì)胞繪畫是麻省理工學(xué)院麻省理工學(xué)院和哈佛大學(xué)的安妮卡彭特在馬薩諸塞州劍橋開發(fā)的,他在那里經(jīng)營著卡彭特實(shí)驗(yàn)室。她創(chuàng)建的軟件“CellProfiler” 可免費(fèi)下載。

繪制細(xì)胞超出了細(xì)胞的典型“篩選”,旨在挑選出一些特征。相反,創(chuàng)建細(xì)胞“輪廓”的過程量化了數(shù)百或數(shù)千個關(guān)于細(xì)胞結(jié)構(gòu)的特征,然后可以將其作為輸入引入機(jī)器學(xué)習(xí)模型,進(jìn)而發(fā)現(xiàn)隨著擾動而變化的感興趣特征。擾動可能包括改變細(xì)胞RNA以了解它如何改變細(xì)胞結(jié)構(gòu)。

吉布森在猶他大學(xué)攻讀博士學(xué)位時首次發(fā)現(xiàn)了卡彭特的方法。“這是拍攝細(xì)胞照片的一種奇特方式,”吉布森說,但這對他來說也是一種啟示。他回憶起使用蛋白質(zhì)印跡技術(shù)來探索一種稱為“ 腦海綿狀血管畸形 ” 的病癥,即CCM,其中大腦中的血管變形,這可能導(dǎo)致相當(dāng)于微型中風(fēng)。蛋白質(zhì)印跡方法很繁瑣,一次檢測一種蛋白質(zhì)。

遞歸首席執(zhí)行官克里斯吉布森在攻讀博士學(xué)位時遇到了各種各樣的頓悟,并遇到了安妮卡彭特的染色細(xì)胞創(chuàng)造大量剖面的技術(shù)。他在此基礎(chǔ)上創(chuàng)立了公司,關(guān)于細(xì)胞形態(tài)學(xué)的更多信息可以為疾病提供新的線索。

遞歸藥物

“我們已經(jīng)熟悉了Carpenter的方法,在那里她能夠?qū)|西送入機(jī)器分類器,”他回憶說,并且可以同時自動檢測多種分子。Gibson和他的導(dǎo)師,當(dāng)時的大學(xué)醫(yī)學(xué)和生物學(xué)教授Dean Li嘗試了這種方法。細(xì)胞繪畫能夠在CCM的痕跡中確認(rèn)Gibson的一些預(yù)感,但是,“它看到了我沒有看到的東西,”他在將機(jī)器學(xué)習(xí)應(yīng)用于信息豐富的圖像時說。Gibson與Li一起創(chuàng)建了Recursion,其前提是細(xì)胞豐富的圖片可以產(chǎn)生原始的洞察力,而定期篩查不能。第三位聯(lián)合創(chuàng)始人,生物信息學(xué)家Blake Borgeson加入了他們的行列。

Carpenter是該公司的科學(xué)和技術(shù)顧問。其他顧問包括著名的深度學(xué)習(xí)研究員Yoshua Bengio,蒙特利爾著名的MILA機(jī)器學(xué)習(xí)機(jī)構(gòu)負(fù)責(zé)人,以及今年ACM圖靈終身計算機(jī)科學(xué)成就獎的三位獲獎?wù)咧唬约癋acebook的Yann LeCun和大學(xué)的Geoffrey Hinton多倫多

從細(xì)胞繪畫中,應(yīng)用機(jī)器學(xué)習(xí)來梳理一些可能很重要的基本關(guān)系。“重要的是你訓(xùn)練網(wǎng)絡(luò)的任務(wù)是什么,你如何找到你關(guān)心的事情,”CTO Victors說道,他擁有楊百翰大學(xué)的數(shù)學(xué)碩士學(xué)位,曾擔(dān)任過數(shù)據(jù)科學(xué)家。初創(chuàng)公司。

另外: Instagram預(yù)測流感。誰知道?我知道,那是誰

一個直截了當(dāng)?shù)膯栴}是,這些細(xì)胞看起來一樣嗎?“你向網(wǎng)絡(luò)提供三胞胎的細(xì)胞,其中兩個應(yīng)該是相似的,第三個應(yīng)該是不同的,”他解釋道。三元組是將細(xì)胞繪畫的特征編碼為“嵌入”的結(jié)果,或者是Victors將它們置于“潛在表示空間”中的結(jié)果??梢允褂靡恍┓浅:唵蔚慕y(tǒng)計方法,例如測量不同細(xì)胞的特征之間的“角距離”。

他說:“我們在幾何學(xué)建模方面發(fā)現(xiàn)了很多牽引力。” “與歐幾里德距離相反,角距離確實(shí)是一個有用的指標(biāo)。??”

但僅僅測量特征是不夠的,這就是為什么公司維持一個“濕實(shí)驗(yàn)室”,在那里可以在體外試驗(yàn)擾動以觀察給定分子如何響應(yīng)化合物。Victors表示,從巨大的數(shù)據(jù)中汲取意義的舞蹈是一件大事,它使公司在生物學(xué)和醫(yī)學(xué)的AI中脫穎而出。

Victors觀察到,“藥物發(fā)現(xiàn)中的其他群體被手銬綁在他們無法控制的現(xiàn)有靜態(tài)數(shù)據(jù)集上”,而遞歸正在不斷產(chǎn)生新的數(shù)據(jù)。因此,他堅持認(rèn)為,公司不僅可以培訓(xùn),還可以更加謹(jǐn)慎地驗(yàn)證機(jī)器學(xué)習(xí)模型。

“它歸結(jié)為能夠以極其巨大的規(guī)模生成數(shù)據(jù),并在緊密的反饋循環(huán)中生成數(shù)據(jù),”他說。“它通常涉及數(shù)據(jù)科學(xué)家,機(jī)器學(xué)習(xí)專家和生命科學(xué)專家之間的緊密合作,以弄清楚我們?nèi)绾螌?shí)際模擬生物學(xué)本身,以及這對分析的影響是什么我們采納。“

“從商業(yè)角度來看,它讓我們能夠以一種非常有效的方式迅速追蹤潛在的候選藥物,”Victors說。“我們可以進(jìn)行實(shí)驗(yàn)來生成數(shù)據(jù),以確定我們是否認(rèn)為這種化合物具有潛在的有效性,然后如果我們這樣做,可以通過增加劑量和更多重復(fù)進(jìn)行更深入的研究,以驗(yàn)證其他疾病試劑,看看我們是否在那里看到類似的功效。“

“我們不必外包所有這些,”他指出,體外測試和篩選,“因此我們可以消除更長的等待時間和它帶來的成本。”

遞歸首席技術(shù)專家梅森·維克托斯(Mason Victors)不僅要教導(dǎo)每周收集的65TB數(shù)據(jù)的含義,還要管理積累的2.5PB生物數(shù)據(jù)庫存。

遞歸藥物

Victors表示,它不僅僅是一個濕實(shí)驗(yàn)室,還有“必須構(gòu)建的所有工程基礎(chǔ)設(shè)施來處理大量的流數(shù)據(jù)”,換句話說,大數(shù)據(jù)挑戰(zhàn)。“這是關(guān)于如何處理數(shù)據(jù),將其傳輸?shù)皆疲瑢⑵浯鎯υ谀抢?,它是關(guān)于具有可擴(kuò)展的分布式系統(tǒng),然后以適當(dāng)?shù)母袷椒祷財?shù)據(jù)以進(jìn)行一次性或臨時分析 - 所有這些由于我們正在努力實(shí)現(xiàn)的目標(biāo)的總體范圍和雄心,這也是一個巨大的挑戰(zhàn)。“

控制數(shù)據(jù)非常重要,因?yàn)楣究梢粤粢鈹?shù)據(jù)分布隨時間的變化。“當(dāng)我們改進(jìn)我們使用的生物工具時,為了更加具體和有選擇性,這可能導(dǎo)致與過去不同的分布,”Victors觀察到。了解數(shù)據(jù)的“復(fù)古”,如果您愿意,公司可以調(diào)整其分析,以考慮這種偏差可能如何影響機(jī)器學(xué)習(xí)。由于大部分AI都受到數(shù)據(jù)中小的統(tǒng)計變化的影響,因此認(rèn)識到諸如分布變化之類的事物可能會在模型中獲得有用的分析。

大數(shù)據(jù)工作的一個結(jié)果是一個新的公開數(shù)據(jù)集,Recursion 在5月發(fā)布,稱為RxRx1。它包含300千兆字節(jié)的超過100,000張“代表不同生物背景的圖像”。遞歸希望數(shù)據(jù)集能夠刺激研究人員開發(fā)新的機(jī)器學(xué)習(xí)技術(shù)。它是在當(dāng)月的學(xué)習(xí)代表國際會議上宣布的。

遞歸在今天的機(jī)器學(xué)習(xí)中需要做的大部分,例如三胞胎的角距離,不需要深度學(xué)習(xí)的AI,相反,它可以用非?;镜墓ぞ邅硗瓿伞?ldquo;深度學(xué)習(xí)方法不是我們在這里所做的大部分工作,”Victors說。“我們在那里找到了互補(bǔ)信號,但標(biāo)準(zhǔn)方法可以讓你獲得90%的信號。”

他指出,深度學(xué)習(xí)存在問題。“變分自動編碼器”是一種流行的無監(jiān)督深度學(xué)習(xí)形式,可能會產(chǎn)生問題,因?yàn)樗鼪]有足夠的選擇性。

“任何時候你生成生物數(shù)據(jù),都會產(chǎn)生批量效應(yīng),”Victors指出。“這些只是由于實(shí)驗(yàn)過程本身造成的滋擾因素 - 比如,此時溫度不同,濕度不同,或者細(xì)胞處理的時間比之前的時間長。”

變量自動編碼器“也將學(xué)習(xí)如何在表示中表示那些你不想要的批處理效果,”他指出。

擾動給定分子并觀察發(fā)生的事情的過程聽起來有點(diǎn)像機(jī)器學(xué)習(xí)領(lǐng)域中的“強(qiáng)化學(xué)習(xí)”。正如Victors所描述的那樣,有一種“狀態(tài) - 行動”模型,與強(qiáng)化學(xué)習(xí)中的概念相同。“我們使用我們的圖像來表示細(xì)胞狀態(tài)的快照,然后我們可以通過引入擾動來對這些細(xì)胞狀態(tài)起作用,并學(xué)習(xí)行動的意義。”

但是,他急忙補(bǔ)充說,它“在很多方面與強(qiáng)化學(xué)習(xí)完全不同 - 它不僅僅是學(xué)習(xí)狀態(tài) - 行動關(guān)系,我們還必須確保進(jìn)入這些功能的數(shù)據(jù)配對得恰到好處。”

特色

人工智能與商業(yè)的未來

人工智能與商業(yè)的未來

機(jī)器學(xué)習(xí),任務(wù)自動化和機(jī)器人技術(shù)已經(jīng)廣泛應(yīng)用于商業(yè)領(lǐng)域。這些和其他人工智能技術(shù)即將繁衍,我們將研究組織如何最好地利用它們。

閱讀更多

他認(rèn)為,從長遠(yuǎn)來看,在創(chuàng)建統(tǒng)一的細(xì)胞生物學(xué)圖譜方面有深層學(xué)習(xí)的作用。

“我們希望深度學(xué)習(xí)真正有效的一個領(lǐng)域是創(chuàng)建一個通用的潛在表示空間,一個所有數(shù)據(jù)所在的空間,你沒有學(xué)過你不想知道的東西,只學(xué)習(xí)你想要的東西知道,跨越時間和跨越不同條件的實(shí)驗(yàn),距離和相似性意味著在這個空間中的某些東西 - 這仍然是為此目的進(jìn)行積極研究的領(lǐng)域。“

首席執(zhí)行官吉布森說,所有這些都可以追溯到發(fā)現(xiàn)的臨床效用。他指出,“試劑并不完美,它們很雜亂,我們必須有一個非常嚴(yán)格的門檻”,對計算機(jī)發(fā)現(xiàn)的內(nèi)容具有統(tǒng)計信心。“我擔(dān)心這個行業(yè)有很多過度適應(yīng)的事情,”他談到生物學(xué)中的機(jī)器學(xué)習(xí)。“有很多機(jī)器學(xué)習(xí)應(yīng)用于靜態(tài)的公共數(shù)據(jù)集。” 吉布森表示有信心該公司沒有陷入這個陷阱,部分原因是該公司已經(jīng)回顧性地將其工具應(yīng)用于一些已知數(shù)據(jù),并提出了與已知數(shù)據(jù)相匹配的藥物與疾病之間的關(guān)系,顯示該過程有效。

正如他所說,真正的考驗(yàn)在于人,這需要資金和伙伴關(guān)系。利用它的資本,Recursion正處于CCM治療的第一階段臨床試驗(yàn)中,當(dāng)Gibson有關(guān)于細(xì)胞繪畫和大數(shù)據(jù)的頓悟時,他正在研究這個問題。該公司還正在準(zhǔn)備一項治療神經(jīng)退行性疾病(II型神經(jīng)纖維瘤病)的II期臨床試驗(yàn)。(關(guān)于Recursion管道的信息可以在公司網(wǎng)站上找到。)

就試驗(yàn)成本而言,這類疾病的資源密集程度較低。更大的項目需要更大的口袋,吉布森說,未來兩年公司臨床結(jié)果的巨大收益可能來自與腫瘤學(xué)領(lǐng)域的大合作伙伴進(jìn)行的一項研究。“我們認(rèn)為它有機(jī)會超越其他兩個。”

Gibson認(rèn)為,選擇合作伙伴并單獨(dú)進(jìn)行某些調(diào)查是靈活性,反映了平臺的價值。了解數(shù)據(jù)的特性,并知道如何提出數(shù)據(jù)的問題,具有可以通過多種方式開采的價值。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。