幫助找到人類基因組中缺失和重復(fù)的新方法

2022-08-24 21:20:51 編輯：孔晴雁來源：

導(dǎo)讀一種新的機器學(xué)習(xí)方法可以準(zhǔn)確地識別已被復(fù)制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關(guān)。這項由...

一種新的機器學(xué)習(xí)方法可以準(zhǔn)確地識別已被復(fù)制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關(guān)。這項由賓夕法尼亞州立大學(xué)研究人員開發(fā)的新方法整合了幾種算法的數(shù)據(jù)，這些算法試圖從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異 - 僅對人類基因組的蛋白質(zhì)編碼區(qū)進行高通量DNA測序。一篇描述該方法的論文，可以幫助臨床醫(yī)生提供更準(zhǔn)確的遺傳性疾病診斷，發(fā)表在Genome Research期刊上。

“外顯子組測序正迅速成為鑒定臨床環(huán)境中遺傳變異的黃金標(biāo)準(zhǔn)，因為它比其他方法更快，更便宜，”賓夕法尼亞州立大學(xué)生物化學(xué)和分子生物學(xué)副教授，該論文的第一作者Santhosh Girirajan說。“然而，目前用于從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異的算法具有非常高的假陽性率 - 它們識別的許多變體實際上并不真實。使用我們稱為“CN-Learn”的新方法，我們報告的大約90%的拷貝數(shù)變種是真實的。“

一種隨機森林機器學(xué)習(xí)方法，用于從外顯子組測序數(shù)據(jù)中識別拷貝數(shù)變異。在經(jīng)驗證的一組遺傳缺失和重復(fù)上訓(xùn)練了數(shù)百個決策樹的森林，然后可以使用從這些樹建立的模型來準(zhǔn)確地識別樣本外顯子組測序數(shù)據(jù)中的拷貝數(shù)變異。圖片來源：賓夕法尼亞州Girirajan實驗室

人類基因組通常包含每個基因的兩個拷貝，一個在染色體對的每個成員上。當(dāng)一個細(xì)胞分成兩個時，基因組被復(fù)制，以便每個子細(xì)胞獲得完整的基因補充，但偶爾會在基因組復(fù)制過程中發(fā)生錯誤，當(dāng)存在于精子或卵細(xì)胞中時，會導(dǎo)致個體獲得更多或少于兩個基因拷貝。

為了從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異，研究人員研究了從每個基因產(chǎn)生的DNA序列的相對數(shù)量。如果個體中只存在一個基因拷貝，那么他們希望看到的測序讀數(shù)比有兩個拷貝時更少，而且三個拷貝的基因會導(dǎo)致更多的讀數(shù)。但它并不那么簡單，因為許多其他因素可以影響從每個基因產(chǎn)生多少測序讀數(shù)。因此，研究人員開發(fā)了幾種算法，試圖從外顯子組測序數(shù)據(jù)中正確識別拷貝數(shù)變異。然而，單獨地，這些算法不是特別可靠。

“通常，復(fù)制數(shù)變量算法的大量誤報已經(jīng)通過使用多種算法來處理，并且只計算所有方法所確定的變體 - 如維恩圖，”Vijay Kumar Pounraja說，他是研究生。賓夕法尼亞州立大學(xué)和論文的第一作者。“這種方法有許多缺點和局限，因此我們決定開發(fā)一種新的機器學(xué)習(xí)方法。”

CN-Learn整合來自四種不同拷貝數(shù)變異算法的數(shù)據(jù)，并使用一小組經(jīng)過生物學(xué)驗證的缺失和重復(fù)來學(xué)習(xí)這些基因組事件的特征。這種學(xué)習(xí)過程由稱為“隨機森林”的機器學(xué)習(xí)算法促進，該算法使用數(shù)百個決策樹來模擬刪除和重復(fù)的遺傳背景與它們被驗證的可能性之間的關(guān)系。然后，CN-Learn使用此模型預(yù)測其他樣本中的刪除和重復(fù)，而無需驗證。

“關(guān)于患者的診斷和最終治療的決定是基于這些信息做出的，因此將它們弄好是非常重要的，”Girirajan說。“正因為如此，我們已經(jīng)將CN-Learn和所有必要的支持程序提供給一個簡單的軟件包下載。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！